Сегодня наш собеседник - Анкур Патель. Анкур в настоящее время работает в 7Park Data, работая вице-президентом по науке о данных. Ранее он работал специалистом по анализу данных в компании ThetaRay. Анкур глубоко заинтересован в использовании алгоритмов обучения без учителя для поиска скрытых закономерностей в крупномасштабных немаркированных данных. Это побудило Анкура написать книгу на эту тему: Практическое обучение без учителя с использованием Python. Он был опубликован и теперь доступен на Amazon и O’Reilly.

Чтобы узнать больше об Анкур, загляните здесь.

Я хотел бы от всей души поблагодарить Анкура за то, что он нашел время для этого интервью. Я надеюсь, что это интервью послужит цели для улучшения сообществ специалистов по науке о данных и машинного обучения в целом :)

Интервью с Анкуром Пателем, вице-президентом по Data Science в 7Park Data

Саяк: Привет, Анкур! Спасибо за интервью. Рад видеть вас здесь сегодня.

Анкур: Спасибо, что пригласили меня, Саяк. Удовольствие мое.

Саяк: Может быть, вы могли бы начать с того, чтобы представиться - какова ваша нынешняя работа и каковы ваши обязанности там?

Анкур: я руковожу командой специалистов по анализу данных в 7Park Data. Мы берем альтернативные данные, такие как данные кредитной карты, квитанции по электронной почте, поток посещений, данные приложений, точки продаж и данные о местоположении, и производим их для клиентов, таких как хедж-фонды. Эти хедж-фонды получают более своевременную информацию об экономической деятельности в режиме реального времени из наших альтернативных информационных продуктов по сравнению с традиционными данными, которые обычно предоставляются компаниями и государственными учреждениями с задержкой не менее одного месяца.

Саяк: Довольно интересно. Я очарован тем, как 7Park Data занимается наукой о данных. Как вы заинтересовались наукой о данных и машинным обучением?

Анкур: Раньше я был трейдером суверенного долга в Bridgewater Associates и воочию убедился, насколько важными могут быть данные для принятия действительно разумных инвестиционных решений. После того, как я ушел из Bridgewater, я основал свой собственный хедж-фонд, в основном применяя науку о данных и машинное обучение к данным для реализации стратегии 100% систематического хедж-фонда. С тех пор я все глубже и глубже погружаюсь в пространство, изучая и применяя обучение без учителя, а в последнее время - обработку естественного языка. В начале этого года я выпустил свою первую книгу по обучению без учителя с О’Рейли, а сейчас работаю над своей второй книгой. Эта вторая книга будет посвящена применению обработки естественного языка на предприятии.

Саяк: Это замечательно. Я с нетерпением жду возможности прочитать книгу, когда она выйдет. Когда вы начинали работать в этой области, с какими проблемами вы столкнулись? Как вы их преодолели?

Анкур: еще в 2012 году многие люди не знали, что такое наука о данных или машинное обучение, и скептически относились к анализу данных для поиска шаблонов. С тех пор многое изменилось. Почти каждое предприятие сейчас интересуется данными - как получать данные, как принимать решения на основе данных, как автоматизировать работу с помощью машинного обучения и т. Д. Примечательно, сколько из 180 произошло за последние семь лет. Сейчас большая проблема для компаний заключается в том, как успешно запускать, доставлять и поддерживать модели машинного обучения в производственной среде. Это то, с чем все еще борются многие компании, но интерес к науке о данных и машинному обучению находится на рекордно высоком уровне.

Сейчас большая проблема для компаний заключается в том, как успешно запускать, доставлять и поддерживать модели машинного обучения в производственной среде. Это то, с чем все еще борются многие компании, но интерес к науке о данных и машинному обучению находится на рекордно высоком уровне.

Саяк: Я полностью согласен с той частью компаний, которая сейчас борется за создание моделей машинного обучения. Какие из главных проектов вы реализовали в годы становления?

Анкур: оригинальные модели науки о данных, которые мы построили в моем хедж-фонде, включали в себя сбор большого количества обычных данных от государственных учреждений и компаний и их оценку на предмет альфа. Определив, какие наборы данных имеют альфа-канал, мы смогли упаковать хорошие альфа-сигналы для генерации решений о покупке или продаже. В последние годы объем моей работы значительно расширился и охватил такие области, как обнаружение аномалий, распознавание именованных сущностей, устранение неоднозначности и связывание, извлечение текста и понимание прочитанного.

Саяк: Достаточно распространены разные задачи. Это должно быть интересно! Эти области науки о данных и машинного обучения стремительно развиваются. Как вам удается отслеживать последние важные события?

Анкур: это очень тяжелая работа. Многие газеты выходят ежедневно. Но количество действительно значительных прорывов в этой области очень мало в год. Например, выпуск Google BERT прошлой осенью стал переломным моментом для обработки естественного языка. С тех пор по крайней мере шесть компаний выпустили свои собственные версии языковой модели на основе Transformer, но эти достижения носят более постепенный характер.

Я стараюсь сосредоточить внимание на достижениях, которые являются чрезвычайно важными, а не просто незначительно важными, и возможность сказать, какие достижения являются критическими, а какие нет, проистекает из опыта работы на местах. Я также часто просматриваю Crunchbase, чтобы узнать, как новые стартапы решают различные варианты использования новых технологий, которые появляются на рынке.

Я стараюсь сосредоточить внимание на достижениях, которые являются чрезвычайно важными, а не просто незначительно важными, и возможность сказать, какие достижения являются критическими, а какие нет, проистекает из опыта работы на местах.

Саяк: это очень исчерпывающая информация. Я уверен, что попробую следить за этим. Расскажите о своей книге - что в первую очередь побудило вас написать ее? Как вы подошли к структурированию книги и тому подобному?

Анкур: В конце 2017 года я только начал работать в израильском стартапе, который специализируется на обучении без учителя, под названием ThetaRay. Если у вас есть какие-либо варианты использования в борьбе с отмыванием денег или мошенничеством, ThetaRay - ваш лучший выбор. Я осознал, насколько мало в то время существовало литературы по применению обучения без учителя к реальным проблемам. Еще в 2017 году неконтролируемое обучение считалось эзотерической теоретической областью, но неконтролируемое обучение имеет несколько действительно мощных приложений в бизнесе. Мне пришлось поделиться некоторыми из них, и поэтому я начал писать книгу. Обучение без учителя является основой для таких приложений, как обнаружение аномалий, групповая сегментация, рекомендательные системы и все генеративные модели, которые мы видели на сегодняшний день.

Я организовал книгу таким образом, чтобы новички в обучении без учителя могли быстро освоиться. Каждая глава знакомит с теорией и сопровождается ее применением к реальной проблеме. Первая половина книги посвящена приложениям для неконтролируемого обучения, созданным на основе Scikit-Learn, а вторая половина исследует приложения, созданные на основе нейронных сетей. Читатель отправляется в путешествие, шаг за шагом.

Еще в 2017 году неконтролируемое обучение считалось эзотерической теоретической областью, но неконтролируемое обучение имеет несколько действительно мощных приложений в бизнесе. […] Обучение без учителя является основой для таких приложений, как обнаружение аномалий, групповая сегментация, рекомендательные системы и все генеративные модели, которые мы видели на сегодняшний день.

Саяк: Должен признаться, мне очень нравится читать вашу книгу. Я прочитал первые шесть глав, и мне особенно понравилось, как вы продемонстрировали фрагменты кода. Будучи практикующим, я часто сталкиваюсь с проблемой изучения новой концепции. Вы бы хотели поделиться своим подходом к этому процессу?

Анкур: Обычно я начинаю с поиска приложений новой концепции. Если я не пойму, насколько эта новая концепция полезна для решения реальной проблемы, у меня не будет мотивации тратить время на изучение новой концепции. Когда я усвою добавленную стоимость изучения новой концепции и ее полезности, я начну с кода и примеров, представленных в Интернете, чтобы понять, как применять эту концепцию. Только после этого я углубляюсь в теорию и математику.

Для меня теория и математика важны, но они не так важны, как знание того, для каких вариантов использования актуальна новая концепция и как работает код. Многие из нас не знают точно, как работает компьютер, но это не мешает нам выполнять невероятно важную работу с помощью компьютера. Я обнаружил, что слишком много людей, плохо знакомых с машинным обучением, застревают на теоретической стадии и никогда не продвигаются дальше. Это препятствует их прогрессу в этой области.

Для меня теория и математика важны, но они не так важны, как знание того, для каких вариантов использования актуальна новая концепция и как работает код.

Саяк: Какие красивые аналогии! Это действительно мотивирует! Есть какие-нибудь советы новичкам?

Анкур: Да, я настоятельно рекомендую использовать видео, доступные на YouTube, O’Reilly Safari и у поставщиков MOOC. Но лучший способ научиться - писать код и строить модели. Не тратьте слишком много времени на теорию. Стройте. Соревнуйтесь на Kaggle. И используйте ресурсы, которые помогут вам быстро начать работу и строить.

Для массового машинного обучения я рекомендую Практическое машинное обучение с использованием Scikit-Learn, Keras и TensorFlow Аурелиена Джерона. Для обучения без учителя я рекомендую мою книгу Практическое обучение без учителя с использованием Python. Я также считаю, что Генеративное глубокое обучение Дэвида Фостера является очень интересным для чтения.

Саяк: Я рад, что у меня есть эти ресурсы. Я прочитал несколько глав из книги Орелиен, и они действительно всеобъемлющие. Однако я еще не начал писать книгу Дэвида. Большое спасибо, Анкур, за это интервью и за то, что поделился своими ценными идеями. Я надеюсь, что они будут очень полезны сообществу.

Анкур: Конечно, рад помочь. Если вам нужно больше, свяжитесь со мной по адресу [email protected].

Надеюсь, вам понравилось читать это интервью. Следите за этим местом для следующего, и я надеюсь увидеть вас в ближайшее время. Здесь где можно найти все интервью, сделанные на данный момент.

Если вы хотите узнать обо мне больше, загляните на мой сайт.