Нашият интервюиран днес е Анкур Пател. Понастоящем Анкур работи в 7Park Data, като е вицепрезидент на Data Science. Преди това е бил Data Scientist в ThetaRay. Ankur е силно заинтересован от използването на алгоритми за обучение без надзор, за да открие скрити модели в широкомащабни немаркирани данни. Това накара Анкур да напише книга по темата: „Практическо обучение без надзор с помощта на Python“. Той е публикуван и вече е достъпен чрез Amazon и O’Reilly.

За да научите повече за Ankur, вижте тук.

Бих искал да благодаря от все сърце на Анкур, че отдели време да направи това интервю. Надявам се, че това интервю служи за подобряване на науката за данни и общностите за машинно обучение като цяло :)

Интервю с Анкур Пател, вицепрезидент на Data Science в 7Park Data

Саяк: Здравей Анкур! Благодаря ви, че направихте това интервю. За мен е удоволствие да сте тук днес.

Анкур: Благодаря, че ме прие, Саяк. Удоволствието е мое.

Саяк: Може би бихте могли да започнете, като се представите - каква е настоящата ви работа и какви са отговорностите ви там?

Анкур: Управлявам екипа за наука за данни в 7Park Data. Ние вземаме алтернативни данни като кредитна карта, разписка по имейл, поток от кликвания, информация за приложението, точка на продажба и данни за местоположение и ги произвеждаме за клиенти като хедж фондове. Тези хедж фондове получават по-навременно отчитане на икономическата активност в реално време от нашите алтернативни продукти за данни в сравнение с конвенционалните данни, които обикновено се отчитат от компании и държавни агенции с поне един месец закъснение.

Саяк: Доста интересно. Очарован съм от начина, по който 7Park Data прави наука за данните. Как се заинтересувахте да се занимавате с наука за данни и машинно обучение?

Анкур: Преди бях търговец на държавни дългове за Bridgewater Associates и видях от първа ръка колко мощни могат да бъдат данните при вземането на наистина интелигентни инвестиционни решения. След като напуснах Бриджуотър, създадох свой собствен хедж фонд, прилагайки до голяма степен наука за данни и машинно обучение към данните, за да управлявам 100% систематична стратегия за хедж фонд. Оттогава навлязох все по-дълбоко и по-дълбоко в пространството, изучавайки и прилагайки неконтролирано обучение, а наскоро и обработка на естествен език. Издадох първата си книга за неконтролирано обучение с O’Reilly по-рано тази година и сега работя върху втората си книга. Тази втора книга ще се фокусира върху прилагането на обработка на естествен език в предприятието.

Саяк: Чудесно е да го знам. Ще чакам с нетърпение да прочета книгата, когато излезе. Когато започвахте в областта, с какви предизвикателства се сблъскахте? Как ги преодоляхте?

Анкур: През 2012 г. много хора не знаеха какво е наука за данни или машинно обучение и бяха скептични към извличането на данни за модели. Много неща се промениха оттогава. Почти всяко едно предприятие сега се интересува от данни – как да получава данни, как да взема решения от данни, как да автоматизира работата с помощта на машинно обучение и т.н. Доста забележително е колко много от 180 се случиха през последните седем години. Голямото предизвикателство за компаниите сега е как успешно да стартират, доставят и поддържат модели за машинно обучение в производството. Това е нещото, с което много компании все още се борят, но интересът към науката за данни и машинното обучение е най-висок за всички времена.

Голямото предизвикателство за компаниите сега е как успешно да стартират, доставят и поддържат модели за машинно обучение в производството. Това е нещото, с което много компании все още се борят, но интересът към науката за данни и машинното обучение е най-висок за всички времена.

Саяк: Абсолютно съм съгласен с борещата се част от компаниите в наши дни за производство на модели за машинно обучение. Какви бяха някои от основните проекти, които направихте през годините на формиране?

Анкур: Оригиналните модели за научни данни, които изградихме в моя хедж фонд, включваха вземане на много конвенционални данни от правителствени агенции и компании и оценката им за алфа. Като идентифицирахме кои набори от данни имат алфа, успяхме да пакетираме добри алфа сигнали, за да генерираме решения за покупка или продажба. През последните години обхватът на моята работа се разшири значително в области като откриване на аномалии, разпознаване на наименувани обекти, отстраняване на недвусмисленост и свързване, извличане на текст и разбиране при четене.

Саяк: Доста широко разпространени различни задачи. Това трябва да е вълнуващо! Тези области на науката за данни и машинното обучение се развиват бързо. Как успявате да следите последните важни събития?

Анкур: Това е много тежка работа. Ежедневно се публикуват много документи. Но броят на наистина въздействащите пробиви в областта е много малък на година. Например пускането на BERT на Google миналата есен беше преломен момент за обработката на естествен език. Оттогава най-малко шест компании са пуснали свои собствени версии на езиков модел, базиран на Transformer, но този напредък е по-постепенен по природа.

Опитвам се да се съсредоточа върху напредъка, който е монументално въздействащ срещу само незначително важен, и да мога да разбера кои напредъци са критични спрямо не, идва от опит в работата на терен. Също така преглеждам често Crunchbase, за да намеря как новите стартиращи фирми се справят с различни случаи на употреба с новата технология, която идва на пазара.

Опитвам се да се съсредоточа върху напредъка, който е монументално въздействащ срещу само незначително важен, и да мога да разбера кои напредъци са критични спрямо не, идва от опит в работата на терен.

Саяк: Това е много изчерпателна представа. Сигурен съм, че ще се опитам да следвам това. Разкажете ни за вашата книга – какво ви мотивира да я напишете на първо място? Как подходихте към структурирането на книгата и подобни неща?

Анкур: В края на 2017 г. току-що бях започнал да работя за израелски стартиращ бизнес, който е специализиран в обучение без надзор, наречен „ThetaRay“. Ако имате някакви случаи на употреба в борбата с прането на пари или измамите, ThetaRay е вашият магазин. Осъзнах колко малко литература е съществувала по онова време за прилагане на обучение без надзор към проблеми от реалния свят. Още през 2017 г. обучението без надзор се смяташе за езотерична, теоретична област, но обучението без надзор има някои наистина мощни приложения в бизнеса. Трябваше да споделя някои от тях и затова започнах да пиша книгата. Неконтролираното обучение е основата за приложения като откриване на аномалии, групово сегментиране, препоръчителни системи и всички генеративни модели, които сме виждали до момента.

Организирах книгата по начин, по който новодошлите в обучението без надзор могат бързо да навлязат. Всяка глава представя теорията и е последвана от приложението на тази теория към проблем от реалния свят. Първата половина на книгата включва приложения за обучение без надзор, изградени от Scikit-Learn, а втората половина изследва приложения, изградени от невронни мрежи. Отвежда читателя на пътешествие една малка стъпка в даден момент.

Още през 2017 г. обучението без надзор се смяташе за езотерична, теоретична област, но обучението без надзор има някои наистина мощни приложения в бизнеса. […] Неконтролираното обучение е основата за приложения като откриване на аномалии, групово сегментиране, препоръчителни системи и всички генеративни модели, които сме виждали до момента.

Саяк: Трябва да призная, че наистина ми е приятно да чета книгата ви. Прочетох първите шест глави и специално ми хареса начинът, по който демонстрирахте кодовите фрагменти. Тъй като съм практикуващ, едно нещо, с което често се затруднявам, е да науча нова концепция. Искате ли да споделите как подхождате към този процес?

Анкур: Обикновено започвам с търсене на приложения на новата концепция. Освен ако не разбера как тази нова концепция е полезна при решаването на проблем от реалния свят, нямам мотивацията да отделям време за изучаване на новата концепция. След като усвоя добавената стойност от изучаването на новата концепция и нейната полезност, започвам с кода и примерите, предоставени онлайн, за да разбера как да прилагам концепцията. Едва след това се задълбочавам в теорията и математиката.

За мен теорията и математиката са важни, но те не са толкова важни, колкото да знам за какви случаи на употреба е подходяща новата концепция и как работи кодът. Много от нас не знаят как точно работи компютърът, но това не ни пречи да вършим невероятно важна работа с помощта на компютър. Откривам, че твърде много хора, които са нови за машинното обучение, засядат в теоретичния етап и никога не преминават отвъд него. Това спъва напредъка им в областта.

За мен теорията и математиката са важни, но не са толкова важни, колкото да знам за какви случаи на употреба е подходяща новата концепция и как работи кодът.

Саяк: Какви красиви аналогии! Това е наистина мотивиращо! Някакви съвети за начинаещите?

Анкур: Да, горещо препоръчвам да използвате наличните видеоклипове в YouTube, O’Reilly Safari и доставчиците на MOOC. Но най-добрият начин да научите е да пишете код и да създавате модели. Не прекарвайте твърде много време в теория. Отидете да строите. Състезавайте се на Kaggle. И използвайте ресурси, които ще ви накарат да работите и да изграждате бързо.

За основното машинно обучение препоръчвам „Практическо машинно обучение с помощта на Scikit-Learn, Keras и TensorFlow“ на Aurelien Geron. За обучение без надзор препоръчвам моята книга Практично обучение без надзор с помощта на Python. Също така намирам Generative Deep Learning на Дейвид Фостър за много завладяващо четиво.

Саяк: Радвам се, че имам тези ресурси. Прочетох няколко глави от книгата на Орелиен и те са наистина изчерпателни. Въпреки това тепърва ще започвам книгата на Дейвид. Благодаря ти много, Анкур, че направи това интервю и че сподели ценните си прозрения. Надявам се, че те ще бъдат изключително полезни за общността.

Анкур: Разбира се, радвам се да помогна. За всеки, който иска повече, моля, не се колебайте да се свържете с мен на [email protected].

Надявам се да ви е харесало да прочетете това интервю. Внимавайте за следващото и се надявам да се видим скоро. Това е „където“ можете да намерите всички интервюта, направени до момента.

Ако искате да научите повече за мен, вижте моя уебсайт.