Промени ли се играта?

През 2010 г. Хилари Мейсън и Крис Уигинс публикуваха статия за процеса на наука за данни. Тогава Получаване, изчистване, изследване, моделиране и iNterpret беше името на играта. И все пак, това не е първият поглед върху науката за данните като процес. Нека проучим как основите са се променили с времето.

Наскоро прочетох невероятен учебник от Майкъл Съливан, който обсъжда статистическия процес. В него той предлага процедура от шест стъпки. Но с какво този модел е по-различен от този от 2010 г.? Ще обясня с пример за Covid-19:

  1. Задайте въпроси:Какво причинява висока степен на заразяване с Covid-19 в дадена държава?
  2. Събиране на данни:Събирайте данни за случаи, гъстота на населението, климат, използване на маски и др.
  3. Обобщаване на данни:Начертайте всеки показател. Проверете средни стойности, групиране, дисперсия.
  4. Моделиране:Поставяне на SIR модел или пространствен модел, използващ ковариати или регресия. Изберете си отровата.
  5. Извод:Дефинирайте хипотезата. Процентът на заразяване е по-бърз в страни с по-висока гъстота на населението. Използвайте или A/B тест, или Симулация.
  6. Съобщаване на резултатите:Направете няколко хубави графики, за да покажете резултатите от вашия анализ.

Забележете, че Sullivan не споменава никакъв софтуер или API за показване на резултати. Фокусът беше върху стойността на анализа.

Можем да се върнем още малко назад във времето. Наскоро научих в „удивителен разговор“ на Рон Кохави, че първият контролиран експеримент датира от „Стария завет“. Това означава, че се занимаваме с наука за данни от известно време! Но през последните 2000 години възникнаха нови предизвикателства. В днешно време данните са продуктът иценността се крие в непрекъснатото им извеждане.

Ще ни трябват още няколко стъпки, за да изпечем тортата. Нека поговорим за тези нови стъпки и как екипите мислят за това.

Първо, нека обсъдим две рамки за процес на наука за данни, които стават все по-популярни в общността на науката за данни. След това ще говорим за стъпките, които все още се нуждаят от допълнително развитие. Лично аз виждам две нови области, които изискват допълнително проучване: инженеринг за машинно обучение и планиране на проекти за машинно обучение.

Жизненият цикъл на рамката на ML проект

Най-полезният възглед за науката за данни като процес, който виждам тези дни, е предложен от курса „задълбочено обучение с пълен стек“.

Курсът добави няколко стъпки към това, което имахме преди със статистическия процес на Майкъл Съливан. Основните стъпки, които Съливан пренебрегна, са вътре в правоъгълниците планиране и настройка на проекта и внедряване и тестване.

Стъпките на планиране и настройка на проекта принадлежат към пресечната точка между управлението на проекти (PM) и науката за данни. Това са най-добрите ресурси за предизвикателствата на PM и науката за данни, които открих: Как да настроите своя проект, как да дефинирате успех и оценка на стойността. Въпреки това в коя дисциплина поставяме внедряване и тестване?

Това е мястото, където идва машинното обучение.

Терминът Инженеринг на машинно обучение набира все повече популярност. Не съм сигурен за произхода му, но в NIPS 2016 Мартин Зинкевич говори за надеждно машинно обучение. Той публикува списък с правила за инженеринг на машинно обучение. Интересното е, че те споменават, че „Инженеринг на надеждността на ML системи“ трябва да бъде нова дисциплина. Бих казал, че разговорът на Зинкевич е произходът на термина ML Engineering, но ако греша, уведомете ме в коментарите. Друг изключително влиятелен документ по темата е „скритият технически дълг на науката за данни“.

Инженерингът на машинното обучение е свързан с разгръщане, мониторинг и инфраструктура,последният правоъгълник в рамката с пълен стек. Ако искате да навлезете в подробности за рамката, можете да следвате „курса за дълбоко обучение с пълен стек“. Те също така обсъждат тестването и етикетирането.

Непрекъсната доставка за рамка за машинно обучение

И така, научихме, че планирането и внедряването са ключови части за всеки проект за наука за данни. Сега нека се потопим във втора рамка за процес на наука за данни. Непрекъснатата доставка за рамка за машинно обучение (CD4ML) от Danilo Sato.

Индустрията осъзна, че наличието на модел за машинно обучение в производството е много различно от наличието на евристика if-else. Имаме нужда от специфични „видове тестване“, специфични „видове мониторинг“ и дори „стратегии за внедряване“. Много хора и индустрии участват в разговора. CD4ML се фокусира върху компонентите на данните, модела и кода на проект за наука за данни. Традиционният проект за разработка на софтуер не разчита на данни толкова, колкото проектът за машинно обучение. „Моделният обект“ също е ново парче, което влиза в пъзела. За повече информация относно CD4ML, моля, проверете публикацията на Данило Сато.

Инженерният тласък ускорява с продукти като Mlflow, Metaflow и Flyte. Целта на тези платформи е да направят внедряването и тестването лесно. Въпреки това НЯМА много ресурси от страна на планирането и настройката на проекта. Можем да направим правилния инженеринг, но твърдя, че трябва да инвестираме повече време за определяне на целите на проекта.

  • С това казано, как да определим приоритета на усилията в областта на науката за данните?
  • Как се сравняваме с други инициативи?
  • Не успяваме ли да съобщим за въздействието на проектите поради несигурност?
  • Как да оценим риска на проектите?
  • Как да изберем между проста евристика и ML?

Всичко това са въпроси, които трябва да започнем да си задаваме. Финансите също могат да помогнат в разговора. В края на краищата ние просто трябва да оценим бъдещите награди и да изчислим нетната им настояща стойност.

Виждал съм няколко примера как се прави това. Оценяването на икономическата стойност е трудно. Това е причината да имаме финансови пазари и дисциплини, които са посветени само на „оценяването на стойността“. Ето един добър пример за ML, който обяснява това, което казвам:

Имате нужда от около 1,4 милиона долара годишни спестявания от вашето решение за борба с измамите, за да оцелеете на пазара. Да приемем, че вашият среден приход с 4 000 поръчки за покупка на месец — като се има предвид средната стойност на поръчката $83 — е $332 000.

Преди машинното обучение трябваше да плащате сторнирания за 40% от поръчките (1600). И това ви струва $132 800 на месец. С решение с 95 процента точност ще платите само за 5 процента от 4000 измамни транзакции (200), което е 16 600 долара. Вашата печалба е намаляване на разходите за сторнирания на плащания и възлиза на $116 200. Това са $1,394,400 спестявания всяка година.

И така, имате нужда от решение за откриване на 95 подозрителни транзакции от 100 (точност). Инструментът, който може да достигне този праг, получава зелена светлина. [Източник]

Измамата е област, в която оценяването на стойността е особено лесно. Въпреки това смятам това за непълен анализ. Трябва да оценим риска на проекта и да вземем предвид бъдещите плащания.

Освен това, какво ще кажете за обратната връзка при наличието на този инструмент в производство? Ще намалее ли точността с времето? Как това се отразява на стойността му? Има ли някакви етични опасения или непредвидени последствия?

В проект от тип класификация (измама/без измама) оценяването на стойността може да бъде лесно. Но какво да кажем за регресия, прогнозиране и групиране? Какво ще кажете за обработката на зрението, естествения език и оптимизацията? Как можем да оценим настоящата стойност на проект като Siri на Apple? Добър ресурс е „управление на проекти за машинно обучение“ от Вероника Меглер.

Помислете как и защо Google решава да наеме най-добрите софтуерни инженери на планетата, за да работят върху Tensorflow срещу Google Ads. Как се определя бюджетът между двата проекта? Моето подозрение е, че те инвестират повече в Tensorflow, защото очакват по-висока възвръщаемост на инвестициите в AI, повече от всяка друга компания на планетата. Два ресурса, които проучвам по тази тема, са: „Как да измервам каквото и да било“ и „Инфономика“.

Заключение

В обобщение, процесът на наука за данни се развива и подобрява всяка седмица. Инвестициите на „големи играчи“ като „Google, Microsoft, Amazon, Baidu и Salesforce“ ускоряват еволюцията. Необходим е допълнителен анализ от страна на инженерството на машинното обучение, но вероятно по-спешно от страна на планирането на машинното обучение. В края на краищата, планирането е наистина „завършено с AI“ :)