Мостът между решенията, изградени в изследователски лаборатории, и внедрените в реалния свят

Има множество причини, поради които внедряването на модели за машинно обучение с „доказателство за концепцията“ в реалния свят може да се обърка. Понастоящем компаниите все още са в етап, в който степента на успеваемост на ML моделите варира значително, когато се прилагат към различни приложения от реалния свят, въпреки че това не е поради липса на опити.

Повечето големи технологични компании вече са инвестирали значително в опитите си да предоставят модели от изследователската лаборатория в ръцете на клиента. Google създаде TFX, Uber възприе Микеланджело, а Apple разработи Overton.

Фактът е, че предоставянето на точни модели за различни задачи е трудно, а да се гарантира, че тези модели продължават да бъдат точни е още по-трудно. Осигуряването на постоянен успех на тези модели за машинно обучение след внедряването е причината, поради която наблюдаемостта на модела е толкова неразделна част от повечето стекове MLOps.

Какво може да се обърка?

Най-добрият начин да се признае важността на наблюдаемостта в работния процес на машинно обучение е като се разбере какво може да се обърка след катомоделът е внедрен.

Дрейф на концепцията:Както при повечето неща в света, задачата на модела вероятно ще се промени с времето. Дрейф на концепцията или Дрейф на модела е режим на неуспех, който предполага, че статистическите свойства на целевата променлива, която моделът се опитва да предвиди, се променят с времето по непредвидени начини. Казано по-просто, задачата, която моделът първоначално е бил обучен да решава, може вече да не отразява точно задачата, пред която е изправен в производството.

Дрейф на данни:Данните са в центъра на всеки модел за машинно обучение и начинът, по който се обработват данните, може да повлияе или да повлияе на представянето на модела в производството. „Дрейф на данни“ възниква, когато разпределението на входните данни на внедрения модел има тенденция да стане статистически различно от разпределението, върху което е обучен. Това прави прогнозите на модела „неактуални“ и по същество безполезни.

Изкривяване на производството на обучение:След внедряването има голям шанс моделът да не работи толкова добре, колкото в набора от данни за офлайн валидиране. Обикновено това се дължи на факта, че данните, върху които е обучен моделът, са статистически различни от данните, които се наблюдават в производството. Това се нарича изкривяване на обучението и производството.

Има големи прилики между отклонението на данните и изкривяването на производството на обучение. Един от начините да ги разграничите е като разгледате качеството на прогнозите във времето. Ако моделът не е в състояние да постигне производителност на валидиране веднага след като бъде разгърнат, това може да се дължи на отклонение в производството на обучение. Въпреки това, ако моделът показа качествена производителност в миналото и сега показва внезапен спад в производителността, това може да се дължи на отклонение на данните.

Разхвърляни данни:В традиционни изследователски среди основна част от работния процес на машинно обучение е създаването и поддържането на качествени данни, върху които да се обучава и тества моделът. За съжаление, в реалния свят рядко има гаранция за такова качество. Данните, предоставени на разгърнатите ML модели, се натрупват от различни източници в интернет, като често няма надеждност за верността на техните източници.

Данните от реалния свят не винаги са добри. Уверете се, че подготвяте експериментите си за успех с нашия „безплатен уебинар“.

Тези и много други проблеми постоянно измъчват организациите, които се стремят да използват AI в своя бизнес. За да предоставят непрекъснато качествени прогнози, има основно изискване към компаниите да се погрижат за моделите дори след като са пуснати в производство. Тук се появява наблюдаемостта на модела.

Какво е наблюдаемост на модела?

На високо ниво можем да мислим за възможностите за наблюдение на модела (или за наблюдение на ML) като начин да идентифицираме защо нещо се случва в конвейера на ML. Това е различно от традиционните методи за „ML Monitoring“, които се фокусират върху каквоа не върху защо. Например, нека вземем примера на гореспоменатия концептуален дрифт. Стекът за наблюдение би могъл да открие и измери количеството на общото влошаване на производителността на тръбопровода. За разлика от това стекът за наблюдаемост на модела ще сравни разпределенията на данните и статистическите свойства, за да определи причината за отклонението.

Способността да се диагностицира основната причина за проблемите на модела чрез свързване на точки от валидирането и производството е това, което отличава наблюдаемостта от традиционното наблюдение на модела.

Както повечето специалисти по данни бързо разбират, реалният свят е доста различен от бележника на Юпитер. Наблюдаемостта на модела е ключът, който преодолява тази празнина. Той постига това, като изпълнява две цели: Време до откриване(намалява времето, необходимо за извеждане на повърхността на проблемите в рамките на работния поток на машинното обучение) и Време до разрешаване(улеснява навременното разрешаване на откритите проблем).

Процесът на наблюдаемост на модела

Наблюдаемостта на модела започва със систематично натрупване на показатели за качество на модела и оценки в различни среди – обучение, валидиране и различните етапи на производство. Всички тези данни са взаимосвързани заедно с анализите, за да генерират интерпретируеми заключения. Тези изводи се съхраняват в хранилище за оценка, централно хранилище за съхраняване и заявка на необработени данни за изводи. Наречен от Джош Тобин, хранилище за оценка съхранява отговора на модела, подпис на решенията на модела, към всяка част от входните данни за всяка версия на модела, във всяка среда.

Както е показано на диаграмата по-горе, оценката играе важна роля във всяка част от жизнения цикъл на ML модела. По време на проверката преди стартиране, магазинът за оценка картографира ефективността на модела с различни части от данни. Той също така информира строителя, ако има някакви статистически разлики между данните преди и след производството. Чрез проследяване на ефективността на различни модели през множество контролни точки, магазинът за оценка може също да помогне при избора кой модел би бил най-добрият за внедряване в производство.

След внедряване на ML модел в производство, магазинът за оценка също помага при мониторинга на модела. Например, има двусмислени сценарии, при които основната истина може изцяло да липсва в рамката. Хранилището за оценка помага да се следят прокси показателите, които корелират с производителността на модела, и предоставя предупреждения на собственика на модела, когато разпределението в тези прокси показатели се промени значително.

От гледна точка на организационния мениджмънт, изводите от магазина за оценка също са полезни за бизнеса по много начини. Те намаляват търканията между организациите, като събират различни заинтересовани страни (ML инженеринг, ML изследвания, MLOps) на една и съща страница, те оценяват показатели и сегменти последователно по време на валидиране и продукции, за да помогнат при повторно внедряване и улавяне на грешки, възникващи по време на производството. Магазинът за оценка също така помага на организацията да събира и етикетира производствени данни по-интелигентно и помага да се изберат правилните данни за преквалифициране на ML модела.

Защо има значение наблюдаемостта на модела?

Досега разглеждахме внедряването на стек за наблюдение на ML (част от по-голям конвейер MLOps) с помощта на хранилище за оценка. Сега ще разгледаме защо наблюдаемостта на модела е от значение и как е от значение за една организация в днешния свят.

Тъй като все повече и повече компании се обръщат към машинното обучение и започват да внедряват модели в реалния свят, наложително е да съществува рамка, която да помага при тълкуването на решенията, взети от тези модели. Моделите, въведени от големи, насочени към потребителите компании като Facebook и Amazon, имат силата да влияят директно върху общото население въз основа на техните прогнози. Ето защо е важно да се „увери, че тези модели са справедливи“, решенията им са отговорни и работата им е прозрачна, преди да бъдат публикувани на обществеността.

Тук се намесва наблюдаемостта на модела. Има случаи на модели, които „предпочитат определени полове и раси“ пред други, работещи чудесно за прогнози, които са „ограничени до конкретен набор от региони“ и други случаи, когато прогнозите, дадени от моделите, са на големи грешки, дължащи се на присъщи отклонения в данните. Наблюдаемостта на модела помага да се определят сегменти от данни, които причиняват това влошаване на производителността, което от своя страна помага за смекчаване на пристрастията и позволява на моделите да вземат по-справедливи решения в бъдеще.

Друг пример, демонстриращ необходимостта от наблюдаемост на модела, биха били случаи като анализ на измами, където разбирането на защозад промените в производителността е изключително важно. Анализът на измамите е поле, което претърпява постоянни промени в разпределението на своите данни поради враждебните действия на лошите участници. Джобовете с ниска производителност, създадени от тези участници, може да бъдат уловени от система за мониторинг на ML, но защообикновено се счита за прозрение, за да се сложи край на схемата за измама.

Заключение

В заключение, чрез интроспекция на ефективността и прогнозите на модела във времето, наблюдаемостта на модела може да помогне на изследователите да смекчат пристрастията, да увеличат обяснимостта и прозрачността, да идентифицират пропуски в данните и много повече. Той има потенциала да играе важна роля във всички етапи от жизнения цикъл на модела - валидиране, наблюдение, отстраняване на проблеми и подобряване. Тъй като ML моделите гравитират към по-големи и по-сложни структури, наблюдаемостта ще стане по-подходящ компонент в MLOps стековете.

Бележка на редактора: Heartbeat е онлайн публикация и общност, ръководена от сътрудници, посветена на предоставянето на първокласни образователни ресурси за наука за данни, машинно обучение и практици в дълбокото обучение. Поели сме ангажимент да подкрепяме и вдъхновяваме разработчици и инженери от всички сфери на живота.

Редакционно независим, Heartbeat е спонсориран и публикуван от Comet, MLOps платформа, която позволява на учените по данни и екипите на ML да проследяват, сравняват, обясняват и оптимизират своите експерименти. Ние плащаме на нашите сътрудници и не продаваме реклами.

Ако искате да допринесете, преминете към нашата покана за сътрудници. Можете също така да се регистрирате, за да получавате нашите седмични бюлетини (Deep Learning Weekly и Бюлетин на Comet), да се присъедините към нас в Slack и да следвате Comet в Twitter и LinkedIn за ресурси, събития и много повече, което ще ви помогне да изградите по-добри ML модели, по-бързо.