Моят колега Джудит наскоро ме интервюира за ролята ми на ръководител на Data Science за Owlin blog. Говорихме за това какво представлява Data Science в Owlin и какви са текущите ни фокуси и предизвикателства.

В Owlin не бихме могли да правим това, което правим без страхотната работа на всички различни хора, работещи с нас. В тази поредица от интервюта, Хората на Owlin, ние ги питаме за тяхната ежедневна работа, произход и накъде виждат Owlin да отива в бъдеще. Този месец: Флорис Хермсен, нашият ръководител на отдел „Наука за данни“, ни разказва за ролята на екипа по наука за данни и целите, за които работят.

Какво прави учен по данни в Owlin?

„Като учени за данни, нашата основна отговорност е да поддържаме и подобряваме стека за машинно обучение и анализ на данни на Owlin. Обработката на естествен език (NLP) е крайъгълният камък на нашето предложение, тъй като ни помага да анализираме световните новини и други източници на текст, за да намерим полезна информация за нашите клиенти. Нашите модели изпълняват широк набор от типични NLP задачи, вариращи от превод, класификация на съдържанието, анализ на настроенията, извличане на обекти до дедупликация на съдържание (съпоставяне на почти дублирани новинарски статии и друга информация) и много повече! След като тръбопроводът на НЛП следва нашия аналитичен слой: ние откриваме кои подходящи теми се развиват около обектите, които проследяваме, и ги класираме съответно по различни начини чрез сравнителен анализ. Също така, много усилия отиват в поддържането на нашите разширени възможности за многоезично търсене.

Една по-малко очевидна, но също толкова важна отговорност на екипа за наука за данни, според мен, е подкрепата на други екипи в рамките на организацията, правейки техните процеси по-ефективни и ефективни чрез интелигентно използване на данни. Това варира от подпомагане на наблюдението на критични системни компоненти до прогнозиране кои източници на данни изпитват проблеми чрез откриване на аномалии.“

Къде е основният фокус за вас и вашия екип в този момент?

„В момента сме на етап, в който става все по-трудно и по-трудно просто да включим модел за машинно обучение, за да изпълним определена задача по-добре или по-ефективно. Например, сложните машини за анализиране, курирани от нашите анализатори, търсят много различни сигнали в новините, с непрекъснато променяща се и нарастваща таксономия на сигналите. Замяната на такава система директно с нови AI решения идва с много усложнения, като липса на адаптивност и обяснимост. И двете са важни за нашите клиенти и нашите собствени ежедневни операции. Също така, такова решение идва с много персонализирани, нишови и плавни изисквания за въвеждане на данни. Това представлява голямо предизвикателство!

За нас отговорът се крие в създаването на хибридни системи, които позволяват на моделите за машинно обучение и човешките куратори да работят заедно, като взаимно подобряват входящите и изходящите данни в затворена екосистема с данни, работеща с хора в цикъла. Истинското предизвикателство тук се върти около въвеждането на система, която може ефективно и бързо да генерира точните данни за обучение за модели на машинно обучение. Според мен това всъщност е по-трудно предизвикателство от избора на правилните моделни архитектури. Това е в съответствие с по-широката тенденция в областта на науката за данни от ориентиран към моделите към ориентиран към данни AI: моделите са само една част от уравнението и получавате правилното обучение данните са също толкова важни, ако не и повече. Ако се справите с това предизвикателство правилно, системата поема ролята на специалист по данни по отношение на генерирането на нови модели и се превръща в решение за самообслужване за експерти в областта. Това значително подобрява гъвкавостта на моделите, които пускате в производството, и драстично съкращава времето за излизане на пазара за нови идеи.

На този етап вие вече не просто разработвате и внедрявате модели в тръбопровод за машинно обучение, но сте ангажирани с пълна процесна и организационна трансформация. Трябва да помислите как данните се съхраняват по надеждни начини, как хората взаимодействат със системите, какви договори за данни трябва да съществуват между различните части на организацията и как да проектирате системата за метаданни, която трябва да организира всичко това.

Преди машинното обучение да може да излезе на сцената, процесите, които трябва да заменят или увеличат, трябва да са достатъчно зрели, както и частта от организацията, която засяга. Има много различни модели, които могат да помогнат за формулирането на този въпрос (само Google „зрялост на данните“ или „зрялост на AI“). Но общото между всички тези модели е, че се нуждаете от стабилно и надеждно събиране на данни, добра достъпност до данните, солидна и възпроизводима стратегия за анализ на данни и организация, която разбира стойността и необходимите усилия, за да стигнете до там.“

Как работите за това като ръководител на екипа за наука за данни?

„Работейки като специалист по данни в Owlin, трябва да имате предвид, че системите, върху които работите, всъщност се използват от клиенти и непрекъснато се актуализират. Почти можете да го сравните с надграждане на самолет по време на полет.

Следователно трябва да предприемате малки, постепенни стъпки към желаното състояние. Изключително сложно е да се създаде изцяло нова система и в същото време да се поддържа самолетът във въздуха. Следователно може би първо се опитваме да подобрим един от бутоните в пилотската кабина. Или се опитвате да подобрите количките, използвани в пътническата кабина. Номерът е да направите постепенни промени, които бавно, но сигурно водят до желаното ново състояние на системата. Това идва с допълнителните предимства на бавно развиващите се съществуващи работни процеси, което води до по-лесно и по-добро приемане, както и до по-предсказуеми графици на проекта.

Разбира се, не можем да направим това сами. Имаме нужда от останалата част от компанията и тези инициативи трябва да бъдат приведени в съответствие на стратегическо ниво. Това може да бъде предизвикателство, защото изисква концепции и умения, които понякога са нови за мен, нашия екип и компанията като цяло. Трансформацията и иновациите никога не са лесни! Но хей, харесвам предизвикателствата и затова много се наслаждавам на процеса.“