Бизнесът днес работи с повече данни и те пристигат по-бързо от всякога. В същото време конкурентната среда се променя бързо, така че способността за вземане на бързи решения е от решаващо значение.

Както казаха Джейсън Дженингс и Лорънс Хотън, „Не големите ядат малките... Бързите ядат бавните“.

Бизнес успехът идва от вземането на бързи решения, използвайки възможно най-добрата информация.

Машинното обучение (ML) задвижва тази еволюция. Независимо дали даден бизнес се опитва да направи препоръки на клиентите, да усъвършенства производствените си процеси или да предвиди промени на пазара, ML може да помогне чрез обработка на големи обеми данни за по-добра подкрепа на компаниите, докато търсят конкурентно предимство.

Въпреки това, въпреки че машинното обучение предлага големи възможности, има някои предизвикателства. Системите за машинно обучение разчитат на много данни и възможност за извършване на сложни изчисления. Външни фактори, като променящи се очаквания на клиентите или неочаквани пазарни колебания, означават, че моделите на машинно обучение трябва да бъдат наблюдавани и поддържани.

Освен това има редица практически проблеми в машинното обучение, които трябва да бъдат решени. Тук ще разгледаме отблизо пет от ключовите практически проблема и техните бизнес последици.

1. Качество на данните

Системите за машинно обучение разчитат на данни. Тези данни могат да бъдат широко класифицирани в две групи: характеристики и етикети.

Характеристиките са входните данни за ML модела. Например, това може да са данни от сензори, клиентски въпросници, бисквитки на уебсайтове или историческа информация.

Качеството на тези функции може да варира. Например клиентите може да не попълнят правилно въпросниците или да пропуснат отговорите. Сензорите могат да работят неправилно и да доставят грешни данни, а бисквитките на уебсайта могат да дадат непълна информация за точните действия на потребителя на уебсайта. „Качеството на наборите от данни“ е важно, за да могат моделите да бъдат правилно обучени.

Данните също могат да бъдат шумни, пълни с нежелана информация, която може да подведе модел на машинно обучение да направи неправилни прогнози.

Резултатите от ML модел са етикети. Оскъдността на етикетите, при които знаем входовете към системата, но не сме сигурни какви изходи са възникнали, също е проблем. В такива случаи може да бъде изключително трудно да се открият връзките между характеристиките и етикетите на модела. В много случаи това може да бъде трудоемко, тъй като изисква човешка намеса за свързване на етикети с входове.

Без точно картографиране на входове към изходи, моделът може да не е в състояние да научи правилната връзка между входовете и изходите.

Машинното обучение разчита на връзките между входните и изходните данни, за да създаде обобщения, които могат да се използват за правене на прогнози и предоставяне на препоръки за бъдещи действия. Когато входните данни са шумни, непълни или грешни, може да бъде изключително трудно да се разбере защо се е появил определен изход или етикет.

2. Компромисът между сложност и качество

Изграждането на стабилни модели за машинно обучение изисква значителни изчислителни ресурси за обработка на характеристиките и етикетите. Кодирането на сложен модел изисква значителни усилия от учените по данни и софтуерните инженери. Сложните модели могат да изискват значителна изчислителна мощност за изпълнение и може да отнеме повече време, за да се получи използваем резултат.

Това представлява компромис за бизнеса. Те могат да изберат по-бърз отговор, но потенциално по-малко точен резултат. Или могат да приемат по-бавен отговор, но да получат по-точен резултат от модела. Но тези компромиси не са само лоши новини. Решението дали да изберете по-висока цена и по-точен модел вместо по-бърз отговор се свежда до случая на употреба.

Например, даването на препоръки към купувачите в сайт за пазаруване на дребно изисква отговори в реално време, но може да приеме известна непредсказуемост в резултата. От друга страна, системата за търговия с акции изисква по-стабилен резултат. Така че модел, който използва повече данни и извършва повече изчисления, вероятно ще осигури по-добър резултат, когато не е необходим резултат в реално време.

Тъй като предложенията за машинно обучение като услуга (MLaaS) навлизат на пазара, компромисът между сложността и качеството ще привлече по-голямо внимание. Изследователи от Чикагския университет разгледаха ефективността на MLaaS и откриха, че те могат да постигнат резултати, сравними със самостоятелните класификатори, ако имат достатъчна представа за ключови решения като класификатори и избор на функции.

3. Пристрастност на извадката в данните

Много компании използват алгоритми за машинно обучение, за да им помогнат при набирането на персонал. Например Amazon откри, че „алгоритъмът, който използваха за подпомагане при избора на кандидати“ за работа в бизнеса, беше предубеден. И изследователи от Принстън установиха, че европейските имена са предпочитани от други системи, „имитирайки някои човешки пристрастия“.

Проблемът тук не е конкретно в модела. Проблемът е, че данните, използвани за обучение на модела, идват със собствени отклонения. Въпреки това, когато знаем, че данните са пристрастни, има начини да се отклоним или да намалим тежестта, дадена на тези данни.

Първото предизвикателство е да се определи дали има присъщо отклонение в данните. Това означава извършване на предварителна обработка. И въпреки че може да не е възможно да се премахнат всички пристрастия от данните, тяхното въздействие може да бъде сведено до минимум чрез инжектиране на човешки знания.

В някои случаи може също да се наложи ограничаване на броя на функциите в данните. Например, пропускането на черти като раса или цвят на кожата може да помогне за ограничаване на влиянието на пристрастните данни върху резултатите от даден модел.

4. Промяна на очакванията и отклонение на концепцията

Моделите за машинно обучение работят в специфични контексти. Например моделите на ML, които захранват механизмите за препоръки за търговци на дребно, работят в определено време, когато клиентите разглеждат определени продукти. Нуждите на клиентите обаче се променят с течение на времето и това означава, че ML моделът може да се отдалечи от това, което е проектиран да доставя.

„Моделите могат да се развалят поради редица причини“. Дрейф може да възникне, когато в модела се въведат нови данни. Това се нарича дрейф на данните. Или може да възникне, когато нашата интерпретация на данните се промени. Това е концептуален дрифт.

За да се приспособите към това отклонение, имате нужда от модел, който непрекъснато се актуализира и подобрява, като използва постъпващите данни. Това означава, че трябва да продължите да проверявате модела.

Това изисква събирането на функции и етикети и реагирането на промените, така че моделът да може да бъде актуализиран и преквалифициран. Въпреки че някои аспекти на преквалификацията могат да се извършват автоматично, е необходима човешка намеса. Изключително важно е да се признае, че внедряването на инструмент за машинно обучение не е еднократна дейност.

Инструментите за машинно обучение изискват редовен преглед и актуализиране, за да останат актуални и да продължат да предоставят стойност.

5. Мониторинг и поддръжка

Създаването на модел е лесно. Изграждането на модел може да бъде автоматично. Поддържането и актуализирането на моделите обаче изисква план и ресурси.

Моделите за машинно обучение са част от по-дълъг процес, който започва с функциите, които се използват за обучение на модела. След това има самия модел, който е част от софтуера, който може да изисква модификация и актуализации. Този модел изисква етикети, така че резултатите от въвеждането да могат да бъдат разпознати и използвани от модела. И може да има прекъсване на връзката между модела и крайния сигнал в системата.

В много случаи, когато се получи неочакван резултат, не машинното обучение се е повредило, а друга част от веригата. Например, машина за препоръки може да е предложила продукт на клиент, но понякога връзката между системата за продажби и препоръката може да бъде прекъсната и отнема време, за да се открие грешката. В този случай би било трудно да се каже на модела дали препоръката е била успешна. Отстраняването на проблеми като този може да бъде доста трудоемко.

Машинното обучение предлага значителни ползи за бизнеса. Способността да се предвиждат бъдещи резултати, за да се предвиди и повлияе на поведението на клиентите и да се поддържат бизнес операциите, е значителна. Въпреки това, ML въвежда редица предизвикателства пред бизнеса. Като разпознават тези предизвикателства и разработват стратегии за справяне с тях, компаниите могат да гарантират, че са подготвени и оборудвани да се справят с тях.

* Авторът на тази статия е д-р Shou-De Lin, главен учен по машинно обучение, Appier