Вярно е, че индустриалният интернет на нещата ще промени света някой ден. Засега изобилието от данни кара света да се върти по-бързо. Натрупани в понякога неуправляеми масиви от данни, големите данни се превърнаха от Светия Граал в проблем, който тласка бизнесите и организациите да вземат по-бързи решения в реално време. Един от начините за по-бърза и по-ефективна обработка на данните е откриването на необичайни събития, промени или промени в наборите от данни. По този начин откриването на аномалии, технология, която разчита на изкуствения интелект за идентифициране на необичайно поведение в рамките на набора от събрани данни, се превърна в една от основните цели на индустриалния интернет на нещата.

Откриването на аномалии се отнася до идентифициране на елементи или събития, които не съответстват на очакван модел или на други елементи в набор от данни, които обикновено не могат да бъдат открити от човешки експерт. Такива аномалии обикновено могат да бъдат превърнати в проблеми като структурни дефекти, грешки или измами.

Примери за потенциални аномалии:

  • Теч на свързваща тръба, което води до спиране на цялата производствена линия;
  • Множество неуспешни опити за влизане, показващи възможността за подозрителна киберактивност;
  • Откриване на измами във финансови транзакции.

Защо е важно?

Съвременните предприятия започват да разбират значението на взаимосвързаните операции, за да получат пълната картина на своя бизнес. Освен това те трябва да реагират бързо на бързо променящи се промени в данните, особено в случай на заплахи за киберсигурността. Откриването на аномалии може да бъде ключ за решаване на такива прониквания, тъй като при откриване на аномалии смущенията на нормалното поведение показват наличието на преднамерени или непреднамерени предизвикани атаки, дефекти, неизправности и други подобни.

За съжаление, няма ефективен начин за ръчно обработване и анализиране на непрекъснато нарастващи набори от данни. Тъй като динамичните системи имат множество компоненти във вечно движение, където „нормалното“ поведение постоянно се предефинира, е необходим нов проактивен подход за идентифициране на аномално поведение.

Статистически контрол на процеса

Статистическият контрол на процеса, или SPC, е методология на златен стандарт за измерване и контрол на качеството в процеса на производство. Данните за качеството под формата на измервания на продукта или процеса се получават в реално време по време на производствения процес и се нанасят върху графика с предварително определени контролни граници, които отразяват способността на процеса. Данните, които попадат в контролните граници, показват, че всичко работи според очакванията. Всяка вариация в контролните граници вероятно се дължи на обща причина — естествената вариация, която се очаква като част от процеса. Ако данните са извън контролните граници, това показва, че причината, която може да бъде присвоена, може да е източникът на вариацията на продукта и нещо в процеса трябва да бъде разгледано и променено, за да се коригира проблемът, преди да възникнат дефекти. По този начин SPC е ефективен метод за стимулиране на непрекъснато подобрение. Като наблюдаваме и контролираме даден процес, ние можем да гарантираме, че той работи с най-пълния си потенциал и откриваме аномалии на ранни етапи.

Въведен през 1924 г., методът вероятно ще остане завинаги в сърцето на индустриалното осигуряване на качеството. Интегрирането му с техниките на изкуствения интелект обаче ще може да го направи по-точен и прецизен и ще даде повече представа за производствения процес и природата на аномалиите.

Задачи за изкуствен интелект

Когато човешките ресурси не са достатъчни, за да се справят с еластичната среда на облачна инфраструктура, микроуслуги и контейнери, се намесва изкуственият интелект, който предлага помощ в много аспекти:

Автоматизация: управляваните от AI алгоритми за откриване на аномалии могат автоматично да анализират набори от данни, динамично да прецизират параметрите на нормалното поведение и да идентифицират нарушения в моделите.

Анализ в реално време: AI решенията могат да интерпретират активността на данните в реално време. В момента, в който моделът не бъде разпознат от системата, тя изпраща сигнал.

Скрупулозност: Платформите за откриване на аномалии осигуряват наблюдение без пропуски от край до край, за да преминете през дребни данни и да идентифицирате най-малките аномалии, които биха останали незабелязани от хората

Точност: AI подобрява точността на откриване на аномалии, като избягва неприятни сигнали и фалшиви положителни/отрицателни сигнали, задействани от статични прагове.

Самообучение: Алгоритмите, управлявани от изкуствен интелект, съставляват ядрото на самообучаващите се системи, които са в състояние да се учат от модели на данни и да предоставят прогнози или отговори според изискванията.

Процес на обучение на AI системи

Едно от най-хубавите неща при AI системите и базираните на ML решения е, че те могат да се учат в движение и да предоставят по-добри и по-прецизни резултати с всяка итерация. Процесът на обучение е почти еднакъв за всяка система и се състои от следните автоматични и подпомагани от човека етапи:

  • Наборите от данни се подават към AI система
  • Моделите на данни се разработват въз основа на наборите от данни
  • Потенциална аномалия се повдига всеки път, когато транзакция се отклонява от модела
  • Експерт в областта одобрява отклонението като аномалия
  • Системата се учи от действието и надгражда модела на данните за бъдещи прогнози
  • Системата продължава да натрупва модели въз основа на предварително зададените условия

Както навсякъде в решенията, задвижвани от AI, алгоритмите за откриване на аномалии са изградени върху контролирани или неконтролирани техники за машинно обучение.

Контролирано машинно обучение за откриване на аномалии

Наблюдаваният метод изисква етикетиран обучителен набор с нормални и аномални проби за конструиране на прогнозен модел. Най-често срещаните контролирани методи включват контролирани невронни мрежи, опорна векторна машина, k-най-близки съседи, байесови мрежи и дървета на решенията.

Вероятно най-популярната непараметрична техника е K-най-близкият съсед (k-NN), който изчислява приблизителните разстояния между различни точки на входните вектори и присвоява немаркираната точка към класа на нейните K-най-близки съседи. Друг ефективен модел е байесовската мрежа, която кодира вероятностни връзки между променливите, представляващи интерес.

Смята се, че контролираните модели осигуряват по-добра степен на откриване от неконтролираните методи поради тяхната способност да кодират взаимозависимостите между променливите, заедно със способността им да включват както предишни знания, така и данни и да връщат оценка на доверие с изхода на модела.

Неконтролирано машинно обучение за откриване на аномалии

Неконтролираните техники не изискват ръчно етикетирани данни за обучение. Те предполагат, че повечето от мрежовите връзки са нормален трафик и само малък процент е необичаен и предвиждат, че злонамереният трафик е статистически различен от нормалния трафик. Въз основа на тези две предположения, групи от чести подобни случаи се приемат за нормални, а групите данни, които са редки, се категоризират като злонамерени.

Най-популярните неконтролирани алгоритми включват K-средни стойности, автоенкодери, GMM, PCA и анализ, базиран на тестове на хипотези.

Преследването на аномалии на SciForce

Като вероятно всяка компания, специализирана в изкуствения интелект и занимаваща се с решения за IoT, ние се озовахме в търсене на аномалии за нашия клиент от производствената индустрия. Използвайки генеративни модели за оценка на вероятността, ние открихме дефектите на алгоритъма, ускорявайки редовните алгоритми за обработка, повишавайки стабилността на системата и създавайки персонализирана рутинна обработка, която се грижи за аномалиите.

За да може откриването на аномалии да се използва комерсиално, то трябва да обхваща две части: самото откриване на аномалии и прогнозиране на бъдещи аномалии.

Част за откриване на аномалии

За частта за откриване на аномалии разчитахме на автоенкодери — модели, които картографират входните данни в скрито представяне и след това се опитват да възстановят оригиналния вход от това вътрешно представяне. За обикновени части от данни такава реконструкция ще бъде точна, докато в случай на аномалии резултатът от декодирането ще се различава значително от входа.

В допълнение към модела на автокодера, имахме количествена оценка на приликата между реконструкцията и оригиналния вход. За целта първо изчислихме средните стойности на плъзгащия се прозорец за сензорни входове, т.е. средната стойност за всеки сензор за 1 минута. интервал на всеки 30 сек. и подадоха данните към модела на автокодера. След това изчислихме разстоянията между входните данни и реконструкцията върху набор от данни и изчислихме квантили за разпределение на разстоянията. Такива квантили ни позволиха да преведем абстрактно число на разстоянието в значима мярка и да маркираме проби, които надвишават настоящия праг (97%) като аномалия.

Предвиждане на показанията на сензора

С достатъчно данни за обучение, квантилите могат да служат като вход за модели за прогнозиране, базирани на повтарящи се невронни мрежи (RNN). Целта на нашия модел за прогнозиране беше да оценим показанията на сензора в бъдеще.

Въпреки че използвахме всеки сензор, за да предвидим поведението на други сензори, бяхме обучили отделен модел за всеки сензор. Тъй като тенденциите в извадките от данни бяха достатъчно ясни, ние използвахме линейни авторегресивни модели, които използваха предишни показания, за да прогнозират бъдещи стойности.

Подобно на частта за откриване на аномалия, ние изчислихме средните стойности на всеки сензор за 1 минута. интервал на всеки 30 сек. След това изградихме 30-минутен контекст (или броя на предишните времеви стъпки), като подредихме 30 последователни прозореца. Получените данни бяха въведени в прогнозни модели за всеки сензор и прогнозите бяха запазени като оценки на показанията на сензора за следващия 1-минутен прозорец. За да се разширим с времето, ние постепенно заменихме по-старите прозорци с прогнозирани стойности.

Оказа се, че контекстът е решаващ за прогнозиране на следващата времева стъпка. С оскъдните налични данни и сравнително малки контекстни прозорци бихме могли да правим точни прогнози за до 10 минути напред.

Заключение

Откриването на аномалии самостоятелно или съчетано с функционалността за прогнозиране може да бъде ефективно средство за улавяне на измамата и откриване на странна дейност в големи и сложни набори от данни. Може да е от решаващо значение за банковата сигурност, медицината, маркетинга, природните науки и производствените индустрии, които зависят от гладките и сигурни операции. С изкуствения интелект фирмите могат да повишат ефективността и безопасността на своите цифрови операции – за предпочитане с наша помощ.