Откриването на аномалии в сложни многовариантни и многомерни данни може да бъде доста предизвикателство. Визуализирането на тези аномалии може да бъде още по-трудно, особено ако искате да бъде просто, без да се налага да преглеждате хиляди диаграми, за да филтрирате проблеми от фалшиви положителни резултати и шум. Използвайки статистически методи, можем да обобщим сложни данни, които да бъдат показани на една топлинна карта. Като задържим курсора на мишката върху определени клетки, можем бързо да покажем отделните данни в диаграми.

Топлинна карта: https://healzer.github.io/Industrial-Data-Analysis/hmap1.html?testdays=3&testlike=1

Тази система е внедрена за първи път за CI/CD тръбопровод на високотехнологично предприятие. Използва се от R&D, Q&A и ръководството за проследяване на всички процеси и променливи през целия жизнен цикъл на разработката. Всички аномалии могат лесно да бъдат идентифицирани и точно определени веднага щом се появят на топлинната карта. Аномалните намаления (зелено) показват подобрения в производителността (намаляване на времето, паметта и параметрите), докато влошаването (червено) означават проблеми с производителността.

Много фините подобрения или деградации са трудни за идентифициране и откриване, но като цяло системата има много висока точност. Най-доброто използване на тази система е за данни, които трябва да останат статични във времето, може да не работи много добре, ако имате редуващи се/подправени/вълнообразни данни. Могат да бъдат изградени отделни диаграми за картографиране на ангажиментите на GitHub към всяка отделна точка от данни, което позволява на екипа незабавно да определи коя промяна на кода е причинила каква промяна в производителността.

Демонстрационният URL може да съдържа три параметъра:

  • testdays: колко дни от данните трябва да се използват като тестови данни (в сравнение с базовите данни)
  • testlike: филтърни данни, чиято тестова стойност трябва да съдържа определен низ (това са стойностите на Y-ос)
  • annotate: (0 или 1) главно поради причини за отстраняване на грешки, указващи дали да се показват Z-стойности на всяка клетка (може да забави браузъра ви!)

Този код може да не е директно използваем за вашите цели, но общата идея за използване на статистически функции като MADe и Z-стойности за откриване на аномалии в набори от данни може да бъде много полезна в CI/CD тръбопроводи, но също и в много индустриални процеси.

GitHub: https://github.com/healzer/Industrial-Data-Analysis