Днес четох статия в LinkedIn за MTBF и моделиране на надеждността и тя ми напомни за нещо, което се случи преди няколко години. Един колега по това време ме попита защо съм му дал толкова сложен начин за премахване на отклонения от неговия набор от данни.

Той каза: „Не мога ли просто да взема средната стойност?“

Когато казах „Не“… Той след това каза „добре тогава… каквото и да е, не мога ли просто да използвам едно от тези?“ … „Не“, казах аз. „Не можете просто да използвате средната стойност на набор от данни, ако не разбирате разпределението на данните.“

Знам, че хората не разбират тази точка и всъщност това е може би най-често срещаната грешка в статистиката, но тя се влива в науката за данни и машинното обучение. Хората правят всякакви предположения, които са пълни глупости, защото първото им предположение е направено, без дори да знаят, че са го направили.

Например колко често данните се записват само като средни почасови, дневни или седмични стойности. Повечето хора биха попитали защо това е проблем, намалява размера на извадката и прави изчислението управляемо.

Що се отнася до надеждността на производството на електроенергия, това всъщност е още по-голям проблем, защото когато някои изчисления бяха създадени преди повече от 20 години, хората разбраха защо е приложимо средно почасово/дневно/седмично, но сега същите тези изчисления може да са пълна глупост, защото централата работи по различен начин и следователно данните също работят напълно различно! Това, което беше нормално, сега не е!

Но защо това е проблем...

Просто казано, не можете просто да вземете „средната стойност“ на набор от данни и да очаквате да означава нещо, освен ако не разбирате разпределението. Когато работите с автоматизирани решения и решения за машинно обучение на живо, вие също трябва да разберете потенциалното разпространение(я) на данни.

Разбирането на разпространението на данни всъщност е основата на всичко за учените по данни. Като цяло всички алгоритми за машинно обучение се основават на тази концепция и тя е същността на много злоупотреби навсякъде.

За да разберете работата на система, която има множество режими на работа, трябва да ги идентифицирате.

Така че, моля, дори когато разглеждате проблем с някои прости статистики, ако сте инженер по надеждност или учен по данни, спрете и помислете. Уместен ли е този метод за действителна хипотеза за данни?

Създаването на хипотеза за данни е просто, започвате от единия край на проблема, правите някои предположения и мислите как ще се развие. Айнщайн и аз съм сигурен, че няколко други теоретични физици са го нарекли „gedanken“ или мисловен експеримент. Изведнъж ще откриете, че разбирате кога и защо да използвате всякакви гениални концепции и дори комбинации от концепции, които ще осигурят решения, за които никога не сте и мечтали... И хората просто си мислят, че науката за данни трябва просто да бъде случай на събиране, почистване, обработка и показване на данни като някаква фабрика за прозрение!

Помислете първо – обещавам, че вашите резултати ще бъдат по-добри и времето ви ще бъде изразходвано по-добре!

(PS. Умишлено съм пропуснал централната гранична теорема за по-лесно четене, но ако това е била първата ви мисъл, когато сте чели тази статия, значи страхотни неща, вече сте на път!)

(PPS. Ако сте инженер по надеждност, вижте и „Публикацията на Fred“)