Я читал сегодня статью на LinkedIn о MTBF и моделировании надежности, и она напомнила мне о том, что произошло несколько лет назад. В то время мой коллега спросил меня, почему я дал ему такой сложный способ удаления выбросов из его набора данных.

Он сказал: «Разве я не могу просто взять среднее значение?»

Когда я сказал «Нет»… Затем он сказал: «Ну, значит… ну, что бы это ни было, нельзя ли просто использовать одно из них?» … "Нет я сказала. «Вы не можете просто использовать среднее значение набора данных, если не понимаете распределения данных».

Я знаю, что люди не понимают этого момента, и на самом деле это, вероятно, самая распространенная ошибка в статистике, но она перетекает в науку о данных и машинное обучение. Люди делают всевозможные предположения, которые являются полной чушью, потому что их первое предположение было сделано без их ведома.

Например, как часто данные сохраняются только в виде средних значений за час, день или неделю. Большинство людей спросят, почему это проблема, ведь это уменьшает размер выборки и делает вычисления более управляемыми.

Что касается надежности выработки электроэнергии, это на самом деле еще большая проблема, потому что, когда более 20 лет назад были проведены некоторые расчеты, люди понимали, почему применимо среднее значение за час/день/неделю, но теперь те же самые расчеты могут быть полной ерундой, потому что станция работает по-другому. и, следовательно, данные работают совершенно по-другому! То, что было нормальным, теперь уже нет!

Но почему это проблема…

Проще говоря, вы не можете просто взять «среднее» из набора данных и ожидать, что оно что-то значит, если вы не понимаете распределение. При работе с автоматизированными и живыми решениями для машинного обучения вам также необходимо понимать потенциальное распределение (я) данных.

Понимание распределения данных на самом деле является основой всего для специалистов по данным. Как правило, все алгоритмы машинного обучения основаны на одной этой концепции, и она является сутью многих злоупотреблений по всем направлениям.

Чтобы понять работу системы, которая имеет несколько режимов работы, вам необходимо их идентифицировать.

Поэтому, если вы инженер по надежности или специалист по данным, даже рассматривая проблему с простой статистикой, остановитесь и подумайте. Относится ли этот метод к фактической гипотезе данных?

Создать гипотезу данных просто: вы начинаете с одного конца проблемы, делаете некоторые предположения и думаете о том, как это будет происходить. Эйнштейн и я уверен, что несколько других физиков-теоретиков назвали это «мысленным экспериментом». Внезапно вы обнаружите, что понимаете, когда и зачем использовать всевозможные оригинальные концепции и даже комбинации концепций, которые приведут к решениям, о которых вы даже не мечтали… И люди просто думают, что наука о данных должна быть просто случай сбора, очистки, обработки и отображения данных, как некая фабрика инсайтов!

Сначала подумайте – я обещаю, что ваши результаты будут лучше, а ваше время будет потрачено с пользой!

(PS. Я намеренно не упомянул центральную предельную теорему для простоты чтения, но если это было вашей первой мыслью при чтении этой статьи, значит, вы уже в пути!)

(PPS. Если вы инженер по надежности, загляните и в Пост Фреда)