Теорема Байеса — практика делает совершенным

Выдающиеся специалисты по данным встречаются реже, чем иголки в стоге сена: менее одного из тысячи студентов, изучающих эту дисциплину, оказываются действительно выдающимися. Тем не менее, давайте предположим, что вы только что успешно прошли новый тест навыков, который обещает правильно определить такие лучшие таланты в 99% случаев… [i]

Какова вероятность того, что вы действительно исключительны? Чем здесь может быть полезна теорема Байеса, как она применяется к машинному обучению, каковы ее предположения и какие меры предосторожности следует принимать, полагаясь на эту методологию. ?

Теорему Байеса приписывают работе преподобного Томаса Байеса, английского математика XIX века, который изучал, как можно вывести причины события из его последствий. Его работа, позже подтвержденная Пьером-Симоном Лапласом, основывалась на простой идее о том, что достоверность наших предсказаний можно повысить за счет лучшего использования наблюдаемых данных. Ключевым выводом здесь является то, что прогностическое моделирование должно основываться на опыте, наши первоначальные убеждения должны постоянно обновляться по мере того, как мы получаем дополнительную информацию по рассматриваемой проблеме. Основное значение для науки о данных заключается в том, что алгоритмы машинного обучения по своей сути связаны как теорией, так и опытом.

Теорема Байеса основана на тесной связи между совместными и условными вероятностями. В чистом виде правило Байеса утверждает, что апостериорная вероятность равна вероятности, умноженной на априорную, деленной на константу нормализации.

Апостериорная переменная или переменная отклика — это зависимая переменная, которую мы пытаемся предсказать. Правдоподобие, или условная вероятность, — это шанс обнаружить новое свидетельство при нашей исходной гипотезе. Априорное или существующее знание — это вероятность того, что наша гипотеза верна без какой-либо дополнительной информации. Наконец, предельное правдоподобие, или константа нормализации, представляет собой абсолютную вероятность наблюдения Свидетельства. [ii] Когда мы используем наивный байесовский метод, мы предполагаем, что данные, которые мы изучаем, соответствуют нормализованному распределению, т. е. каждая из переменных условно независимая.

Как сети Байеса используются в науке о данных? Вывод Байеса можно выгодно использовать в задачах бинарной или мультиклассовой классификации, когда объем данных для моделирования является умеренным, неполным и/или неопределенным. Классификаторы Байеса требуют относительно мало вычислительных ресурсов и хорошо работают с большими наборами данных или многомерными точками данных. С одной стороны, эти классификаторы были особенно популярны в текстовой аналитике, где они часто используются для решения задач обработки естественного языка, классификации текста и обнаружения спама. В более общем смысле алгоритмы Байеса можно использовать для прогнозирования вероятности переменных отклика с учетом нового набора атрибутов. Наконец, теорему Байеса можно использовать для калибровки мнений и/или советов экспертов, поскольку они сочетают в себе как человеческое, так и машинное обучение.

Какие меры предосторожности следует соблюдать при использовании теоремы Байеса? Поскольку Наивный Байес предполагает условную независимость зависимых переменных, его нельзя использовать для обнаружения взаимодействий между функциями. Правило Байеса также предполагает, что переменные отклика отражают распознаваемые распределения по параметрам модели — гауссовское для непрерывных переменных, бернуллиевское или полиномиальное для дискретных переменных. Наконец, байесовская логика имеет смысл только тогда, когда она связана с предшествующими знаниями — цель состоит в том, чтобы решить конкретную «учебную проблему», а не исследовать «проблемы обучения» более высокого уровня.

"Беда возникает не из-за того, что вы знаете, а из-за того, что вы точно знаете, что это не так", – Джош Биллингс

Байесовская логика предлагает исследователям данных больше, чем просто алгоритм, она дает мышление для размышлений о проблемах науки о данных. Прежде чем перемалывать цифры, было бы разумно изучить все соответствующие данные (априорные вероятности), проверить наше видение проблемы с помощью конкурирующих мнений (условная вероятность) и постоянно обновлять наши прогнозы на основе новых данных (взвешенная вероятность). [iii] В случае, с которого начался этот пост о прогнозировании выдающихся талантов, нам нужно тщательно рассмотреть априорную оценку того, насколько мало на самом деле выдающихся специалистов по данным (один на тысячу). Даже если тест правильно идентифицирует 99 % лучших талантов, он неправильно квалифицирует 10 случаев для каждого правильного прогноза. В таких условиях, даже если вы прошли этот воображаемый тест, сегодня есть только 9% шансов, что вы действительно исключительны. Продолжайте работать — практика делает совершенным!

Практика бизнес-аналитики – сердце и душа Института бизнес-аналитики. В нашей Летней школе в Байонне, а также в наших Мастер-классах в Европе Институт бизнес-аналитики фокусируется на цифровой экономике, принятии решений на основе данных, машинном обучении и визуальных коммуникациях, заставит аналитику работать на вас и ваша организация.

Ли Шленкер — профессор и директор Института бизнес-аналитики http://baieurope.com. Его профиль в LinkedIn можно посмотреть по адресу www.linkedin.com/in/leeschlenker. Вы можете следить за нами в Твиттере по адресу https://twitter.com/DSign4Analytics.

_______________

[i] Один процент ложноотрицательных результатов

[ii] Сони, Д., (2018), Что такое правило Байеса?, На пути к науке о данных

[iii] Галеф, Дж., (2015). Наглядный путеводитель по байсовскому мышлению