Зачем нужны вероятностные графические модели? Они дают нам интуитивно понятные диаграммы сложных отношений между стохастическими переменными. Также они удобны с вычислительной точки зрения, так как у нас уже есть много алгоритмов работы с графиками и статистикой. Используя PGM, мы можем моделировать динамику атомной электростанции, создавать модели химических компонентов, создавать музыку и многое другое.

Основы

Каждая вероятностная графическая модель (PGM) состоит из двух типов компонентов: узлов как случайных величин и ребер как статистических зависимостей между ними. Иногда все эти переменные могут быть доступны для наблюдений, а иногда - только их подмножество.

Начнем с простого примера. Предположим, у вас есть 3 двоичных (Да / Нет) переменных, представляющих наличие дождя (R), воды на окнах (W1) и воды на дороге (W2 ). Без какой-либо дополнительной информации мы знаем, что существует причинно-следственная связь между дождем и двумя другими переменными:

Что важно в этом примере:

  • Только дождь может стать причиной намокания окон и дорог, но не наоборот. Также нет циклов. Это Направленная ациклическая графическая модель (DAG), наиболее распространенный тип PGM.
  • Если мы заметим, что R = Да, мы знаем, что вероятность W1 = Да и W2 = Да высока. Когда R = Нет, вероятность W1 = Да и W2 = Да низкая.
  • Когда мы знаем значение R, вероятности мокрых окон и мокрых дорог становятся независимыми. Они могут быть как высокими, так и низкими, но эти события больше не влияют друг на друга.
  • Кроме того, это односвязный DAG (SC-DAG), что означает, что существует только один путь (без учета направлений ребер) между любой парой узлов.

Еще несколько примеров:

Мы также можем представить нашу модель в виде таблиц условной вероятности (CPT), где каждая таблица представляет собой условную вероятность наблюдения одной переменной при задании другой.

Для воды на окнах дан дождь:

А за воду на дороге дан дождь:

Байесовские сети или сети убеждений (BN) являются частными случаями DAG. Они могут быть односвязными или многосвязными и использовать байесовскую логику для интерпретации вероятностей. Короче говоря, это означает, что они начинают с некоторых предварительных предположений о зависимостях и используют правило Байеса для обновления своих представлений о данных. Точно так же большинство моделей DAG на самом деле байесовские.

Скрытые марковские модели (HMM) и линейные гауссовские модели пространства состояний (GSS) также являются особыми видами SC-DAG.

Ненаправленные графические модели

Также известно как Марковские случайные поля (MRF). Как и направленные модели, они представляют условные зависимости между случайными величинами, но не подразумевают упорядоченной причинности. Давайте посмотрим на упрощенную модель: счастье среди людей.

Уровень счастья каждого человека в этом примере влияет на десятки других людей. Когда мы наблюдаем за одним из них, это также дает некоторую информацию о счастье других людей, поскольку все мы связаны.

Среди других популярных типов UGM - условные случайные поля и ограниченные машины Больцмана.

Кстати, DAG обеспечивает более простую процедуру вывода и более легкую интерпретацию, в то время как неориентированные модели имеют больше возможностей для описания сложных отношений.

Факторный график также очень похож на MRF. Более того, традиционные факторные модели могут быть расширены за счет включения как направленных, так и ненаправленных моделей. На самом деле проводится множество подобных исследований с целью найти более глубокие связи между PGM, NN и другими статистическими инструментами.

PGM и нейронные сети

Традиционные вероятностные графические модели хорошо работают с дискретными переменными. Однако PGM на основе NN расширяют эти возможности для непрерывных данных большой размерности. Генеративные состязательные сети, вариационные автокодировщики, машины Больцмана, сети глубокого убеждения и многие другие нейронные сети могут рассматриваться как типы PGM.

Как и в случае с нейронными сетями, существует множество различных форм PGM для разных доменов. Но все они разделяют эти основные принципы.

Вы также можете найти несколько интерактивных онлайн-примеров условных вероятностей и марковских моделей на Площадке.

Вывод и обучение

Если вы наблюдали некоторые из переменных, какие распределения будут иметь другие переменные? Распространенным методом является использование правила Байеса - P (A при B = b) = P (A и B = b) / P (B = b). Интуиция, лежащая в основе этого: чтобы получить вероятность события A, учитывая, что B принял значение b, вам нужно принять вероятность того, что оба A и B = b произошло, и увеличьте его с вероятностью B = b, поскольку вы уже знаете, что это произошло.

Аналогичным образом, вычисляя совместные вероятности, такие как A и B, и маргинальные распределения, такие как B = b, на основе данных обучения, вы можете вывести CPT. Когда некоторые переменные скрыты, вы можете оценить их распределение по наблюдаемым данным, используя методы максимизации ожиданий (EM) или Монте-Карло цепи Маркова (MCMC).

Более того, вычисления логического вывода в PGM могут выполняться локально. Информация о влиянии, которое узлы посылают друг другу, обычно называется сообщениями. Обычно они делятся на типы Pi (несущие априорные вероятности) и Lambda (несущие вероятности правдоподобия). Распространенным алгоритмом обмена этими сообщениями является распространение убеждений (BP), которое также является обобщением алгоритма прямого-обратного для HMM и алгоритма сглаживания Калмана для GSS. В случае циклических или неориентированных графов это называется Loopy BP, потому что эти сообщения могут перемещаться в замкнутых циклах.

В заключение, вероятностные графические модели очень распространены в машинном обучении и ИИ в целом. Они помогают нам строить интерпретируемые модели сложных систем и делать полезные прогнозы по широкому кругу проблем.