Как MLE используется для обучения модели n-грамм?

Я изучил много документов об обучении модели n-грамм с использованием MLE, но, как я заметил, вся реализация заключается только в вычислении условной вероятности путем подсчета n-грамм, мой вопрос: какова связь с MLE?


person levin li    schedule 22.07.2016    source источник


Ответы (1)


Интуитивно вам пришлось бы посчитать все n-граммы во всех текстах мира, чтобы вычислить их вероятности. Поскольку это крайне нереально, MLE предоставляет способ оценить эти вероятности n-грамм, подсчитав их в заданном корпусе.

Например, если вам нужна биграммная вероятность того, что слово y следует за словом x, вы подсчитываете количество их вхождений как пару, C(xy). Затем вы должны нормализовать это количество, разделив его на сумму всех биграмм, начинающихся с x (т. е. за x следуют все возможные слова), сумма C  (xz) по всем z, так что оценка MLE в конечном итоге лежит между 0 и 1.

Следовательно, эту вероятность биграммы можно оценить следующим выражением:

P(y|x) = C(xy) / сумма C(xz) по всем z

Обратите внимание, что это выражение можно еще больше упростить, поскольку сумма всех счетчиков биграмм, начинающихся с x, должна в сумме равняться счетчику униграмм самого x:

P(y|x) = C(xy) / (x)

person Zeynep Akkalyoncu    schedule 22.07.2016