Как MLE используется для обучения модели n-грамм?

Я изучил много документов об обучении модели n-грамм с использованием MLE, но, как я заметил, вся реализация заключается только в вычислении условной вероятности путем подсчета n-грамм, мой вопрос: какова связь с MLE?

levin li 22.07.2016 источник

Ответы (1)

arrow_upward
1
arrow_downward

Интуитивно вам пришлось бы посчитать все n-граммы во всех текстах мира, чтобы вычислить их вероятности. Поскольку это крайне нереально, MLE предоставляет способ оценить эти вероятности n-грамм, подсчитав их в заданном корпусе.

Например, если вам нужна биграммная вероятность того, что слово y следует за словом x, вы подсчитываете количество их вхождений как пару, C(xy) . Затем вы должны нормализовать это количество, разделив его на сумму всех биграмм, начинающихся с x (т. е. за x следуют все возможные слова), , так что оценка MLE в конечном итоге лежит между 0 и 1.

Следовательно, эту вероятность биграммы можно оценить следующим выражением:

Обратите внимание, что это выражение можно еще больше упростить, поскольку сумма всех счетчиков биграмм, начинающихся с x, должна в сумме равняться счетчику униграмм самого x:

Zeynep Akkalyoncu 22.07.2016

Как MLE используется для обучения модели n-грамм?

Ответы (1)

Похожие вопросы