Я изучил много документов об обучении модели n-грамм с использованием MLE, но, как я заметил, вся реализация заключается только в вычислении условной вероятности путем подсчета n-грамм, мой вопрос: какова связь с MLE?
Как MLE используется для обучения модели n-грамм?
Ответы (1)
Интуитивно вам пришлось бы посчитать все n-граммы во всех текстах мира, чтобы вычислить их вероятности. Поскольку это крайне нереально, MLE предоставляет способ оценить эти вероятности n-грамм, подсчитав их в заданном корпусе.
Например, если вам нужна биграммная вероятность того, что слово y следует за словом x, вы подсчитываете количество их вхождений как пару, а>. Затем вы должны нормализовать это количество, разделив его на сумму всех биграмм, начинающихся с x (т. е. за x следуют все возможные слова), , так что оценка MLE в конечном итоге лежит между 0 и 1.
Следовательно, эту вероятность биграммы можно оценить следующим выражением:
Обратите внимание, что это выражение можно еще больше упростить, поскольку сумма всех счетчиков биграмм, начинающихся с x, должна в сумме равняться счетчику униграмм самого x: