Исправить орфографические ошибки в одном слове (как несловесные, так и настоящие) очень просто:
P(w|c) P(c)
Где w
- неправильно написанное слово, а c
- это кандидат, которого мы пытаемся сопоставить, так что кандидат представляет собой токен из одного слова.
Но в Google, когда вы вводите что-то вроде spelligncheck
, он исправляет слово на два разных слова. Теперь P(w|c)
здесь легко, если я использую расстояние Левенштейна. Но это означает, что у меня больше не может быть кандидатов на одно слово (точнее, на один токен). Так что это увеличит размер моего словаря в геометрической прогрессии.
Более того, когда я ввожу app le
, Google исправляет это на _7 _...
Итак, как лучше всего исправить орфографию нескольких слов, учитывая словарь, состоящий из одного токена?
computer-science
, многие из которых имеют похожий алгоритм. - person Chthonic Project   schedule 14.11.2013