Я делаю проект книг о свиданиях, и моя главная идея состоит в том, чтобы сделать это с помощью «ngram». Я ввел сюда http://books.google.com/ngrams и нашел ngrams с наибольшим однозначные графики (непостоянная величина по годам). Затем я написал код на питоне, который «читает» книги — он берет книгу, какие-то нграммы, а затем вычисляет частоту нграмм по тексту. Например, энграмма «экс» в тексте «уничтожить всех людей с помощью взрывчатых веществ» будет равна 0,05263157894736842, потому что в этом тексте 2 «экс» и 38 возможных комбинаций из двух букв, поэтому я подумал, что энграмма будет 2/38.
Итак, я сделал этот расчет для многих книг с 1 граммом (ABC) и получил более или менее одинаковые числа для всех книг. А потом я вернулся к ngram от Google, и оказалось, что цифры, которые я получил, и цифры, которые получили они, были совершенно разными. Например, 1 грамм «a» был около 0,078, b — 0,0135 и так далее, но ngram Google был [a = 1,54] и [b = 0,0066]...
Я пришел к выводу, что я ошибся в этом расчете. Теперь я спрашиваю вас, каков РЕАЛЬНЫЙ расчет ngram. Мне действительно нужно понять это, поэтому, пожалуйста, если вы знаете, как это работает, пожалуйста, дайте мне знать.
Большое спасибо :)
Изменить после ответа: я действительно получил более высокие значения, чем Google, потому что мое значение - это вероятность (от 0 до 1), поэтому, если я хочу преобразовать эти значения в%, мне нужно умножить на 100, и это имеет смысл, потому что есть больше «а» (8%) как буква в английском языке, чем «а» как слово.