Правя проект от книги за запознанства и основната ми идея е да го направя с "ngram". Влязох тук http://books.google.com/ngrams и намерих ngrams, които имат най-много недвусмислени графики (непостоянна стойност през годините). След това написах код на python, който "чете" книги - взема книгата, няколко ngrams и след това изчислява честотата на ngrams върху текста. Например, ngram "ex" в текста "изтребете всички човешки същества с експлозивни grandes" ще бъде 0,05263157894736842, защото има 2 "ex" в този текст и има 38 възможни комбинации от 2 букви, така че реших, че ngram ще бъде 2/38.
Така че направих това изчисление за много книги с 1 грам (ABC) и получих горе-долу еднакви числа с всички книги. И тогава се върнах към ngram на Google и очевидно числата, които получих, и числото, което те получиха, бяха напълно различни. Например, 1 грам "a" беше около 0,078, b беше 0,0135 и така едно, но ngram на Google беше [a=1,54] и [b=0,0066]...
Стигнах до извода, че съм сгрешил това изчисление. Сега ви питам какво е РЕАЛНОТО изчисление на ngram. Наистина трябва да разбера това, така че, моля, ако знаете как работи това нещо, моля, уведомете ме.
Благодаря много :)
Редактиране след отговор: наистина получих по-високи стойности от Google, защото моята стойност е вероятност (0 към 1), така че ако искам да преобразувам тези стойности в %, трябва да умножа по 100 и има смисъл, защото има повече "a" (8%) като буква в английския език, отколкото "a" като дума.