Свързани въпроси 'n-gram'

Търсене на име на файл с ElasticSearch
Искам да използвам ElasticSearch за търсене на имена на файлове (не в съдържанието на файла). Следователно трябва да намеря част от името на файла (точно съвпадение, без размито търсене). Пример: Имам файлове със следните имена:...
14303 изгледи
schedule 25.11.2022

Преброяване на биграми (двойка от две думи) във файл с помощта на Python
Искам да преброя броя на срещанията на всички биграми (двойка съседни думи) във файл с помощта на python. Тук имам работа с много големи файлове, така че търся ефективен начин. Опитах да използвам метода за преброяване с регулярен израз "\w+\s\w+"...
33797 изгледи
schedule 03.11.2022

Какво е изчислението на Ngram?
Правя проект от книги за запознанства и основната ми идея е да го направя с "ngram". Влязох тук http://books.google.com/ngrams и намерих ngrams, които имат най-много недвусмислени графики (непостоянна стойност през годините). След това написах...
412 изгледи
schedule 07.12.2022

Ефективно извличане на 1-5 грама с питон
Имам огромни файлове от 3 000 000 реда и всеки ред има 20-40 думи. Трябва да извлека 1 до 5 ngram от корпуса. Моите входни файлове са токенизиран обикновен текст, напр.: This is a foo bar sentence . There is a comma , in this sentence . Such is...
2780 изгледи

Бързо изчисляване на n-грам
Използвам NLTK за търсене на n-грами в корпус, но в някои случаи отнема много време. Забелязах, че изчисляването на n-грамове не е необичайна функция в други пакети (очевидно Haystack има някаква функционалност за това). Това означава ли, че има...
14018 изгледи
schedule 31.03.2024

Генериране на n-грам таблица с SQL заявка
Опитвам се да внедря размито търсене с клиентска страна на JavaScript, за да търся в голяма база данни (приблизително 300 елемента) от записи, съдържащи се в SQL база данни. Моето ограничение е, че не е възможно да се извърши заявка на живо в базата...
5778 изгледи
schedule 31.03.2024

Как да извлечем знак ngram от изречения? - питон
Следната функция word2ngrams извлича знак 3 грама от дума: >>> x = 'foobar' >>> n = 3 >>> [x[i:i+n] for i in range(len(x)-n+1)] ['foo', 'oob', 'oba', 'bar'] Тази публикация показва извличането на символни ngrams...
6216 изгледи
schedule 17.05.2024

Премахване на униграми от списък с биграми
Успях да създам 2 списъка от текстови документи. Първият е моят списък с биграми: keywords = ['nike shoes','nike clothing', 'nike black', 'nike white'] и списък със стоп думи: stops = ['clothing','black','white'] Искам да премахна...
271 изгледи
schedule 20.05.2024