Свързани въпроси 'n-gram'
Търсене на име на файл с ElasticSearch
Искам да използвам ElasticSearch за търсене на имена на файлове (не в съдържанието на файла). Следователно трябва да намеря част от името на файла (точно съвпадение, без размито търсене).
Пример: Имам файлове със следните имена:...
14303 изгледи
schedule
25.11.2022
Преброяване на биграми (двойка от две думи) във файл с помощта на Python
Искам да преброя броя на срещанията на всички биграми (двойка съседни думи) във файл с помощта на python. Тук имам работа с много големи файлове, така че търся ефективен начин. Опитах да използвам метода за преброяване с регулярен израз "\w+\s\w+"...
33797 изгледи
schedule
03.11.2022
Какво е изчислението на Ngram?
Правя проект от книги за запознанства и основната ми идея е да го направя с "ngram". Влязох тук http://books.google.com/ngrams и намерих ngrams, които имат най-много недвусмислени графики (непостоянна стойност през годините). След това написах...
412 изгледи
schedule
07.12.2022
Ефективно извличане на 1-5 грама с питон
Имам огромни файлове от 3 000 000 реда и всеки ред има 20-40 думи. Трябва да извлека 1 до 5 ngram от корпуса. Моите входни файлове са токенизиран обикновен текст, напр.:
This is a foo bar sentence .
There is a comma , in this sentence .
Such is...
2780 изгледи
schedule
11.02.2024
Бързо изчисляване на n-грам
Използвам NLTK за търсене на n-грами в корпус, но в някои случаи отнема много време. Забелязах, че изчисляването на n-грамове не е необичайна функция в други пакети (очевидно Haystack има някаква функционалност за това). Това означава ли, че има...
14018 изгледи
schedule
31.03.2024
Генериране на n-грам таблица с SQL заявка
Опитвам се да внедря размито търсене с клиентска страна на JavaScript, за да търся в голяма база данни (приблизително 300 елемента) от записи, съдържащи се в SQL база данни. Моето ограничение е, че не е възможно да се извърши заявка на живо в базата...
5778 изгледи
schedule
31.03.2024
Как да извлечем знак ngram от изречения? - питон
Следната функция word2ngrams извлича знак 3 грама от дума:
>>> x = 'foobar'
>>> n = 3
>>> [x[i:i+n] for i in range(len(x)-n+1)]
['foo', 'oob', 'oba', 'bar']
Тази публикация показва извличането на символни ngrams...
6216 изгледи
schedule
17.05.2024
Премахване на униграми от списък с биграми
Успях да създам 2 списъка от текстови документи. Първият е моят списък с биграми:
keywords = ['nike shoes','nike clothing', 'nike black', 'nike white']
и списък със стоп думи:
stops = ['clothing','black','white']
Искам да премахна...
271 изгледи
schedule
20.05.2024