Публикации по тематике n-gram

Вопросы по теме 'n-gram'

Я использую NLTK для поиска n-граммов в корпусе, но в некоторых случаях это занимает очень много времени. Я заметил, что вычисление n-граммов не является редкостью в других пакетах (очевидно, Haystack имеет для этого некоторые функции). Означает ли...

14018 просмотров

31.03.2024

Создание таблицы n-грамм с помощью SQL-запроса

Я пытаюсь реализовать нечеткий поиск на стороне клиента JavaScript для поиска большой базы данных (примерно 300 элементов) записей, содержащихся в базе данных SQL. Мое ограничение заключается в том, что невозможно выполнить оперативный запрос к базе...

5778 просмотров

sql search nlp n-gram

31.03.2024

Поиск имени файла с помощью ElasticSearch

Я хочу использовать ElasticSearch для поиска имен файлов (а не содержимого файла). Поэтому мне нужно найти часть имени файла (точное совпадение, без нечеткого поиска). Пример: У меня есть файлы со следующими именами:...

14303 просмотров

lucene n-gram

25.11.2022

Подсчет биграмм (пара из двух слов) в файле с использованием Python

Я хочу подсчитать количество вхождений всех биграмм (пар смежных слов) в файле с помощью python. Здесь я имею дело с очень большими файлами, поэтому я ищу эффективный способ. Я попытался использовать метод подсчета с регулярным выражением "\w+\s\w+"...

33797 просмотров

python regex n-gram

03.11.2022

Как рассчитывается Ngram?

Я делаю проект книг о свиданиях, и моя главная идея состоит в том, чтобы сделать это с помощью «ngram». Я ввел сюда http://books.google.com/ngrams и нашел ngrams с наибольшим однозначные графики (непостоянная величина по годам). Затем я написал...

412 просмотров

python n-gram

07.12.2022

Как извлечь ngram символов из предложений? - питон

Следующая функция word2ngrams извлекает из слова 3 грамма символов: >>> x = 'foobar' >>> n = 3 >>> [x[i:i+n] for i in range(len(x)-n+1)] ['foo', 'oob', 'oba', 'bar'] В этом сообщении показано извлечение символьных...

6216 просмотров

python string nlp regex n-gram

17.05.2024

Эффективная экстракция 1-5 грамм с помощью питона

У меня есть огромные файлы из 3 000 000 строк, и в каждой строке 20-40 слов. Мне нужно извлечь от 1 до 5 нграмов из корпуса. Мои входные файлы представляют собой токенизированный простой текст, например: This is a foo bar sentence . There is a...

2780 просмотров

python nlp nltk n-gram information-retrieval

11.02.2024

Удалить униграммы из списка биграмм

Мне удалось создать 2 списка из текстовых документов. Первый — мой список биграмм: keywords = ['nike shoes','nike clothing', 'nike black', 'nike white'] и список стоп-слов: stops = ['clothing','black','white'] Я хочу удалить...

271 просмотров

python list n-gram file-handling

20.05.2024

Как вычисляется значение α в языковой модели Katz Backoff?

В настоящее время я работаю над реализацией языковой модели сглаживания отсрочки katz. у меня есть некоторое замешательство по поводу рекурсивной отсрочки и моделей более низкого порядка расчета α. Предположим, что модель Каца для триграммы задана...

1295 просмотров

nlp statistics probability n-gram

05.12.2023

Как MLE используется для обучения модели n-грамм?

Я изучил много документов об обучении модели n-грамм с использованием MLE, но, как я заметил, вся реализация заключается только в вычислении условной вероятности путем подсчета n-грамм, мой вопрос: какова связь с MLE?

877 просмотров

machine-learning nlp n-gram mle

06.11.2023

Следует ли при использовании триграмм в tf-idf включать униграммы и биграммы?

Когда я использовал биграммы, я добавлял список биграмм к униграммам и использовал его в качестве своего корпуса. С триграммами я добавил триграммы к униграммам, но исключил биграммы. Это правильный подход, или было бы лучше включить биграммы,...

698 просмотров

nlp nltk tf-idf n-gram

18.11.2023

Вероятность биграмма

У меня есть Корпус Моби Дика, и мне нужно рассчитать вероятность биграммы ноги из слоновой кости. Я знаю, что эта команда дает мне список всех биграмм bigrams = [w1+" "+w2 for w1,w2 in zip(words[:-1], words[1:])] Но как мне получить...

234 просмотров

python pycharm n-gram

11.05.2024

Вопросы по теме 'n-gram'

Похожие вопросы