Вопросы по теме 'n-gram'

Быстрый расчет n-граммов
Я использую NLTK для поиска n-граммов в корпусе, но в некоторых случаях это занимает очень много времени. Я заметил, что вычисление n-граммов не является редкостью в других пакетах (очевидно, Haystack имеет для этого некоторые функции). Означает ли...
14018 просмотров
schedule 31.03.2024

Создание таблицы n-грамм с помощью SQL-запроса
Я пытаюсь реализовать нечеткий поиск на стороне клиента JavaScript для поиска большой базы данных (примерно 300 элементов) записей, содержащихся в базе данных SQL. Мое ограничение заключается в том, что невозможно выполнить оперативный запрос к базе...
5778 просмотров
schedule 31.03.2024

Поиск имени файла с помощью ElasticSearch
Я хочу использовать ElasticSearch для поиска имен файлов (а не содержимого файла). Поэтому мне нужно найти часть имени файла (точное совпадение, без нечеткого поиска). Пример: У меня есть файлы со следующими именами:...
14303 просмотров
schedule 25.11.2022

Подсчет биграмм (пара из двух слов) в файле с использованием Python
Я хочу подсчитать количество вхождений всех биграмм (пар смежных слов) в файле с помощью python. Здесь я имею дело с очень большими файлами, поэтому я ищу эффективный способ. Я попытался использовать метод подсчета с регулярным выражением "\w+\s\w+"...
33797 просмотров
schedule 03.11.2022

Как рассчитывается Ngram?
Я делаю проект книг о свиданиях, и моя главная идея состоит в том, чтобы сделать это с помощью «ngram». Я ввел сюда http://books.google.com/ngrams и нашел ngrams с наибольшим однозначные графики (непостоянная величина по годам). Затем я написал...
412 просмотров
schedule 07.12.2022

Как извлечь ngram символов из предложений? - питон
Следующая функция word2ngrams извлекает из слова 3 грамма символов: >>> x = 'foobar' >>> n = 3 >>> [x[i:i+n] for i in range(len(x)-n+1)] ['foo', 'oob', 'oba', 'bar'] В этом сообщении показано извлечение символьных...
6216 просмотров
schedule 17.05.2024

Эффективная экстракция 1-5 грамм с помощью питона
У меня есть огромные файлы из 3 000 000 строк, и в каждой строке 20-40 слов. Мне нужно извлечь от 1 до 5 нграмов из корпуса. Мои входные файлы представляют собой токенизированный простой текст, например: This is a foo bar sentence . There is a...
2780 просмотров

Удалить униграммы из списка биграмм
Мне удалось создать 2 списка из текстовых документов. Первый — мой список биграмм: keywords = ['nike shoes','nike clothing', 'nike black', 'nike white'] и список стоп-слов: stops = ['clothing','black','white'] Я хочу удалить...
271 просмотров
schedule 20.05.2024

Как вычисляется значение α в языковой модели Katz Backoff?
В настоящее время я работаю над реализацией языковой модели сглаживания отсрочки katz. у меня есть некоторое замешательство по поводу рекурсивной отсрочки и моделей более низкого порядка расчета α. Предположим, что модель Каца для триграммы задана...
1295 просмотров
schedule 05.12.2023

Как MLE используется для обучения модели n-грамм?
Я изучил много документов об обучении модели n-грамм с использованием MLE, но, как я заметил, вся реализация заключается только в вычислении условной вероятности путем подсчета n-грамм, мой вопрос: какова связь с MLE?
877 просмотров
schedule 06.11.2023

Следует ли при использовании триграмм в tf-idf включать униграммы и биграммы?
Когда я использовал биграммы, я добавлял список биграмм к униграммам и использовал его в качестве своего корпуса. С триграммами я добавил триграммы к униграммам, но исключил биграммы. Это правильный подход, или было бы лучше включить биграммы,...
698 просмотров
schedule 18.11.2023

Вероятность биграмма
У меня есть Корпус Моби Дика, и мне нужно рассчитать вероятность биграммы ноги из слоновой кости. Я знаю, что эта команда дает мне список всех биграмм bigrams = [w1+" "+w2 for w1,w2 in zip(words[:-1], words[1:])] Но как мне получить...
234 просмотров
schedule 11.05.2024