Публикации по теме 'text-analysis'


Значения TF-IDF без добавления каких-либо библиотек
Краткое представление о том, что такое TF-IDF: Термин «частотно-обратная частота документа» говорит нам о релевантности слова в документе для набора документов. Частота термина : сколько раз слово появляется в документе. Инверсия частоты документа. Частота терминов придает одинаковое значение всем словам. Однако многие слова, такие как «есть», «и», «из», часто встречаются в предложениях, но не имеют значения. Следовательно, нам нужно уменьшить количество частых терминов,..

Полное руководство по классификации анализа настроений
С увеличением объема текстовых данных, доступных в Интернете, анализ настроений становится более полезным, чем когда-либо прежде, и организации, которые могут использовать возможности анализа настроений, скорее всего, получат конкурентное преимущество. Проще говоря, анализ настроений включает в себя чувства — счастливые, грустные, нейтральные и т. д. Таким образом, конечной целью анализа настроений является декодирование основной эмоции, настроения или настроения текста. В этой статье..

Я говорю так же, как мои друзья
Изучение мер сходства для задач НЛП Обработка естественного языка (NLP) — захватывающая область, в которой задействованы обучающие машины для понимания человеческого языка. Многие задачи в области НЛП связаны с вычислением сходства или расстояния между двумя фрагментами текста. Например, мы можем захотеть сравнить сходство между двумя речами или двумя обзорами продуктов, чтобы определить, обсуждают ли они одну и ту же тему или мнение. В области НЛП существует несколько мер подобия, и в..

Вопросы по теме 'text-analysis'

Получение всех слов и знаков препинания из английского текста
Что я хочу сделать: Пользователь загружает текст. Я анализирую его и получаю из него все слова и знаки препинания. Теперь я могу легко отображать текст для других пользователей с быстрым переводом каждого слова или дополнительной информацией об...
173 просмотров
schedule 18.02.2024

Извлечение словосочетаний из индекса Lucene
У меня есть индекс документов, хранящихся в Lucene. Мне нужно извлечь все словосочетания с их частотой из индекса. Я знаю, что существуют различные алгоритмы для обнаружения словосочетаний внутри данного документа, но я не знаю ни одной существующей...
442 просмотров
schedule 22.11.2022

Алгоритмы сходства слов с использованием википедии
Я ищу, чтобы рассчитать расстояние между двумя словами Word1 - Манчестер Юнайтед Word2 - Райан Гиггз Я чувствую, что использование Википедии было бы действительно хорошим вариантом. Я бы попытался определить расстояние обоих слов от общей...
103 просмотров

счетчик частоты слов в r
Я хотел бы выполнить определенную операцию, которая преобразует данные в предоставленный формат: Вход : Col_A Col_B textA textB 10 textB textC 20 textC textD...
100 просмотров
schedule 24.12.2023

Поиск в спящем режиме Поиск без акцента в Lucene
Я работаю над приложением J2E с интеграцией Hibernate Search / Lucene. Я индексирую Документы (и другие объекты) и хочу сделать поиск по ним нечувствительным к акценту (поля содержимого и классов). Я использую FrenchAnalyzer, который, кажется,...
701 просмотров

Текст, группирующий текст
Мне нужна помощь в группировке текстов... У меня есть список таких продавцов, и мы видим, что первые несколько принадлежат CENTURYLINK рядом с SMART ATT... есть ли способ сгруппировать/пометить эти тексты одной меткой или классифицировать их тексты в...
76 просмотров

Создайте предложение (строку) в матрице счетчиков (столбцов) POS-тегов из фрейма данных
Я пытаюсь построить матрицу, в которой первая строка будет частью речи, а первый столбец - предложением. значения в матрице должны показывать количество таких POS в предложении. Итак, я создаю POS-теги следующим образом: data =...
1480 просмотров
schedule 11.11.2023

Поиск по вложенному списку
from nltk import word_tokenize list_1 = [a, b, c, d, e, f] list_2 = [[aa, bb, cc], [dd, ee], [ff], [gg, hh, ii, jj], [kk, ll], [mm, nn, oo]] text = 'The lazy aa moves along the hh' text_token = word_tokenize(text) for word in text: if word in...
543 просмотров
schedule 23.05.2024

Как разобрать определенный фрагмент текста?
Моя цель — выделить определенный раздел в наборе документов Word по ключевым словам. У меня возникают проблемы с анализом определенных разделов текста из большого набора данных текстовых файлов. Первоначально набор данных выглядел так: «заголовок 1»...
199 просмотров
schedule 07.06.2024