Публикации по теме 'tf-idf'


Понимание того, как концептуально работает TF-IDF.
TF-IDF (частота термина, обратная частоте документа) — это числовое представление, используемое при обработке естественного языка. Это метод поиска информации, позволяющий оценить важность слова в документе в коллекции документов. Он подчеркивает слова, которые часто встречаются в документе, учитывая их уникальность или редкость во всей коллекции. TF-IDF часто используется для таких задач, как классификация текста, поиск информации и рекомендации по контенту. Коллекция документов:..

Вопросы по теме 'tf-idf'

tf-idf: я правильно понимаю?
Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF. Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу . Если у меня нет определенного...
3424 просмотров

Нормализация результатов TF-IDF
Я хотел бы нормализовать результаты tfidf, которые я получил из этого кода: for (int docNum = 0; docNum < ir.numDocs(); docNum++) { TermFreqVector tfv = ir.getTermFreqVector(docNum, "contents"); if (tfv == null) {...
16649 просмотров
schedule 07.12.2023

TF * IDF для поисковых запросов
Хорошо, я слежу за этими двумя сообщениями на TF * IDF, но немного запутался: http://css.dzone.com/articles/machine-learning-text-feature . По сути, я хочу создать поисковый запрос, содержащий поиск по нескольким документам. Я хотел бы...
8238 просмотров
schedule 19.11.2023

SGDClassifier с HashingVectorizer и TfidfTransformer
Я хотел бы понять, можно ли обучить онлайн SGDClassifier (с partial_fit) с помощью HashingVectorizer и TfidfTransformer. Простое объединение их в конвейер не сработает, поскольку TfidfTransformer сохраняет состояние, что нарушит процесс...
760 просмотров
schedule 17.02.2024

расчет tf-idf для веб-страниц
Я новичок в IR и хотел бы рассчитать tf-idf для веб-страниц. Для части «tf» я хочу рассчитать частоту появления каждого слова в содержании одной веб-страницы. Что касается части «idf», я хочу сравнить содержимое нескольких веб-страниц. Есть...
572 просмотров
schedule 06.02.2024

Как сгруппировать слова по частоте их употребления в одном предложении?
У меня есть текст, 500 предложений. Предложения четко разграничены, для простоты предположим точку. В каждом предложении около 10-20 слов. Я хочу разбить его на группы слов, которые по статистике чаще всего используются в одном и том же...
101 просмотров
schedule 07.05.2024

Разреженный вектор RDD в pyspark
Я реализовал метод TF-IDF, описанный здесь, с помощью Python/Pyspark, используя функцию из mllib: https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html У меня есть обучающий набор из 150 текстовых документов, тестовый набор из 80...
1022 просмотров

Взвешивание конкретных признаков в векторах признаков TF-IDF для кластеризации k-средних и сходства косинусов
У меня есть массив векторов признаков TF-IDF. Я хотел бы найти похожие векторы в массиве, используя два метода: Косинусное сходство кластеризация k-средних Используя Scikit Learn, этот процесс довольно прост. Теперь я хотел бы взвесить...
431 просмотров

в чем разница между «частотой термина» и «частотой документа»?
EDIT: это вопрос, который я в конечном итоге пытался задать: Понимание min_df и max_df в scikit CountVectorizer Я читал документацию по scikit-learn CountVectorizer и заметил, что при обсуждении max_df нас интересует частота документирования...
1289 просмотров
schedule 27.02.2024

Как рассчитать косинусное сходство из TfidfVectorizer?
У меня есть два CSV-файла - обучающий и тестовый, по 18000 отзывов каждый. Мне нужно использовать файл поезда для извлечения функций и расчета метрики сходства между каждым обзором в файле поезда и каждым обзором в тестовом файле. Я создал словарь...
2758 просмотров

Лучшее соответствие входному запросу из набора документов
У меня есть 8 документов, и я запустил TF-IDF , чтобы получить массив. Я не понимаю, как узнать, какой документ лучше всего подходит для данного входного запроса? all_documents = [doc1, doc2, ...., doc7] sklearn_tfidf =...
818 просмотров
schedule 17.10.2022

Получите веса слов tf-idf с помощью sklearn
У меня есть набор текстов из википедии. Используя tf-idf , я могу определить вес каждого слова. Ниже приведен код: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer wiki...
5592 просмотров

Solr - Найдите важные термины в подмножестве документов
Я пытаюсь получить «важные термины» для подмножества документов в Solr. Это может быть, а может и не быть лучшим способом, но в настоящее время я пытаюсь использовать функциональность Solr TF-IDF, поскольку у нас есть данные, хранящиеся в Solr, и это...
377 просмотров
schedule 20.11.2023

Веса векторизатора TfIDf
Привет, у меня есть лемматизированный текст в формате, показанном lemma . Я хочу получить оценку TfIdf для каждого слова, это функция, которую я написал: import numpy as np import pandas as pd from sklearn.feature_extraction.text import...
2834 просмотров
schedule 01.12.2023

Использование пробелов и textacy. Нужно найти оценку tf-idf в корпусе оригинальных твитов, но не могу импортировать векторизатор textacy.
Я новичок в этих структурах, а также в НЛП. Я следую примеру, который дает мне следующий фрагмент кода для вычисления оценки tf-idf всех токенов в твитах. Однако я продолжаю получать либо ошибки импорта, либо неопределенный векторизатор. Код:...
3011 просмотров
schedule 25.11.2023

Как похожие документы, преобразованные в вектор со значениями TFIDF, выглядят в векторном пространстве
Это может быть странный вопрос, но я не могу не задаться вопросом. Допустим, у меня есть три документа: d1 = "Меня зовут Стефан." d2 = «Меня зовут Дэвид». d3 = "Привет, как дела?" И если я преобразую все эти 3 документа в вектора со...
22 просмотров

Следует ли при использовании триграмм в tf-idf включать униграммы и биграммы?
Когда я использовал биграммы, я добавлял список биграмм к униграммам и использовал его в качестве своего корпуса. С триграммами я добавил триграммы к униграммам, но исключил биграммы. Это правильный подход, или было бы лучше включить биграммы,...
698 просмотров
schedule 18.11.2023

Поиск информации: как рассчитать tf-idf для нескольких условий поиска?
У меня есть корпус из следующих 4 документов: ‹1> Это первый документ. ‹2> А это второй документ. ‹3> Третий документ длиннее первого и второго. ‹4> Это последний документ. И используйте очередь поиска «первый ИЛИ последний», как я должен...
681 просмотров

Концептуальный вопрос о tf-idf с использованием pyspark
В официальной документации pyspark есть пример tf-idf. hashingTF = HashingTF() tf = hashingTF.transform(documents) tf.cache() idf = IDF().fit(tf) tfidf = idf.transform(tf) Я также готов в других источниках код, подобный этому. Вопрос: почему...
287 просмотров
schedule 10.01.2024

Конвейер sklearn: запустить TfidfVectorizer на полном обучающем наборе перед применением TimeSeriesSplit внутри GridSearchCV?
Я уверен, что это возможно, но я не смог понять это. Дайте набор обучающих данных, используя TimeSeriesSplit с num_split=5 , разделение выглядит следующим образом: [0] : [1] [0 1] : [2] [0 1 2] : [3] [0 1 2 3] : [4] [0 1 2 3 4] : [5]...
567 просмотров