Публикации по теме 'tf-idf'
Понимание того, как концептуально работает TF-IDF.
TF-IDF (частота термина, обратная частоте документа) — это числовое представление, используемое при обработке естественного языка. Это метод поиска информации, позволяющий оценить важность слова в документе в коллекции документов. Он подчеркивает слова, которые часто встречаются в документе, учитывая их уникальность или редкость во всей коллекции. TF-IDF часто используется для таких задач, как классификация текста, поиск информации и рекомендации по контенту.
Коллекция документов:..
Вопросы по теме 'tf-idf'
tf-idf: я правильно понимаю?
Я заинтересован в кластеризации документов, и сейчас я рассматриваю возможность использования для этого TF-IDF.
Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности документа данному запросу . Если у меня нет определенного...
3424 просмотров
schedule
29.02.2024
Нормализация результатов TF-IDF
Я хотел бы нормализовать результаты tfidf, которые я получил из этого кода:
for (int docNum = 0; docNum < ir.numDocs(); docNum++) {
TermFreqVector tfv = ir.getTermFreqVector(docNum, "contents");
if (tfv == null) {...
16649 просмотров
schedule
07.12.2023
TF * IDF для поисковых запросов
Хорошо, я слежу за этими двумя сообщениями на TF * IDF, но немного запутался: http://css.dzone.com/articles/machine-learning-text-feature .
По сути, я хочу создать поисковый запрос, содержащий поиск по нескольким документам. Я хотел бы...
8238 просмотров
schedule
19.11.2023
SGDClassifier с HashingVectorizer и TfidfTransformer
Я хотел бы понять, можно ли обучить онлайн SGDClassifier (с partial_fit) с помощью HashingVectorizer и TfidfTransformer. Простое объединение их в конвейер не сработает, поскольку TfidfTransformer сохраняет состояние, что нарушит процесс...
760 просмотров
schedule
17.02.2024
расчет tf-idf для веб-страниц
Я новичок в IR и хотел бы рассчитать tf-idf для веб-страниц.
Для части «tf» я хочу рассчитать частоту появления каждого слова в содержании одной веб-страницы.
Что касается части «idf», я хочу сравнить содержимое нескольких веб-страниц.
Есть...
572 просмотров
schedule
06.02.2024
Как сгруппировать слова по частоте их употребления в одном предложении?
У меня есть текст, 500 предложений. Предложения четко разграничены, для простоты предположим точку. В каждом предложении около 10-20 слов.
Я хочу разбить его на группы слов, которые по статистике чаще всего используются в одном и том же...
101 просмотров
schedule
07.05.2024
Разреженный вектор RDD в pyspark
Я реализовал метод TF-IDF, описанный здесь, с помощью Python/Pyspark, используя функцию из mllib:
https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html
У меня есть обучающий набор из 150 текстовых документов, тестовый набор из 80...
1022 просмотров
schedule
25.11.2023
Взвешивание конкретных признаков в векторах признаков TF-IDF для кластеризации k-средних и сходства косинусов
У меня есть массив векторов признаков TF-IDF. Я хотел бы найти похожие векторы в массиве, используя два метода:
Косинусное сходство
кластеризация k-средних
Используя Scikit Learn, этот процесс довольно прост.
Теперь я хотел бы взвесить...
431 просмотров
schedule
28.05.2024
в чем разница между «частотой термина» и «частотой документа»?
EDIT: это вопрос, который я в конечном итоге пытался задать: Понимание min_df и max_df в scikit CountVectorizer
Я читал документацию по scikit-learn CountVectorizer и заметил, что при обсуждении max_df нас интересует частота документирования...
1289 просмотров
schedule
27.02.2024
Как рассчитать косинусное сходство из TfidfVectorizer?
У меня есть два CSV-файла - обучающий и тестовый, по 18000 отзывов каждый. Мне нужно использовать файл поезда для извлечения функций и расчета метрики сходства между каждым обзором в файле поезда и каждым обзором в тестовом файле.
Я создал словарь...
2758 просмотров
schedule
09.11.2023
Лучшее соответствие входному запросу из набора документов
У меня есть 8 документов, и я запустил TF-IDF , чтобы получить массив. Я не понимаю, как узнать, какой документ лучше всего подходит для данного входного запроса?
all_documents = [doc1, doc2, ...., doc7]
sklearn_tfidf =...
818 просмотров
schedule
17.10.2022
Получите веса слов tf-idf с помощью sklearn
У меня есть набор текстов из википедии. Используя tf-idf , я могу определить вес каждого слова. Ниже приведен код:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
wiki...
5592 просмотров
schedule
12.12.2023
Solr - Найдите важные термины в подмножестве документов
Я пытаюсь получить «важные термины» для подмножества документов в Solr. Это может быть, а может и не быть лучшим способом, но в настоящее время я пытаюсь использовать функциональность Solr TF-IDF, поскольку у нас есть данные, хранящиеся в Solr, и это...
377 просмотров
schedule
20.11.2023
Веса векторизатора TfIDf
Привет, у меня есть лемматизированный текст в формате, показанном lemma . Я хочу получить оценку TfIdf для каждого слова, это функция, которую я написал:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import...
2834 просмотров
schedule
01.12.2023
Использование пробелов и textacy. Нужно найти оценку tf-idf в корпусе оригинальных твитов, но не могу импортировать векторизатор textacy.
Я новичок в этих структурах, а также в НЛП. Я следую примеру, который дает мне следующий фрагмент кода для вычисления оценки tf-idf всех токенов в твитах. Однако я продолжаю получать либо ошибки импорта, либо неопределенный векторизатор.
Код:...
3011 просмотров
schedule
25.11.2023
Как похожие документы, преобразованные в вектор со значениями TFIDF, выглядят в векторном пространстве
Это может быть странный вопрос, но я не могу не задаться вопросом. Допустим, у меня есть три документа:
d1 = "Меня зовут Стефан."
d2 = «Меня зовут Дэвид».
d3 = "Привет, как дела?"
И если я преобразую все эти 3 документа в вектора со...
22 просмотров
schedule
08.12.2023
Следует ли при использовании триграмм в tf-idf включать униграммы и биграммы?
Когда я использовал биграммы, я добавлял список биграмм к униграммам и использовал его в качестве своего корпуса. С триграммами я добавил триграммы к униграммам, но исключил биграммы.
Это правильный подход, или было бы лучше включить биграммы,...
698 просмотров
schedule
18.11.2023
Поиск информации: как рассчитать tf-idf для нескольких условий поиска?
У меня есть корпус из следующих 4 документов:
‹1> Это первый документ. ‹2> А это второй документ. ‹3> Третий документ длиннее первого и второго. ‹4> Это последний документ.
И используйте очередь поиска «первый ИЛИ последний», как я должен...
681 просмотров
schedule
28.02.2024
Концептуальный вопрос о tf-idf с использованием pyspark
В официальной документации pyspark есть пример tf-idf.
hashingTF = HashingTF()
tf = hashingTF.transform(documents)
tf.cache()
idf = IDF().fit(tf)
tfidf = idf.transform(tf)
Я также готов в других источниках код, подобный этому. Вопрос: почему...
287 просмотров
schedule
10.01.2024
Конвейер sklearn: запустить TfidfVectorizer на полном обучающем наборе перед применением TimeSeriesSplit внутри GridSearchCV?
Я уверен, что это возможно, но я не смог понять это. Дайте набор обучающих данных, используя TimeSeriesSplit с num_split=5 , разделение выглядит следующим образом:
[0] : [1]
[0 1] : [2]
[0 1 2] : [3]
[0 1 2 3] : [4]
[0 1 2 3 4] : [5]...
567 просмотров
schedule
19.03.2024