Свързани публикации 'tf-idf'


Разбиране как концептуално работи TF-IDF.
TF-IDF (Term Frequency-Inverse Document Frequency) е числено представяне, използвано при обработка на естествен език. Това е техника за извличане на информация за оценка на важността на дума в документ в колекция от документи. Той подчертава думи, които имат висока честота в рамките на даден документ, като същевременно отчита тяхната уникалност или рядкост в цялата колекция. TF-IDF често се използва за задачи като класифициране на текст, извличане на информация и препоръчване на..

Свързани въпроси 'tf-idf'

Как да класирате ElasticSearch документи въз основа на резултати
Имам еластичен индекс за търсене, който съдържа хиляди документи, като всеки документ представлява потребител. всеки документ има набор от полета (is_verified: boolean, country: string, is_creator: boolean), също така имам друга услуга, която...
53 изгледи
schedule 03.10.2022

TF*IDF за заявки за търсене
Добре, следя тези две публикации в TF*IDF, но съм малко объркан: http://css.dzone.com/articles/machine-learning-text-feature По принцип искам да създам заявка за търсене, която съдържа търсения в множество документи. Бих искал да използвам...
8238 изгледи
schedule 19.11.2023

Нормализиране на резултатите от TF-IDF
Бих искал да нормализирам tfidf резултатите, които имам от този даден код: for (int docNum = 0; docNum < ir.numDocs(); docNum++) { TermFreqVector tfv = ir.getTermFreqVector(docNum, "contents"); if (tfv == null) {...
16649 изгледи
schedule 07.12.2023

изчисляване на tf-idf за уеб страници
Аз съм нов в IR и бих искал да изчисля tf-idf за уеб страници. За частта "tf" искам да изчисля видите честотата на всяка дума в съдържанието на една уеб страница. За частта "idf" искам да сравня няколко уеб страници за съдържанието. Има ли...
572 изгледи
schedule 06.02.2024

Разреден вектор RDD в pyspark
Внедрявам описания тук метод TF-IDF с Python/Pyspark, използвайки функция от mllib: https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html Имам комплект за обучение от 150 текстови документа, набор за тестване от 80 текстови...
1022 изгледи

SGDClassifier с HashingVectorizer и TfidfTransformer
Бих искал да разбера дали е възможно да се обучи онлайн SGDClassifier (с partial_fit) с помощта на HashingVectorizer и TfidfTransformer. Простото им присъединяване в конвейер няма да работи, тъй като TfidfTransformer поддържа състояние, така че това...
760 изгледи
schedule 17.02.2024

tf-idf: правилно ли го разбирам?
Интересувам се от групиране на документи и точно сега обмислям да използвам TF-IDF за това. Ако не греша, TF-IDF се използва по-специално за оценка на уместността на документ при зададена заявка . Ако нямам конкретна заявка, как мога да приложа...
3424 изгледи

Как мога да групирам думи въз основа на това колко често се използват в едно и също изречение?
Имам текст, 500 изречения. Изреченията са ясно очертани, да приемем с точка за простота. Всяко изречение има около 10-20 думи. Искам да го разделя на групи от думи, които статистически се използват в едно и също изречение най-често. Ето един...
101 изгледи
schedule 07.05.2024

Претегляне на специфични характеристики в TF-IDF вектори на характеристики за k-средно групиране и косинусово сходство
Имам масив от вектори на функции TF-IDF. Бих искал да намеря подобни вектори в масива, като използвам два метода: Косинусово подобие k-означава групиране Използвайки Scikit Learn, този процес е доста прост. Сега бих искал да претегля...
431 изгледи