Свързани публикации 'tf-idf'
Разбиране как концептуално работи TF-IDF.
TF-IDF (Term Frequency-Inverse Document Frequency) е числено представяне, използвано при обработка на естествен език. Това е техника за извличане на информация за оценка на важността на дума в документ в колекция от документи. Той подчертава думи, които имат висока честота в рамките на даден документ, като същевременно отчита тяхната уникалност или рядкост в цялата колекция. TF-IDF често се използва за задачи като класифициране на текст, извличане на информация и препоръчване на..
Свързани въпроси 'tf-idf'
Как да класирате ElasticSearch документи въз основа на резултати
Имам еластичен индекс за търсене, който съдържа хиляди документи, като всеки документ представлява потребител.
всеки документ има набор от полета (is_verified: boolean, country: string, is_creator: boolean), също така имам друга услуга, която...
53 изгледи
schedule
03.10.2022
TF*IDF за заявки за търсене
Добре, следя тези две публикации в TF*IDF, но съм малко объркан: http://css.dzone.com/articles/machine-learning-text-feature
По принцип искам да създам заявка за търсене, която съдържа търсения в множество документи. Бих искал да използвам...
8238 изгледи
schedule
19.11.2023
Нормализиране на резултатите от TF-IDF
Бих искал да нормализирам tfidf резултатите, които имам от този даден код:
for (int docNum = 0; docNum < ir.numDocs(); docNum++) {
TermFreqVector tfv = ir.getTermFreqVector(docNum, "contents");
if (tfv == null) {...
16649 изгледи
schedule
07.12.2023
изчисляване на tf-idf за уеб страници
Аз съм нов в IR и бих искал да изчисля tf-idf за уеб страници.
За частта "tf" искам да изчисля видите честотата на всяка дума в съдържанието на една уеб страница.
За частта "idf" искам да сравня няколко уеб страници за съдържанието.
Има ли...
572 изгледи
schedule
06.02.2024
Разреден вектор RDD в pyspark
Внедрявам описания тук метод TF-IDF с Python/Pyspark, използвайки функция от mllib:
https://spark.apache.org/docs/1.3.0/mllib-feature-extraction.html
Имам комплект за обучение от 150 текстови документа, набор за тестване от 80 текстови...
1022 изгледи
schedule
25.11.2023
SGDClassifier с HashingVectorizer и TfidfTransformer
Бих искал да разбера дали е възможно да се обучи онлайн SGDClassifier (с partial_fit) с помощта на HashingVectorizer и TfidfTransformer. Простото им присъединяване в конвейер няма да работи, тъй като TfidfTransformer поддържа състояние, така че това...
760 изгледи
schedule
17.02.2024
tf-idf: правилно ли го разбирам?
Интересувам се от групиране на документи и точно сега обмислям да използвам TF-IDF за това.
Ако не греша, TF-IDF се използва по-специално за оценка на уместността на документ при зададена заявка . Ако нямам конкретна заявка, как мога да приложа...
3424 изгледи
schedule
29.02.2024
Как мога да групирам думи въз основа на това колко често се използват в едно и също изречение?
Имам текст, 500 изречения. Изреченията са ясно очертани, да приемем с точка за простота. Всяко изречение има около 10-20 думи.
Искам да го разделя на групи от думи, които статистически се използват в едно и също изречение най-често. Ето един...
101 изгледи
schedule
07.05.2024
Претегляне на специфични характеристики в TF-IDF вектори на характеристики за k-средно групиране и косинусово сходство
Имам масив от вектори на функции TF-IDF. Бих искал да намеря подобни вектори в масива, като използвам два метода:
Косинусово подобие
k-означава групиране
Използвайки Scikit Learn, този процес е доста прост.
Сега бих искал да претегля...
431 изгледи
schedule
28.05.2024