расчет tf-idf для веб-страниц

Я новичок в IR и хотел бы рассчитать tf-idf для веб-страниц.

Для части «tf» я хочу рассчитать частоту появления каждого слова в содержании одной веб-страницы.

Что касается части «idf», я хочу сравнить содержимое нескольких веб-страниц.

Есть ли инструмент/API, который может помочь с этим? Любая платформа подходит. И может кто-нибудь объяснить, как я могу это выполнить?

Спасибо всем.


person Arthur    schedule 29.05.2015    source источник


Ответы (1)


Сначала необходимо проиндексировать набор веб-страниц с помощью таких инструментов, как Lucene. Эти структуры индексации создадут для вас две вещи... во-первых, это перевернутый указатель, т. е. список документов, в которых встречается термин (аналогично указателю книги, где для каждого важного термина хранится список, который указывает, на каких страницах встречаются эти термины)... это заботится о части tf... вторая - это статистика сбора, в которой хранится глобальная (не по документам) статистика, например, частота документов (в скольких документах встречается термин) и т. д.

Эти два файла затем используются на этапе поиска для возврата списка документов с наивысшим рейтингом. Вот хороший учебник по Lucene, который должен помочь вам начать работу. Особенно полезны классы IndexWriter, StandardAnalyzer, Document, IndexSearcher и BM25Similarity.

person Debasis    schedule 29.05.2015