Я новичок в IR и хотел бы рассчитать tf-idf для веб-страниц.
Для части «tf» я хочу рассчитать частоту появления каждого слова в содержании одной веб-страницы.
Что касается части «idf», я хочу сравнить содержимое нескольких веб-страниц.
Есть ли инструмент/API, который может помочь с этим? Любая платформа подходит. И может кто-нибудь объяснить, как я могу это выполнить?
Спасибо всем.