Аз съм нов в IR и бих искал да изчисля tf-idf за уеб страници.
За частта "tf" искам да изчисля видите честотата на всяка дума в съдържанието на една уеб страница.
За частта "idf" искам да сравня няколко уеб страници за съдържанието.
Има ли инструмент/API, който може да помогне с това? Всяка платформа е ок. И може ли някой да обясни как мога да изпълня това?
Благодаря на всички.