изчисляване на tf-idf за уеб страници

Аз съм нов в IR и бих искал да изчисля tf-idf за уеб страници.

За частта "tf" искам да изчисля видите честотата на всяка дума в съдържанието на една уеб страница.

За частта "idf" искам да сравня няколко уеб страници за съдържанието.

Има ли инструмент/API, който може да помогне с това? Всяка платформа е ок. И може ли някой да обясни как мога да изпълня това?

Благодаря на всички.


person Arthur    schedule 29.05.2015    source източник


Отговори (1)


Първо трябва да индексирате колекция от уеб страници, като използвате инструменти като Lucene. Тези рамки за индексиране биха създали две неща за вас... първо е обърнат индекс, т.е. списък с документи, в които се среща термин (аналогично на индекса на книга, където за всеки важен термин съхранява се списък, който показва на кои страници се срещат тези термини)... това се грижи за tf частта... втората е статистиката за събиране, която съхранява глобална (не за всеки документ) статистика, като честота на документа (в колко документа се среща даден термин) и т.н.

След това тези два файла се използват по време на етапа на извличане, за да върнат списък с най-високо класирани документи. Ето един хубав урок за Lucene, който трябва да ви помогне да започнете. Особено полезни са класовете IndexWriter, StandardAnalyzer, Document, IndexSearcher и BM25Similarity.

person Debasis    schedule 29.05.2015