Алгоритъм за свързаност на термина

За задание трябва да предложа алгоритъм за изчисляване на степента на свързаност между два термина в даден документ. Не знам откъде да започна създаването на такъв алгоритъм;. Всичко това е в областта на извличането на информация и в момента изучаваме модела на двоичното и векторното пространство и т.н.

Ако някой може поне да ме насочи в правилната посока, би било страхотно! Или всякакви връзки, които биха помогнали.


person Peter Smith    schedule 05.10.2013    source източник
comment
Каква връзка имаш предвид? Бихте ли дали пример и може би контрапример?   -  person Behe    schedule 05.10.2013


Отговори (1)


Ключов проблем при копаене на текст е извличането на връзки между термини. Ръчно изработените лексикални ресурси като Wordnet имат ограничения, когато става въпрос за специални текстови корпуси. Предложени са дистрибутивни подходи към проблема с автоматичното конструиране на тезауруси от големи корпуси, като се използват сложни техники за обработка на естествен език, което ги прави специфични за езика и изискващи изчисления. Предполага се, че в редица приложения не е необходимо да се определи точното естество на отношенията на термини, но е достатъчно да се улови и използва честото съвместно срещане на термини. Такова приложение е препоръка за етикет.

Системите за съвместно маркиране са хранилища за социални данни, в които потребителите управляват уеб ресурси, като им присвояват описателни ключови думи (тагове). Важен елемент от системите за съвместно маркиране е препоръчителят на етикети, който предлага набор от тагове на потребител, който публикува ресурс. В този разговор ние изследваме потенциала на три източника на етикети: съдържание на ресурс (включително полета с метаданни, като заглавие), профил на ресурс (набор от тагове, присвоени на ресурса от всички потребители, които са го маркирали) и потребителски профил (набор от етикети, които потребителят е присвоил на всички ресурси, които е маркирал). Базираният на съдържанието набор от тагове е обогатен със свързани тагове в графиките от етикет към етикет и заглавие от дума към етикет, които улавят едновременното появяване на думи като тагове и/или заглавни думи. Полученият набор от тагове е допълнително обогатен с тагове, използвани преди това за описание на същия ресурс (профил на ресурса). Базираният на ресурса набор от етикети се проверява спрямо маркери на потребителски профил - богат, но неточен източник на информация за потребителските интереси. Резултатът е набор от тагове, свързани както с ресурса, така и с потребителя.

(И ако копирате тази дума по дума в доклада си, професионалистът непременно ще открие, че сте го получили от просто търсене в Google, както направих аз.)

person Hot Licks    schedule 05.10.2013