Ключов проблем при копаене на текст е извличането на връзки между термини. Ръчно изработените лексикални ресурси като Wordnet имат ограничения, когато става въпрос за специални текстови корпуси. Предложени са дистрибутивни подходи към проблема с автоматичното конструиране на тезауруси от големи корпуси, като се използват сложни техники за обработка на естествен език, което ги прави специфични за езика и изискващи изчисления. Предполага се, че в редица приложения не е необходимо да се определи точното естество на отношенията на термини, но е достатъчно да се улови и използва честото съвместно срещане на термини. Такова приложение е препоръка за етикет.
Системите за съвместно маркиране са хранилища за социални данни, в които потребителите управляват уеб ресурси, като им присвояват описателни ключови думи (тагове). Важен елемент от системите за съвместно маркиране е препоръчителят на етикети, който предлага набор от тагове на потребител, който публикува ресурс. В този разговор ние изследваме потенциала на три източника на етикети: съдържание на ресурс (включително полета с метаданни, като заглавие), профил на ресурс (набор от тагове, присвоени на ресурса от всички потребители, които са го маркирали) и потребителски профил (набор от етикети, които потребителят е присвоил на всички ресурси, които е маркирал). Базираният на съдържанието набор от тагове е обогатен със свързани тагове в графиките от етикет към етикет и заглавие от дума към етикет, които улавят едновременното появяване на думи като тагове и/или заглавни думи. Полученият набор от тагове е допълнително обогатен с тагове, използвани преди това за описание на същия ресурс (профил на ресурса). Базираният на ресурса набор от етикети се проверява спрямо маркери на потребителски профил - богат, но неточен източник на информация за потребителските интереси. Резултатът е набор от тагове, свързани както с ресурса, така и с потребителя.
(И ако копирате тази дума по дума в доклада си, професионалистът непременно ще открие, че сте го получили от просто търсене в Google, както направих аз.)
person
Hot Licks
schedule
05.10.2013