Алгоритм родства терминов

Для задания я должен предложить алгоритм для вычисления степени родства между двумя терминами данного документа. Я не знаю, с чего начать создание такого алгоритма ;. Все это относится к области информационного поиска, и в настоящее время мы изучаем модель бинарного и векторного пространства и т. д.

Если бы кто-нибудь мог направить меня в правильном направлении, по крайней мере, это было бы здорово! Или любые ссылки, которые могут помочь.


person Peter Smith    schedule 05.10.2013    source источник
comment
Какое родство вы имеете в виду? Не могли бы вы привести пример и, может быть, контрпример?   -  person Behe    schedule 05.10.2013


Ответы (1)


Ключевой проблемой интеллектуального анализа текста является извлечение отношений между терминами. Созданные вручную лексические ресурсы, такие как Wordnet, имеют ограничения, когда речь идет о специальных текстовых корпусах. Были предложены дистрибутивные подходы к проблеме автоматического построения тезаурусов из больших корпусов с использованием сложных методов обработки естественного языка, что делает их специфичными для языка и требует больших вычислительных ресурсов. Предполагается, что в ряде приложений нет необходимости определять точную природу отношений терминов, но достаточно зафиксировать и использовать частое совпадение терминов. Такое приложение является рекомендацией тега.

Системы совместной маркировки представляют собой хранилища социальных данных, в которых пользователи управляют веб-ресурсами, присваивая им описательные ключевые слова (теги). Важным элементом систем совместной маркировки является рекомендатель меток, который предлагает набор меток пользователю, публикующему ресурс. В этом докладе мы исследуем потенциал трех источников тегов: содержимое ресурса (включая поля метаданных, такие как заголовок), профиль ресурса (набор тегов, присвоенных ресурсу всеми пользователями, пометившими его) и профиль пользователя (набор тегов). теги, назначенные пользователем всем ресурсам, которые он пометил). Набор тегов, основанный на содержании, дополняется соответствующими тегами на графиках «тег-тег» и «заголовок-слово-тег», которые фиксируют совпадения слов в качестве тегов и/или слов заголовков. Результирующий набор тегов дополнительно обогащается тегами, ранее использовавшимися для описания того же ресурса (профиля ресурса). Набор тегов на основе ресурсов сверяется с тегами профилей пользователей — богатым, но неточным источником информации об интересах пользователей. Результатом является набор тегов, относящихся как к ресурсу, так и к пользователю.

(И если вы скопируете это дословно в свой отчет, профессор обязательно обнаружит, что вы получили его из простого поиска в Google, как это сделал я.)

person Hot Licks    schedule 05.10.2013