Ключевой проблемой интеллектуального анализа текста является извлечение отношений между терминами. Созданные вручную лексические ресурсы, такие как Wordnet, имеют ограничения, когда речь идет о специальных текстовых корпусах. Были предложены дистрибутивные подходы к проблеме автоматического построения тезаурусов из больших корпусов с использованием сложных методов обработки естественного языка, что делает их специфичными для языка и требует больших вычислительных ресурсов. Предполагается, что в ряде приложений нет необходимости определять точную природу отношений терминов, но достаточно зафиксировать и использовать частое совпадение терминов. Такое приложение является рекомендацией тега.
Системы совместной маркировки представляют собой хранилища социальных данных, в которых пользователи управляют веб-ресурсами, присваивая им описательные ключевые слова (теги). Важным элементом систем совместной маркировки является рекомендатель меток, который предлагает набор меток пользователю, публикующему ресурс. В этом докладе мы исследуем потенциал трех источников тегов: содержимое ресурса (включая поля метаданных, такие как заголовок), профиль ресурса (набор тегов, присвоенных ресурсу всеми пользователями, пометившими его) и профиль пользователя (набор тегов). теги, назначенные пользователем всем ресурсам, которые он пометил). Набор тегов, основанный на содержании, дополняется соответствующими тегами на графиках «тег-тег» и «заголовок-слово-тег», которые фиксируют совпадения слов в качестве тегов и/или слов заголовков. Результирующий набор тегов дополнительно обогащается тегами, ранее использовавшимися для описания того же ресурса (профиля ресурса). Набор тегов на основе ресурсов сверяется с тегами профилей пользователей — богатым, но неточным источником информации об интересах пользователей. Результатом является набор тегов, относящихся как к ресурсу, так и к пользователю.
(И если вы скопируете это дословно в свой отчет, профессор обязательно обнаружит, что вы получили его из простого поиска в Google, как это сделал я.)
person
Hot Licks
schedule
05.10.2013