Алгоритмы сходства слов с использованием википедии

Я ищу, чтобы рассчитать расстояние между двумя словами

Word1 - Манчестер Юнайтед Word2 - Райан Гиггз

Я чувствую, что использование Википедии было бы действительно хорошим вариантом. Я бы попытался определить расстояние обоих слов от общей категории или темы. Какие алгоритмы можно использовать для определения общей темы? Мой следующий вопрос: как мне получить иерархию по общей теме, чтобы я мог рассчитать расстояние между словами?

Я также хотел бы знать, есть ли другие способы вычисления расстояния между двумя словами. Было бы хорошо, если бы это было легко и эффективно реализовать.


person Naveen Mohan    schedule 12.06.2014    source источник


Ответы (1)


Почему бы не использовать https://code.google.com/p/word2vec/, который уже обучались на WIKI?

person Daniel    schedule 12.06.2014
comment
Вернет ли это расстояние между двумя словами? Кроме того, как это работает, если есть двусмысленность в значениях слов? - person Naveen Mohan; 12.06.2014
comment
Да, мера расстояния. AFAIN это не поддерживает смысл слова. - person Daniel; 12.06.2014
comment
@Daniel Что ты имеешь в виду под «уже обучен»? Разве для этого не нужно тренировать word2vec в Википедии (что не так уж и тривиально)? Есть ли готовые обучаемые варианты? - person Noam; 01.07.2014
comment
Я имею в виду, что система, которую я связал, уже обучена и готова к использованию. Обучение такой системы является большой проблемой и может занять несколько недель, даже при очень хорошей инженерии. - person Daniel; 02.07.2014