Рекомендуемые алгоритмы подобия слов

Я изучаю жизнеспособные алгоритмы/решения для реализации и решения следующей проблемы: подбор пользователей на основе их общих интересов

Пример:
U1: лыжи, азиатская культура, медитация, java, крипто
U2: йога, медитация, менеджмент, советы путешественникам. США
U3: программирование, путешествия, восточная кухня.

Я рассматриваю три измерения, основанные на сходстве слов:

  • Dictionary synonyms
  • Close semantic similarity (programming > java, travelling > travel tips USA)
  • Loose semantic similarity (asian culture >> oriental cuisine, programming >> crypto, asian culture >> yoga, yoga >> meditation)

Основываясь на этих подходах, я хотел бы рассчитать показатель релевантности и соответствующим образом сопоставить пользователей.

Спасибо за отзыв!


person zeratul021    schedule 02.03.2018    source источник


Ответы (1)


Расстояние Левенштейна оказалось не очень полезным для определения семантического сходства в моих экспериментах.

Wordnet работал хорошо, но медленно для больших наборов слов.

Word2Vec является хорошим приближением для wordnet, но не настолько исчерпывающим при захвате всех связанных слов.

Также предлагаем вам ознакомиться с алгоритмом встраивания графиков, используемым в Starspace от Facebook, и особенно с примером использования лайков и рекомендаций на странице Facebook.

person Adnan S    schedule 02.03.2018