Рекомендуемые алгоритмы подобия слов

Я изучаю жизнеспособные алгоритмы/решения для реализации и решения следующей проблемы: подбор пользователей на основе их общих интересов

Пример:
U1: лыжи, азиатская культура, медитация, java, крипто
U2: йога, медитация, менеджмент, советы путешественникам. США
U3: программирование, путешествия, восточная кухня.

Я рассматриваю три измерения, основанные на сходстве слов:

Dictionary synonyms
- wordnet synsets
Close semantic similarity (programming > java, travelling > travel tips USA)
- So far I have considered Levenshtein_distance
Loose semantic similarity (asian culture >> oriental cuisine, programming >> crypto, asian culture >> yoga, yoga >> meditation)
- Not sure at all, played with word2vec

Основываясь на этих подходах, я хотел бы рассчитать показатель релевантности и соответствующим образом сопоставить пользователей.

Спасибо за отзыв!

zeratul021 02.03.2018 источник

Ответы (1)

arrow_upward
0
arrow_downward

Расстояние Левенштейна оказалось не очень полезным для определения семантического сходства в моих экспериментах.

Wordnet работал хорошо, но медленно для больших наборов слов.

Word2Vec является хорошим приближением для wordnet, но не настолько исчерпывающим при захвате всех связанных слов.

Также предлагаем вам ознакомиться с алгоритмом встраивания графиков, используемым в Starspace от Facebook, и особенно с примером использования лайков и рекомендаций на странице Facebook.

Adnan S 02.03.2018

Рекомендуемые алгоритмы подобия слов

Ответы (1)

Похожие вопросы