Сопоставление текста Python — синонимы

У меня есть два столбца в Pandas: A и B, каждый из которых содержит строки терминов. Моя цель - найти запись в столбце B, которая наиболее похожа на столбец A. Я уже использую для этого TF-IDF, но иногда есть синонимы, которые явно не совпадают, например. деньги и валюта.

Как я могу найти совпадения, которые также включают синонимы?


person user1058210    schedule 18.05.2017    source источник


Ответы (1)


Я не уверен, как TF-IDF будет здесь полезен, если вы работаете с отдельными парами слов.

В любом случае, есть два очевидных решения этой проблемы.

Используйте традиционную базу знаний, я бы рекомендовал Wordnet для этого варианта использования, это широко считается стандартом в отрасли. .

Второй вариант — использовать алгоритм машинного обучения Word2Vec (или аналог Glove). Я бы сказал, что это самое простое решение, если вы используете уже обученную модель, такую ​​как Новости Google один. Просмотрите реализация Gensim, чтобы загрузить модель и вычислить сходство.

person Oersted    schedule 18.05.2017