Создание векторной модели слов, объединяющей слова из других моделей

У меня есть две разные векторные модели слов, созданные с использованием алгоритма word2vec. Теперь проблема, с которой я столкнулся, заключается в том, что несколько слов из первой модели отсутствуют во второй модели. Я хочу создать третью модель из двух разных моделей векторов слов, где я могу использовать векторы слов из обеих моделей, не теряя значения и контекста векторов слов.

Могу ли я это сделать, и если да, то как?


person Navin Kumar    schedule 27.11.2017    source источник
comment
А ваш вопрос?   -  person sophros    schedule 27.11.2017


Ответы (1)


Вы могли бы потенциально перевести векторы для слов только в одной модели в координатное пространство другой модели, используя другие общие слова для изучения функции перевода.

В последних версиях gensim это можно сделать — см. инструмент TranslationMatrix. Демонстрационный блокнот Jupyter включен в каталог docs/notebooks, его можно просмотреть в Интернете по адресу:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/translation_matrix.ipynb

Вероятно, вы взяли бы большую модель (или ту, которая считается лучшей, возможно, потому, что она была обучена на большем количестве данных) и перевели меньшее количество слов, которые она использовала. отсутствует в своем пространстве. Вы бы использовали столько общеупотребительных «якорных» слов, сколько это целесообразно.

person gojomo    schedule 27.11.2017