Использование тематических моделей LDA в качестве входных данных модели классификации

Я сделал модель LDA для создания тематической модели с использованием больших наборов обучающих данных. Итак, я пытаюсь использовать эту модель LDA для классификации, используя новое предложение, которое не используется в наборе обучающих данных.

Как я могу найти самый близкий номер темы, используя новое входное предложение?

Должен ли я использовать тематические модели LDA в качестве входных данных модели классификации?

Добро пожаловать, чтобы поделиться примером кода с использованием Python.


person user229257    schedule 05.12.2019    source источник


Ответы (1)


В задачах классификации, поскольку известна метка истинности, нам нужно только подумать, как извлечь признаки из обучающих данных. Для LDA признаками обычно являются распределения вероятностей тем, т. е. если в корпусе 5 тем, то размерность вектора признаков равна 5, и это должно быть лучшим признаком, чем закрытый номер темы (наиболее вероятная тема). .

Чтобы узнать, как получить распределение вероятностей тем для новых входных предложений, вы можете посмотреть здесь для других пакетов они также должны иметь аналогичные функции.

person TracyYXChen    schedule 14.01.2020