В предыдущем посте мы сказали, что тематическое моделирование — это метод обработки естественного языка (NLP), целью которого является обнаружение скрытых тем в коллекциях документов, таких как новостные статьи или научные статьи, и разработка моделей для обобщения и объяснения содержания. Поскольку большая часть глобальных данных хранится в виде текста, тематическое моделирование привлекло внимание, поскольку оно назначает темы словам, что позволяет эффективно обнаруживать соответствующие документы и быстро находить связанную информацию.

В продолжение давайте посмотрим на различные техники.

Одним из популярных подходов к неконтролируемому тематическому моделированию является Скрытое распределение Дирихле (LDA). LDA пытается определить тему, к которой относится документ, на основе содержащихся в нем слов. При таком подходе корпус преобразуется в большую матрицу слов-документов. Эту матрицу можно разложить на две матрицы тема-документ и тема-слово. Математически это можно представить в следующем уравнении:

p(слово ‘w’ с темой ‘t’) = p(тема t | документ d) * p(слово w | тема t)

Хотя LDA показал хорошие результаты в моделировании тем, он основан на предположении, что слова в каждой теме связаны между собой. В действительности, однако, слова могут иметь разные значения в зависимости от контекста, в котором они используются. Следовательно, документы могут иметь несколько несвязанных тем.

Исследование Khalifa et al. [1] представили более высокую производительность многоцелевого эволюционного алгоритма на основе декомпозиции (MOEA/D). MOEA/D — это метод оптимизации, в котором многокритериальный эволюционный алгоритм разбивается на ряд однокритериальных подзадач. В этом подходе цель состоит в том, чтобы эффективно исследовать Парето-оптимальный фронт, сосредоточив внимание на каждой подзадаче в отдельности и уменьшив сложность и разнообразие задач многокритериальной оптимизации. Халифа и др. изучали эффективность метода MOEA/D в отношении различных генетических алгоритмов. Их работа доказала, что MOEA/D демонстрирует меньшую сложность и более высокую производительность по сравнению с многоцелевым генетическим локальным поиском (MOGL) и генетическим алгоритмом недоминируемой сортировки (NSGA).

Гонсалес-Сантос и др. [2] использовали LDA в качестве исходной модели и применили MOEA/D. Они сравнили свои результаты, когда был применен алгоритм многоцелевой искусственной пчелиной колонии (MOABC). Они добились заметного улучшения производительности. Они протестировали свою модель на двух наборах данных, Reuters-21578 и TagMyNews. В их исследовании были рассмотрены два сценария из 4 и 10 тем. Используя набор данных Reuters-21578, по первому сценарию было достигнуто улучшение когерентности и недоумения в среднем на 10% и 1%. Улучшение согласованности достигло 5%, когда модель была применена к набору данных TagMyNews.

Помимо эволюционных алгоритмов, большое внимание в тематическом моделировании уделяется нейронным сетям. В обработке естественного языка (NLP) и нейронных тематических моделях (NTM) наиболее распространены байесовские вероятностные тематические модели (BPTM). Модели BPTM предполагают, что каждый документ содержит смесь тем, и каждая тема определяется распределением слов. Несмотря на популярность, вывод моделей BPTM усложняется по мере увеличения сложности моделей [3]. Чжао и др. [3] обсуждает вариационные автоэнкодеры (VAE) как расширение BPTM и называет их моделями VAE-NTM. Они отмечают, что адаптация структуры VAE к тематическому моделированию требует особого рассмотрения, поскольку входные данные имеют большую размерность, разрежены и имеют переменную длину. Кроме того, важно включение распределений слов в представление скрытых переменных.

Другие проблемы в этой области, которые обсуждаются для улучшения качества тематических моделей, включают:

· учитывая соотношение обнаруженных тем,

· принимая во внимание метаданные, такие как метки документов, авторство,

· с учетом последовательности слов документов, которая называется последовательной НТМ,

· применение предварительно обученных языковых моделей, таких как BERT или GPT-2, в классификации документов (классы интерпретируются как темы) [3].

Ссылки

[1] Гонсалес-Сантос, Карлос и Вега-Родригес, Мигель А. и Перес, Карлос. (2021). Решение тематического моделирования с многоцелевым подходом к оптимизации, основанным на групповом интеллекте. Системы, основанные на знаниях. 225. 107113. 10.1016/j.knosys.2021.107113.

[2] Халифа, Усама и Корн, Дэвид и Чантлер, М. и Галлей, Фрейзер. (2013). Многоцелевое тематическое моделирование. 10.1007/978–3–642–37140–0_8.

[3] Чжао, Хе и Фунг, Динь и Хюинь, Вьет и Джин, Юань и Ду, Лан и Бантин, Рэй. (2021). Тематическое моделирование встречается с глубокими нейронными сетями: обзор.