Тематично моделиране ... Техники

В предишната публикация казахме, че моделирането на теми е техника в обработката на естествен език (NLP), която има за цел да открие скрити теми в колекции от документи, като новинарски статии или научни статии, и да разработи модели за обобщаване и обяснение на съдържанието. С по-голямата част от глобалните данни, съхранявани като текст, моделирането на теми привлече вниманието, тъй като присвоява теми на думи, което позволява ефективно откриване на подходящи документи и бързо извличане на свързана информация.

В нататък нека да разгледаме различни техники.

Един от популярните подходи за моделиране на теми без надзор е Латентно разпределение на Дирихле (LDA). LDA се опитва да открие темата, към която принадлежи даден документ въз основа на думите в него. При този подход корпусът се преобразува в голяма матрица от документи-думи. Тази матрица може да се разложи на две матрици документ-тема и тема-дума. Математически може да се обобщи в следното уравнение:

p(дума „w“ с тема „t“) = p(тема t | документ d) * p(дума w | тема t)

Въпреки че LDA показа добро представяне в тематичното моделиране, то разчита на предположението, че думите под всяка тема са свързани. В действителност обаче думите могат да имат различни значения в зависимост от контекста, в който се използват. Следователно документите може да имат множество несвързани теми.

Проучване на Khalifa et al. [1] представи превъзходството на Многообективен еволюционен алгоритъм базиран на Разлагане (MOEA/D). MOEA/D е техника за оптимизация, при която еволюционен алгоритъм с много цели се разлага на редица подпроблеми с една цел. При този подход целта е ефективно да се изследва Парето-оптималният фронт чрез фокусиране върху всеки подпроблем поотделно и намаляване на сложността и разнообразието на многоцелевите оптимизационни проблеми. Халифа и др. изследва ефективността на метода MOEA/D срещу различни генетични алгоритми. Тяхната работа доказа, че MOEA/D показва по-ниска сложност и по-висока производителност срещу мулти-обективно генетично локално търсене (MOGL) и недоминиран генетичен алгоритъм за сортиране (NSGA).

González-Santos и др. [2] използва LDA като първоначален модел и прилага MOEA/D. Те сравняват своите резултати, когато е приложен алгоритъм за мултицелева изкуствена пчелна колония (MOABC). Те постигнаха значително подобрение в производителността. Те тестваха своя модел върху два набора от данни, Reuters-21578 и TagMyNews. В тяхното проучване са разгледани два сценария от 4 и 10 теми. Използвайки набора от данни Reuters-21578, при първия сценарий е постигнато средно 10% и 1% подобрение в съгласуваността и объркването. Подобрението достигна до 5% процента на кохерентност, когато моделът беше приложен към набора от данни TagMyNews.

Освен еволюционните алгоритми, невронните мрежи са получили голямо внимание в тематичното моделиране. При обработката на естествения език (NLP) и невронните тематични модели (NTM), Bayesian Probabilistic Topic Models (BPTM) са най-разпространените. BPTM моделите предполагат, че всеки документ съдържа смесица от теми и всяка тема се определя от разпределение на думи. Въпреки популярността, извеждането на BPTM модели става трудно, тъй като сложността на моделите нараства [3]. Джао и др. [3] обсъжда вариационни автоенкодери (VAE) като разширение на BPTM и ги назовава като VAE-NTM модели. Те отбелязват, че адаптирането на рамката VAE към тематичното моделиране изисква специални съображения, тъй като входните данни имат голяма размерност и са оскъдни и променливи по дължина. Освен това, включването на разпределения на думи в представянето на скрити променливи е важно.

Други предизвикателства в тази област, които се обсъждат за подобряване на качеството на тематичните модели, са

· като се има предвид съотношението на откритите теми,

· като се вземат предвид метаданни като етикети на документи, авторство,

· като се вземе предвид последователността от думи на документи, която се нарича последователна NTM,

· прилагане на предварително обучени езикови модели като BERT или GPT-2 в класификацията на документи (класовете се интерпретират като теми) [3].

Референции

[1] Гонзалес-Сантос, Карлос и Вега-Родригес, Мигел А. и Перес, Карлос. (2021 г.). Обръщане към тематичното моделиране с многоцелеви оптимизационен подход, базиран на интелигентност на рояк. Системи, базирани на знания. 225. 107113. 10.1016/j.knosys.2021.107113.

[2] Khalifa, Usama & Corne, David & Chantler, M. & Halley, Fraser. (2013). Многоцелево тематично моделиране. 10.1007/978–3–642–37140–0_8.

[3] Zhao, He & Phung, Dinh & Huynh, Viet & Jin, Yuan & Du, Lan & Buntine, Wray. (2021 г.). Тематичното моделиране среща дълбоките невронни мрежи: Проучване.

Тематично моделиране ... Техники

Подобни въпроси