Свързани публикации 'topic-modeling'


Тематични модели: Латентно разпределение на Дирихле
Тематични модели: Латентно разпределение на Дирихле В обработката на естествен език тематичните модели са важни статистически инструменти за откриване на скрити структури в колекция от документи. В този урок ще обсъдим тематични модели и LDA (Latent Dirichlet Allocation), който е един от най-известните и полезни тематични модели. Тематични модели — Ще започнем с дефиниране на някои термини. Документи : Ще считаме документите за „торби с думи“. Например документът,..

Тематично моделиране ... Техники
В предишната публикация казахме, че моделирането на теми е техника в обработката на естествен език (NLP), която има за цел да открие скрити теми в колекции от документи, като новинарски статии или научни статии, и да разработи модели за обобщаване и обяснение на съдържанието. С по-голямата част от глобалните данни, съхранявани като текст, моделирането на теми привлече вниманието, тъй като присвоява теми на думи, което позволява ефективно откриване на подходящи документи и бързо извличане..

Искате ли да групирате немаркирани текстови данни? Опитайте моделиране на теми
Ще ви трябват 5 минути, за да разберете и внедрите LDA в Python Въведение Живеем в епоха, в която сме заобиколени от голям обем текстова информация, като отговори на анкети, коментари в социалните медии, туитове и т.н. Намирането на подходяща информация за вашите нужди може да бъде предизвикателство, особено когато се работи с голям, но различен корпус от данни. Благодарение на моделиране на теми , ера на обработка на естествен език, използвана за ефективно анализиране на големи..

Моделиране на токсична мъжественост в екшън/приключенския жанр
Използване на NLTK, Gensim, Spacy и pyLDAvis за разкриване на показателни модели на реч сред действащите герои. Екшън/приключенските филми радват публиката от години. От вълнуващото автомобилно преследване в „Bullit“ (1968) до бурната битка в John Wick 3 (2019), любителите на киното се тълпят в киното отново и отново, за да получат своя адреналин. Макар че наистина има много удоволствие от жанра, има някои доста ясни проблеми, които също бях любопитен да разгледам. От една страна,..

Сравнителен анализ на LDA, NNMF и LSA алгоритми за тематично моделиране
Практическо сравнение на алгоритми за моделиране на теми без надзор Преглед Работата с големи колекции от неструктурирани текстови данни може да бъде много трудна. За разлика от обичайните техники за обработка на естествен език, които включват задачи за класифициране на текст, моделирането на теми е малко по-различно. Той разчита на неконтролирани алгоритми за машинно обучение за идентифициране и извличане на латентни теми от голям корпус от текст. Тези алгоритми разкриват..

Създаване на интерактивни визуализации на тематичен модел в Python с помощта на UMAP и BokehJS
Напоследък работя усилено с Тематично моделиране в работата си като Data Scientist. Ресурсите за създаване на тематични модели с помощта на алгоритми (напр. LDA, LSI, NMF) са изобилни и полезни. Въпреки това останах да искам добри начини да визуализирам моите модели на теми и да ги осмисля, докато не попаднах на библиотеката umap-learn Python. В тази публикация имам за цел да премина през процеса на създаване на интерактивни визуализации, за да осмисля неструктурираните данни с помощта на..

Моделиране на теми с помощта на LSA
В този блог ще говорим за моделиране на теми, което е начин да разберете за какво става въпрос в текстовете и след това да ги групирате според съдържанието им. Ще обсъдим и LSA и ще го покажем, приложен в Python за по-нататъшно обяснение. След това ще отправим запитване към кода, за да видим дали ни дава необходимите резултати, които са документи с теми, които трябва да бъдат свързани с темата на търсенето/заявката. За да поясним, получихме тази информация от различни източници,..