Публикации по теме 'topic-modeling'


Тематические модели: скрытое размещение Дирихле
Тематические модели: скрытое размещение Дирихле В обработке естественного языка тематические модели являются важными статистическими инструментами для обнаружения скрытых структур в коллекции документов. В этом руководстве мы обсудим тематические модели и LDA (скрытое распределение Дирихле), которое является одной из самых известных и полезных тематических моделей. Тематические модели - Начнем с определения некоторых терминов. Документы : мы будем рассматривать документы как..

Тематическое моделирование … Методы
В предыдущем посте мы сказали, что тематическое моделирование — это метод обработки естественного языка (NLP), целью которого является обнаружение скрытых тем в коллекциях документов, таких как новостные статьи или научные статьи, и разработка моделей для обобщения и объяснения содержания. Поскольку большая часть глобальных данных хранится в виде текста, тематическое моделирование привлекло внимание, поскольку оно назначает темы словам, что позволяет эффективно обнаруживать соответствующие..

Вы хотите кластеризовать неразмеченные текстовые данные? Попробуйте тематическое моделирование
Вам понадобится 5 минут, чтобы понять и внедрить LDA в Python. Введение Мы живем в эпоху, когда мы окружены большим объемом текстовой информации, такой как ответы на опросы, комментарии в социальных сетях, твиты и т. д. Поиск подходящей информации для своих нужд может быть сложной задачей, особенно при работе с большим, но разнообразным массивом информации. данные. Благодаря тематическому моделированию — эпохе обработки естественного языка, используемой для эффективного анализа..

Моделирование токсической мужественности в жанре боевик / приключения
Использование NLTK, Gensim, Spacy и pyLDAvis для обнаружения говорящих моделей речи главных героев действия. Приключенческие боевики уже много лет радуют публику. От захватывающей автомобильной погони в «Буллите» (1968) до ожесточенного боя Джона Уика 3 (2019), кинозрители снова и снова стекаются в кинотеатры, чтобы получить дозу адреналина. Хотя жанр действительно приносит много удовольствия, есть несколько довольно очевидных проблем, на которые мне также было любопытно разобраться...

Сравнительный анализ алгоритмов LDA, NNMF и LSA для тематического моделирования
Практическое сравнение алгоритмов неконтролируемого тематического моделирования Обзор Работа с большими коллекциями неструктурированных текстовых данных может быть очень сложной. В отличие от обычных методов обработки естественного языка, которые включают в себя задачи классификации текста, тематическое моделирование немного отличается. Он использует неконтролируемые алгоритмы машинного обучения для выявления и извлечения скрытых тем из большого массива текстов. Эти алгоритмы..

Создание интерактивных визуализаций тематической модели в Python с использованием UMAP и BokehJS
В последнее время я активно работаю с тематическим моделированием в качестве специалиста по данным. Ресурсы по созданию тематических моделей с использованием алгоритмов (например, LDA, LSI, NMF) многочисленны и полезны. Однако мне не хватало хороших способов визуализации моих тематических моделей и их понимания, пока я не наткнулся на библиотеку Python umap-learn. В этом посте я постараюсь рассказать о процессе создания интерактивных визуализаций, чтобы разобраться в неструктурированных..

Тематическое моделирование с использованием LSA
В этом блоге мы будем говорить о тематическом моделировании, которое представляет собой способ выяснить, о чем идет речь, а затем сгруппировать их в соответствии с их содержанием. Мы также обсудим LSA и покажем его применение в Python для дальнейшего объяснения. Затем мы запросим код, чтобы увидеть, дает ли он нам требуемые результаты, которые представляют собой документы с темами, которые должны быть связаны с темой поиска / запроса. Чтобы уточнить, мы получили эту информацию из..