Публикации по теме 'lda'


Вы хотите кластеризовать неразмеченные текстовые данные? Попробуйте тематическое моделирование
Вам понадобится 5 минут, чтобы понять и внедрить LDA в Python. Введение Мы живем в эпоху, когда мы окружены большим объемом текстовой информации, такой как ответы на опросы, комментарии в социальных сетях, твиты и т. д. Поиск подходящей информации для своих нужд может быть сложной задачей, особенно при работе с большим, но разнообразным массивом информации. данные. Благодаря тематическому моделированию — эпохе обработки естественного языка, используемой для эффективного анализа..

Вопросы по теме 'lda'

модуль python установлен и распознан, но не может импортировать его в мой код или интерпретатор python 2.7.1 в Ubuntu
Я застрял, пытаясь запустить и запустить модуль Python C. Я устанавливаю модуль deltaLDA из здесь . Я следовал инструкциям, указанным в файле REAMDE. Как обычно, я написал: sudo python setup.py install Все прошло, как и ожидалось, я...
1521 просмотров
schedule 28.11.2023

Маллет: Актуальные N-граммы
Я хочу запустить маллет с параметром --use-ngrams true , но не могу заставить его работать. Я импортировал свои данные, используя: ./bin/mallet import-dir --input path --output topic-input.mallet --keep-seqence -- removed stopwords Теперь я...
3468 просмотров
schedule 06.01.2024

Mahout LDA: какой самый большой размер словаря, который можно практически использовать?
Я запускаю LDA Mahout на EC2 (используя Whirr). Какой самый большой словарный запас вам удалось использовать на практике? Не могли бы вы поделиться некоторыми настройками Hadoop/EC2? В идеале я хотел бы запустить LDA на корпусе из 3 миллионов...
293 просмотров
schedule 27.12.2023

Удалить пустые документы из DocumentTermMatrix в R topicmodels?
Я занимаюсь тематическим моделированием с использованием пакета topicmodels в R. Я создаю объект Corpus, выполняю некоторую базовую предварительную обработку, а затем создаю DocumentTermMatrix: corpus <- Corpus(VectorSource(vec),...
30563 просмотров
schedule 01.05.2024

Как добавить новые документы в существующую модель темы в mallet или создать пакетную модель для большого количества документов
Я хочу использовать тематическое моделирование и нашел, что MALLET подходит мне. Я успешно создал свою первую демонстрацию, используя около 0,1 миллиона документов. Теперь, согласно моим требованиям, мне приходится иметь дело с 10 миллионами...
311 просмотров
schedule 30.03.2024

Как Spark LDA обрабатывает нецелые числа токенов (например, TF-IDF)
Я провел серию экспериментов по моделированию тем в Spark, варьируя количество тем. Итак, учитывая RDD docsWithFeatures , я делаю что-то вроде этого: for (n_topics <- Range(65,301,5) ){ val s = n_topics.toString val lda = new...
280 просмотров
schedule 20.03.2024

Почему в Spark mllib так медленно сообщается о проблемах с журналом модели LDA?
Я подгоняю модель LDA в Spark mllib, используя OnlineLDAOptimizer. Требуется всего ~ 200 секунд, чтобы разместить 10 тем в 9 миллионах документов (твитов). val numTopics=10 val lda = new LDA() .setOptimizer(new...
1137 просмотров
schedule 13.05.2024

Как запускать utl-скрипты vowpal-wabbit?
Я установил vowpal-wabbit на свой Mac, используя brew install vowpal-wabbit . Команда vw работает нормально. Однако я хочу использовать некоторые скрипты в \utl\ папка библиотеки. В частности, я хочу запустить vw_lda.py Я попытался...
104 просмотров
schedule 22.01.2024

Тематическая модель Gensim HDP: как тренироваться на нескольких проходах корпуса?
HDP-модель Gensim для тематического моделирования (gensim.models.hdpmodel.HdpModel) имеет конструктор, который принимает аргумент с именем max_chunks . В документации указано, что max_chunks — это количество фрагментов, которые будет проходить...
1359 просмотров
schedule 27.11.2022

Как получить косинусное сходство между двумя документами в MALLET?
У меня есть тематическая модель LDA, обученная с использованием MALLET, но я хочу вычислить косинусное сходство между двумя документами, чтобы получить сходство, но я не уверен, для какого файла, который выводит MALLET, я вычисляю косинус. Моя...
341 просмотров
schedule 29.05.2024

Сопоставление темы с документами в Spark LDA
Я загрузил в Spark 2.2 ряд новостных статей Reuter (1986) и хочу изучить некоторые темы с помощью LDA. +--------------------+--------------------+----+ | title| body| id|...
718 просмотров
schedule 04.12.2022

Модель LDA со свечой
У меня возникла проблема с определением распределения тем для нового документа. На самом деле, я использую Spark 2.2.0 и уже обучил модель LDA val lda = new LDA().setK(5).setMaxIterations(24) Как я могу вывести темы для нового документа?
494 просмотров
schedule 13.04.2024

Неэффективность тематического моделирования для кластеризации текста
Я попытался выполнить кластеризацию текста с помощью LDA, но это не дает мне отдельных кластеров. Ниже мой код #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from...
321 просмотров
schedule 17.04.2024

Как просмотреть все документы по теме в LDA?
Я использую LDA, чтобы узнать темы отличного текста. Мне удалось напечатать темы, но я хотел бы напечатать каждый текст с вашей темой. Данные: it's very hot outside summer there are not many flowers in winter in the winter we eat hot food in...
160 просмотров

Тематическая модель Sagemaker LDA - как получить доступ к параметрам обученной модели? Также есть простой способ зафиксировать согласованность
Я новичок в Sagemaker и провожу несколько тестов, чтобы измерить производительность NTM и LDA на AWS по сравнению с молотком LDA и собственной моделью Gensim LDA. Я хочу проверить обученных моделей на Sagemaker и посмотреть, какие слова имеют...
426 просмотров
schedule 14.12.2023

Spark (2.3.1) Ошибка преобразования памяти LDA (java.lang.OutOfMemoryError в java.io.ByteArrayOutputStream.hugeCapacity (ByteArrayOutputStream.java:123)
Я обучил LDA (размерность: 100, итерация: 100, распределенная версия, мл) с помощью Spark 2.3.2. После этого я хочу преобразовать новый DataSet, используя эту модель. Но когда я трансформирую новые данные, я всегда получаю ошибку памяти, связанную с...
403 просмотров
schedule 23.10.2022

Использование тематических моделей LDA в качестве входных данных модели классификации
Я сделал модель LDA для создания тематической модели с использованием больших наборов обучающих данных. Итак, я пытаюсь использовать эту модель LDA для классификации, используя новое предложение, которое не используется в наборе обучающих данных....
428 просмотров
schedule 11.02.2024