Публикации по теме 'lda'
Вы хотите кластеризовать неразмеченные текстовые данные? Попробуйте тематическое моделирование
Вам понадобится 5 минут, чтобы понять и внедрить LDA в Python.
Введение
Мы живем в эпоху, когда мы окружены большим объемом текстовой информации, такой как ответы на опросы, комментарии в социальных сетях, твиты и т. д. Поиск подходящей информации для своих нужд может быть сложной задачей, особенно при работе с большим, но разнообразным массивом информации. данные.
Благодаря тематическому моделированию — эпохе обработки естественного языка, используемой для эффективного анализа..
Вопросы по теме 'lda'
модуль python установлен и распознан, но не может импортировать его в мой код или интерпретатор python 2.7.1 в Ubuntu
Я застрял, пытаясь запустить и запустить модуль Python C. Я устанавливаю модуль deltaLDA из здесь . Я следовал инструкциям, указанным в файле REAMDE. Как обычно, я написал:
sudo python setup.py install
Все прошло, как и ожидалось, я...
1521 просмотров
schedule
28.11.2023
Маллет: Актуальные N-граммы
Я хочу запустить маллет с параметром --use-ngrams true , но не могу заставить его работать. Я импортировал свои данные, используя:
./bin/mallet import-dir --input path --output topic-input.mallet --keep-seqence -- removed stopwords
Теперь я...
3468 просмотров
schedule
06.01.2024
Mahout LDA: какой самый большой размер словаря, который можно практически использовать?
Я запускаю LDA Mahout на EC2 (используя Whirr). Какой самый большой словарный запас вам удалось использовать на практике? Не могли бы вы поделиться некоторыми настройками Hadoop/EC2?
В идеале я хотел бы запустить LDA на корпусе из 3 миллионов...
293 просмотров
schedule
27.12.2023
Удалить пустые документы из DocumentTermMatrix в R topicmodels?
Я занимаюсь тематическим моделированием с использованием пакета topicmodels в R. Я создаю объект Corpus, выполняю некоторую базовую предварительную обработку, а затем создаю DocumentTermMatrix:
corpus <- Corpus(VectorSource(vec),...
30563 просмотров
schedule
01.05.2024
Как добавить новые документы в существующую модель темы в mallet или создать пакетную модель для большого количества документов
Я хочу использовать тематическое моделирование и нашел, что MALLET подходит мне. Я успешно создал свою первую демонстрацию, используя около 0,1 миллиона документов. Теперь, согласно моим требованиям, мне приходится иметь дело с 10 миллионами...
311 просмотров
schedule
30.03.2024
Как Spark LDA обрабатывает нецелые числа токенов (например, TF-IDF)
Я провел серию экспериментов по моделированию тем в Spark, варьируя количество тем. Итак, учитывая RDD docsWithFeatures , я делаю что-то вроде этого:
for (n_topics <- Range(65,301,5) ){
val s = n_topics.toString
val lda = new...
280 просмотров
schedule
20.03.2024
Почему в Spark mllib так медленно сообщается о проблемах с журналом модели LDA?
Я подгоняю модель LDA в Spark mllib, используя OnlineLDAOptimizer. Требуется всего ~ 200 секунд, чтобы разместить 10 тем в 9 миллионах документов (твитов).
val numTopics=10
val lda = new LDA()
.setOptimizer(new...
1137 просмотров
schedule
13.05.2024
Как запускать utl-скрипты vowpal-wabbit?
Я установил vowpal-wabbit на свой Mac, используя brew install vowpal-wabbit .
Команда vw работает нормально. Однако я хочу использовать некоторые скрипты в \utl\ папка библиотеки.
В частности, я хочу запустить vw_lda.py
Я попытался...
104 просмотров
schedule
22.01.2024
Тематическая модель Gensim HDP: как тренироваться на нескольких проходах корпуса?
HDP-модель Gensim для тематического моделирования (gensim.models.hdpmodel.HdpModel) имеет конструктор, который принимает аргумент с именем max_chunks .
В документации указано, что max_chunks — это количество фрагментов, которые будет проходить...
1359 просмотров
schedule
27.11.2022
Как получить косинусное сходство между двумя документами в MALLET?
У меня есть тематическая модель LDA, обученная с использованием MALLET, но я хочу вычислить косинусное сходство между двумя документами, чтобы получить сходство, но я не уверен, для какого файла, который выводит MALLET, я вычисляю косинус.
Моя...
341 просмотров
schedule
29.05.2024
Сопоставление темы с документами в Spark LDA
Я загрузил в Spark 2.2 ряд новостных статей Reuter (1986) и хочу изучить некоторые темы с помощью LDA.
+--------------------+--------------------+----+
| title| body| id|...
718 просмотров
schedule
04.12.2022
Модель LDA со свечой
У меня возникла проблема с определением распределения тем для нового документа. На самом деле, я использую Spark 2.2.0 и уже обучил модель LDA val lda = new LDA().setK(5).setMaxIterations(24)
Как я могу вывести темы для нового документа?
494 просмотров
schedule
13.04.2024
Неэффективность тематического моделирования для кластеризации текста
Я попытался выполнить кластеризацию текста с помощью LDA, но это не дает мне отдельных кластеров. Ниже мой код
#Import libraries
from gensim import corpora, models
import pandas as pd
from gensim.parsing.preprocessing import STOPWORDS
from...
321 просмотров
schedule
17.04.2024
Как просмотреть все документы по теме в LDA?
Я использую LDA, чтобы узнать темы отличного текста. Мне удалось напечатать темы, но я хотел бы напечатать каждый текст с вашей темой.
Данные:
it's very hot outside summer
there are not many flowers in winter
in the winter we eat hot food
in...
160 просмотров
schedule
27.12.2023
Тематическая модель Sagemaker LDA - как получить доступ к параметрам обученной модели? Также есть простой способ зафиксировать согласованность
Я новичок в Sagemaker и провожу несколько тестов, чтобы измерить производительность NTM и LDA на AWS по сравнению с молотком LDA и собственной моделью Gensim LDA.
Я хочу проверить обученных моделей на Sagemaker и посмотреть, какие слова имеют...
426 просмотров
schedule
14.12.2023
Spark (2.3.1) Ошибка преобразования памяти LDA (java.lang.OutOfMemoryError в java.io.ByteArrayOutputStream.hugeCapacity (ByteArrayOutputStream.java:123)
Я обучил LDA (размерность: 100, итерация: 100, распределенная версия, мл) с помощью Spark 2.3.2. После этого я хочу преобразовать новый DataSet, используя эту модель. Но когда я трансформирую новые данные, я всегда получаю ошибку памяти, связанную с...
403 просмотров
schedule
23.10.2022
Использование тематических моделей LDA в качестве входных данных модели классификации
Я сделал модель LDA для создания тематической модели с использованием больших наборов обучающих данных. Итак, я пытаюсь использовать эту модель LDA для классификации, используя новое предложение, которое не используется в наборе обучающих данных....
428 просмотров
schedule
11.02.2024