Свързани публикации 'lda'


Искате ли да групирате немаркирани текстови данни? Опитайте моделиране на теми
Ще ви трябват 5 минути, за да разберете и внедрите LDA в Python Въведение Живеем в епоха, в която сме заобиколени от голям обем текстова информация, като отговори на анкети, коментари в социалните медии, туитове и т.н. Намирането на подходяща информация за вашите нужди може да бъде предизвикателство, особено когато се работи с голям, но различен корпус от данни. Благодарение на моделиране на теми , ера на обработка на естествен език, използвана за ефективно анализиране на големи..

Свързани въпроси 'lda'

инсталиран и разпознат модул на python, но не мога да го импортирам в моя код или интерпретатор на python 2.7.1 в Ubuntu
Заседнал съм в опитите си да стартирам и стартирам модул C на Python. Инсталирам deltaLDA модул от тук . Следвах инструкциите, посочени във файла REAMDE. Както обикновено, написах: sudo python setup.py install Предполагам, че всичко мина...
1521 изгледи
schedule 28.11.2023

Mahout LDA: кой е най-големият размер на речника, който практически може да се използва?
Пускам LDA на Mahout на EC2 (използвайки Whirr). Кой е най-големият речник, който успяхте да използвате на практика? Бихте ли споделили някои настройки на Hadoop/EC2? В идеалния случай бих искал да стартирам LDA на корпус от 3M документи (1B...
293 изгледи
schedule 27.12.2023

Mallet: Актуални N-грами
Искам да стартирам mallet с помощта на опцията --use-ngrams true , но изглежда не мога да го накарам да работи. Импортирах данните си с помощта на: ./bin/mallet import-dir --input path --output topic-input.mallet --keep-seqence -- removed...
3468 изгледи
schedule 06.01.2024

Как да добавите нови документи към съществуващ модел на тема в mallet или да групирате модела за голям брой документи
Искам да използвам моделиране на теми и открих, че MALLET е подходящ за мен. Успешно създадох първата си демонстрация, използвайки около 0,1 милиона документа. Сега според изискванията ми трябва да се справя с 10 милиона документа, които не мога да...
311 изгледи
schedule 30.03.2024

Премахване на празни документи от DocumentTermMatrix в R topicmodels?
Правя моделиране на теми, използвайки пакета topicmodels в R. Създавам обект Corpus, извършвам основна предварителна обработка и след това създавам DocumentTermMatrix: corpus <- Corpus(VectorSource(vec), readerControl=list(language="en"))...
30563 изгледи
schedule 01.05.2024

Как spark LDA обработва броя на нецелите токени (напр. TF-IDF)
Провеждах серия от експерименти за моделиране на теми в Spark, като променях броя на темите. И така, като се има предвид RDD docsWithFeatures , правя нещо подобно: for (n_topics <- Range(65,301,5) ){ val s = n_topics.toString val lda...
280 изгледи
schedule 20.03.2024