Публикации по тематике gensim

Публикации по теме 'gensim'

Обучение модели Doc2Vec для классификации документов

Введение Встраивание слов — это недавно открытый способ представления слова в низкоразмерном пространстве. Они обеспечивают векторное представление слов с любой семантикой или синтаксисом. В этой статье обсуждается использование векторов doc2vec и логистической регрессии для классификации документов. Эта история взята из отчета о назначении НЛП, данного Неква Бёлюкю. Чтение входного файла Данный набор данных сюжетов фильмов был прочитан с помощью встроенного модуля csv. После..

Обработка естественного языка: как создать систему рекомендаций по статьям с помощью Python

Система рекомендаций на основе документов с подобием doc2vec и косинусом Введение В этой статье объясняется, как создать систему рекомендаций по статьям с помощью Python, шаг за шагом. Система рекомендаций по статьям является одной из самых популярных систем обработки естественного языка и может применяться к другим продвинутым системам, таким как система категоризации и фильтрации. Я объясню косинусное сходство , меру сходства между документами, как наиболее популярный и простой..

Вопросы по теме 'gensim'

NLTK - Автоматический перевод похожих слов

Общая цель: я создаю LDA-модель обзоров продуктов на Python, используя NLTK и Gensim. Я хочу запустить это на разных n-граммах. Проблема . С юниграммами все отлично, но когда я запускаю биграммы, то начинаю получать темы с повторяющейся...

2308 просмотров

25.01.2024

что представляет собой вектор слова в word2vec?

word2vec – это инструмент Google с открытым исходным кодом: Для каждого слова он предоставляет вектор значений с плавающей запятой, что именно они представляют? Существует также статья о векторе абзаца . Может ли кто-нибудь объяснить, как...

11376 просмотров

machine-learning nlp gensim neural-network

04.11.2023

Можно ли повторно обучить модель word2vec (например, GoogleNews-vectors-negative300.bin) из корпуса предложений на Python?

Я использую предварительно обученный набор данных новостей Google для получения векторов слов с помощью библиотеки Gensim в python. model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) После загрузки модели...

7977 просмотров

python nlp gensim word2vec

13.03.2024

обновления векторов документов в doc2vec (PV-DM) в gensim

Пытаюсь понять реализацию PV-DM с усреднением в gensim. В функции train_document_dm в doc2vec.py возвращаемое значение ("ошибки") train_cbow_pair в случае усреднения ( cbow_mean=1 ) не делится на количество входных векторов ( count ). Согласно...

222 просмотров

python numpy gensim word2vec doc2vec

01.11.2022

ГРАБЛИ с ГЕНСИМ

Я пытаюсь вычислить сходство. Прежде всего, я использовал библиотеку RAKE для извлечения ключевых слов из просканированных заданий. Затем я поместил ключевые слова каждого задания в отдельный массив, а затем объединил все эти массивы в...

798 просмотров

python gensim cosine-similarity information-retrieval rake

18.12.2023

Тематическая модель Gensim HDP: как тренироваться на нескольких проходах корпуса?

HDP-модель Gensim для тематического моделирования (gensim.models.hdpmodel.HdpModel) имеет конструктор, который принимает аргумент с именем max_chunks . В документации указано, что max_chunks — это количество фрагментов, которые будет проходить...

1359 просмотров

nlp gensim topic-modeling lda

27.11.2022

Python Gensim, как заставить сходство WMD работать быстрее с многопроцессорной обработкой

Я пытаюсь запустить подобие gensim WMD быстрее. Как правило, это то, что есть в документации: Пример корпуса: my_corpus = ["Human machine interface for lab abc computer applications", >>> "A survey of user opinion of...

1520 просмотров

python multithreading gensim multiprocessing

09.11.2023

Gensim: ImportError: ошибка загрузки DLL: указанный модуль не найден

Я использую Windows 7. Я установил python 2.7 и gensim, используя (pip install gensim). Когда я пытаюсь импортировать gensim в консоль Python, я получаю следующую ошибку: C:\HOMEWARE\Anaconda\lib\site-packages\gensim\utils.py:860: UserWarning:...

2195 просмотров

python windows installation gensim

24.10.2023

Сходство контекста python word2vec с использованием окружающих слов

Я хотел бы использовать вложения, сделанные w2v, чтобы получить наиболее вероятные заменяющие слова, ДАННЫЕ контексту (окружающие слова), а не предоставлять отдельное слово. Пример: предложение = "Я хочу пойти в парк завтра после школы" Если я...

618 просмотров

python gensim word-embedding word2vec

29.10.2023

Как использовать TaggedDocument в gensim?

У меня есть два каталога, из которых я хочу прочитать их текстовые файлы и пометить их, но я не знаю, как это сделать через TaggedDocument . Я думал, что это будет работать как TaggedDocument([Strings],[Labels]), но это явно не работает. Это мой...

20709 просмотров

python gensim nltk word2vec doc2vec

03.05.2024

получение матрицы расстояний и матрицы признаков из модели word2vec

Я создал модель word2vec, используя gensim для огромного корпуса, и мне нужно сгруппировать словари, используя кластеризацию k означает, что мне нужно: Матрица косинусного расстояния (от слова к слову, поэтому размер матрицы равен number_of_words...

1076 просмотров

python gensim k-means word2vec

02.03.2024

Вручную добавляйте словосочетания в gensim фразер

Я занимаюсь моделированием тем для статей по лингвистике и использую Gensim Phrases для выявления часто встречающихся словосочетаний. Я хочу иметь возможность помечать такие термины, как «поддерживаю» и «это-расщелины», как одно слово, поскольку они...

478 просмотров

gensim topic-modeling

05.12.2022

Word2Vec в Gensim с использованием model.most_similar

Я новичок в Word2Vec в Gensim. Я хочу построить модель Word2Vec для текста (извлечено из Википедии: машинное обучение) и найти слова, наиболее похожие на «машинное обучение». Мой текущий код выглядит следующим образом. # import modules &...

723 просмотров

python gensim word2vec

04.03.2024

Создание векторной модели слов, объединяющей слова из других моделей

У меня есть две разные векторные модели слов, созданные с использованием алгоритма word2vec. Теперь проблема, с которой я столкнулся, заключается в том, что несколько слов из первой модели отсутствуют во второй модели. Я хочу создать третью модель...

83 просмотров

machine-learning nlp gensim word2vec

11.03.2024

Неэффективность тематического моделирования для кластеризации текста

Я попытался выполнить кластеризацию текста с помощью LDA, но это не дает мне отдельных кластеров. Ниже мой код #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from...

321 просмотров

python gensim cluster-analysis lda

17.04.2024

Я пытаюсь получить ключ определенного слова из словаря Word2Vec

Word2Vec В настоящее время я пытаюсь выполнить классификацию текста в текстовом корпусе. Для этого я решил выполнить word2vec с помощью gensim . Для этого у меня есть код ниже: sentences = MySentences("./corpus_samples") # a...

569 просмотров

python dictionary nlp gensim word2vec

07.03.2024

Потери при обучении не уменьшаются (Word2Vec, Gensim)

Что может вызвать потери от model.get_latest_training_loss() увеличения в каждую эпоху? Код, используемый для обучения: class EpochSaver(CallbackAny2Vec): '''Callback to save model after each epoch and show training parameters '''...

4675 просмотров

python gensim word2vec loss

20.04.2024

Обертка Gensim fasttext возвращает ошибку разрешения 13 во время обучения модели

Я попытался воспроизвести это руководство на своем локальный компьютер, чтобы привыкнуть к функциям gensim fasttext. Библиотеки Fasttext и gensim установлены правильно. Вызывая метод train оболочки gensim fasttext model_wrapper =...

217 просмотров

gensim file-permissions fasttext

10.12.2022

Измеряет ли евклидово расстояние семантическое сходство?

Я хочу измерить сходство между предложениями. Могу ли я использовать sklearn и евклидово расстояние для измерения семантического сходства между предложениями. Я также читал о косинусном сходстве. Может ли кто-нибудь объяснить разницу между этими...

1132 просмотров

gensim scikit-learn cosine-similarity sentence-similarity euclidean-distance

11.01.2024

Gensim в windows: расширение C не загружено, обучение будет медленным

Я пытаюсь использовать word2vec из gensim, но при запуске получаю это предупреждение: - C: \ Users \ user1PycharmProjects \ FirstTest \ venv \ lib \ site-packages \ gensim \ utils.py: 1212: UserWarning: обнаружена Windows; псевдоним chunkize на...

3863 просмотров

pip python gensim

12.12.2022

Публикации по теме 'gensim'

Обучение модели Doc2Vec для классификации документов

Обработка естественного языка: как создать систему рекомендаций по статьям с помощью Python

Вопросы по теме 'gensim'

Похожие вопросы