Публикации по теме 'gensim'


Обучение модели Doc2Vec для классификации документов
Введение Встраивание слов — это недавно открытый способ представления слова в низкоразмерном пространстве. Они обеспечивают векторное представление слов с любой семантикой или синтаксисом. В этой статье обсуждается использование векторов doc2vec и логистической регрессии для классификации документов. Эта история взята из отчета о назначении НЛП, данного Неква Бёлюкю. Чтение входного файла Данный набор данных сюжетов фильмов был прочитан с помощью встроенного модуля csv. После..

Обработка естественного языка: как создать систему рекомендаций по статьям с помощью Python
Система рекомендаций на основе документов с подобием doc2vec и косинусом Введение В этой статье объясняется, как создать систему рекомендаций по статьям с помощью Python, шаг за шагом. Система рекомендаций по статьям является одной из самых популярных систем обработки естественного языка и может применяться к другим продвинутым системам, таким как система категоризации и фильтрации. Я объясню косинусное сходство , меру сходства между документами, как наиболее популярный и простой..

Вопросы по теме 'gensim'

NLTK - Автоматический перевод похожих слов
Общая цель: я создаю LDA-модель обзоров продуктов на Python, используя NLTK и Gensim. Я хочу запустить это на разных n-граммах. Проблема . С юниграммами все отлично, но когда я запускаю биграммы, то начинаю получать темы с повторяющейся...
2308 просмотров
schedule 25.01.2024

что представляет собой вектор слова в word2vec?
word2vec  – это инструмент Google с открытым исходным кодом: Для каждого слова он предоставляет вектор значений с плавающей запятой, что именно они представляют? Существует также статья о векторе абзаца . Может ли кто-нибудь объяснить, как...
11376 просмотров

Можно ли повторно обучить модель word2vec (например, GoogleNews-vectors-negative300.bin) из корпуса предложений на Python?
Я использую предварительно обученный набор данных новостей Google для получения векторов слов с помощью библиотеки Gensim в python. model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) После загрузки модели...
7977 просмотров
schedule 13.03.2024

обновления векторов документов в doc2vec (PV-DM) в gensim
Пытаюсь понять реализацию PV-DM с усреднением в gensim. В функции train_document_dm в doc2vec.py возвращаемое значение ("ошибки") train_cbow_pair в случае усреднения ( cbow_mean=1 ) не делится на количество входных векторов ( count ). Согласно...
222 просмотров
schedule 01.11.2022

ГРАБЛИ с ГЕНСИМ
Я пытаюсь вычислить сходство. Прежде всего, я использовал библиотеку RAKE для извлечения ключевых слов из просканированных заданий. Затем я поместил ключевые слова каждого задания в отдельный массив, а затем объединил все эти массивы в...
798 просмотров

Тематическая модель Gensim HDP: как тренироваться на нескольких проходах корпуса?
HDP-модель Gensim для тематического моделирования (gensim.models.hdpmodel.HdpModel) имеет конструктор, который принимает аргумент с именем max_chunks . В документации указано, что max_chunks — это количество фрагментов, которые будет проходить...
1359 просмотров
schedule 27.11.2022

Python Gensim, как заставить сходство WMD работать быстрее с многопроцессорной обработкой
Я пытаюсь запустить подобие gensim WMD быстрее. Как правило, это то, что есть в документации: Пример корпуса: my_corpus = ["Human machine interface for lab abc computer applications", >>> "A survey of user opinion of...
1520 просмотров

Gensim: ImportError: ошибка загрузки DLL: указанный модуль не найден
Я использую Windows 7. Я установил python 2.7 и gensim, используя (pip install gensim). Когда я пытаюсь импортировать gensim в консоль Python, я получаю следующую ошибку: C:\HOMEWARE\Anaconda\lib\site-packages\gensim\utils.py:860: UserWarning:...
2195 просмотров
schedule 24.10.2023

Сходство контекста python word2vec с использованием окружающих слов
Я хотел бы использовать вложения, сделанные w2v, чтобы получить наиболее вероятные заменяющие слова, ДАННЫЕ контексту (окружающие слова), а не предоставлять отдельное слово. Пример: предложение = "Я хочу пойти в парк завтра после школы" Если я...
618 просмотров
schedule 29.10.2023

Как использовать TaggedDocument в gensim?
У меня есть два каталога, из которых я хочу прочитать их текстовые файлы и пометить их, но я не знаю, как это сделать через TaggedDocument . Я думал, что это будет работать как TaggedDocument([Strings],[Labels]), но это явно не работает. Это мой...
20709 просмотров
schedule 03.05.2024

получение матрицы расстояний и матрицы признаков из модели word2vec
Я создал модель word2vec, используя gensim для огромного корпуса, и мне нужно сгруппировать словари, используя кластеризацию k означает, что мне нужно: Матрица косинусного расстояния (от слова к слову, поэтому размер матрицы равен number_of_words...
1076 просмотров
schedule 02.03.2024

Вручную добавляйте словосочетания в gensim фразер
Я занимаюсь моделированием тем для статей по лингвистике и использую Gensim Phrases для выявления часто встречающихся словосочетаний. Я хочу иметь возможность помечать такие термины, как «поддерживаю» и «это-расщелины», как одно слово, поскольку они...
478 просмотров
schedule 05.12.2022

Word2Vec в Gensim с использованием model.most_similar
Я новичок в Word2Vec в Gensim. Я хочу построить модель Word2Vec для текста (извлечено из Википедии: машинное обучение) и найти слова, наиболее похожие на «машинное обучение». Мой текущий код выглядит следующим образом. # import modules &...
723 просмотров
schedule 04.03.2024

Создание векторной модели слов, объединяющей слова из других моделей
У меня есть две разные векторные модели слов, созданные с использованием алгоритма word2vec. Теперь проблема, с которой я столкнулся, заключается в том, что несколько слов из первой модели отсутствуют во второй модели. Я хочу создать третью модель...
83 просмотров
schedule 11.03.2024

Неэффективность тематического моделирования для кластеризации текста
Я попытался выполнить кластеризацию текста с помощью LDA, но это не дает мне отдельных кластеров. Ниже мой код #Import libraries from gensim import corpora, models import pandas as pd from gensim.parsing.preprocessing import STOPWORDS from...
321 просмотров
schedule 17.04.2024

Я пытаюсь получить ключ определенного слова из словаря Word2Vec
Word2Vec В настоящее время я пытаюсь выполнить классификацию текста в текстовом корпусе. Для этого я решил выполнить word2vec с помощью gensim . Для этого у меня есть код ниже: sentences = MySentences("./corpus_samples") # a...
569 просмотров
schedule 07.03.2024

Потери при обучении не уменьшаются (Word2Vec, Gensim)
Что может вызвать потери от model.get_latest_training_loss() увеличения в каждую эпоху? Код, используемый для обучения: class EpochSaver(CallbackAny2Vec): '''Callback to save model after each epoch and show training parameters '''...
4675 просмотров
schedule 20.04.2024

Обертка Gensim fasttext возвращает ошибку разрешения 13 во время обучения модели
Я попытался воспроизвести это руководство на своем локальный компьютер, чтобы привыкнуть к функциям gensim fasttext. Библиотеки Fasttext и gensim установлены правильно. Вызывая метод train оболочки gensim fasttext model_wrapper =...
217 просмотров
schedule 10.12.2022

Измеряет ли евклидово расстояние семантическое сходство?
Я хочу измерить сходство между предложениями. Могу ли я использовать sklearn и евклидово расстояние для измерения семантического сходства между предложениями. Я также читал о косинусном сходстве. Может ли кто-нибудь объяснить разницу между этими...
1132 просмотров

Gensim в windows: расширение C не загружено, обучение будет медленным
Я пытаюсь использовать word2vec из gensim, но при запуске получаю это предупреждение: - C: \ Users \ user1PycharmProjects \ FirstTest \ venv \ lib \ site-packages \ gensim \ utils.py: 1212: UserWarning: обнаружена Windows; псевдоним chunkize на...
3863 просмотров
schedule 12.12.2022