Публикации по теме 'gensim'
Обучение модели Doc2Vec для классификации документов
Введение
Встраивание слов — это недавно открытый способ представления слова в низкоразмерном пространстве. Они обеспечивают векторное представление слов с любой семантикой или синтаксисом.
В этой статье обсуждается использование векторов doc2vec и логистической регрессии для классификации документов. Эта история взята из отчета о назначении НЛП, данного Неква Бёлюкю.
Чтение входного файла
Данный набор данных сюжетов фильмов был прочитан с помощью встроенного модуля csv. После..
Обработка естественного языка: как создать систему рекомендаций по статьям с помощью Python
Система рекомендаций на основе документов с подобием doc2vec и косинусом
Введение
В этой статье объясняется, как создать систему рекомендаций по статьям с помощью Python, шаг за шагом. Система рекомендаций по статьям является одной из самых популярных систем обработки естественного языка и может применяться к другим продвинутым системам, таким как система категоризации и фильтрации.
Я объясню косинусное сходство , меру сходства между документами, как наиболее популярный и простой..
Вопросы по теме 'gensim'
NLTK - Автоматический перевод похожих слов
Общая цель: я создаю LDA-модель обзоров продуктов на Python, используя NLTK и Gensim. Я хочу запустить это на разных n-граммах.
Проблема . С юниграммами все отлично, но когда я запускаю биграммы, то начинаю получать темы с повторяющейся...
2308 просмотров
schedule
25.01.2024
что представляет собой вектор слова в word2vec?
word2vec – это инструмент Google с открытым исходным кодом:
Для каждого слова он предоставляет вектор значений с плавающей запятой, что именно они представляют?
Существует также статья о векторе абзаца . Может ли кто-нибудь объяснить, как...
11376 просмотров
schedule
04.11.2023
Можно ли повторно обучить модель word2vec (например, GoogleNews-vectors-negative300.bin) из корпуса предложений на Python?
Я использую предварительно обученный набор данных новостей Google для получения векторов слов с помощью библиотеки Gensim в python.
model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
После загрузки модели...
7977 просмотров
schedule
13.03.2024
обновления векторов документов в doc2vec (PV-DM) в gensim
Пытаюсь понять реализацию PV-DM с усреднением в gensim. В функции train_document_dm в doc2vec.py возвращаемое значение ("ошибки") train_cbow_pair в случае усреднения ( cbow_mean=1 ) не делится на количество входных векторов ( count ). Согласно...
222 просмотров
schedule
01.11.2022
ГРАБЛИ с ГЕНСИМ
Я пытаюсь вычислить сходство. Прежде всего, я использовал библиотеку RAKE для извлечения ключевых слов из просканированных заданий. Затем я поместил ключевые слова каждого задания в отдельный массив, а затем объединил все эти массивы в...
798 просмотров
schedule
18.12.2023
Тематическая модель Gensim HDP: как тренироваться на нескольких проходах корпуса?
HDP-модель Gensim для тематического моделирования (gensim.models.hdpmodel.HdpModel) имеет конструктор, который принимает аргумент с именем max_chunks .
В документации указано, что max_chunks — это количество фрагментов, которые будет проходить...
1359 просмотров
schedule
27.11.2022
Python Gensim, как заставить сходство WMD работать быстрее с многопроцессорной обработкой
Я пытаюсь запустить подобие gensim WMD быстрее. Как правило, это то, что есть в документации: Пример корпуса:
my_corpus = ["Human machine interface for lab abc computer applications",
>>> "A survey of user opinion of...
1520 просмотров
schedule
09.11.2023
Gensim: ImportError: ошибка загрузки DLL: указанный модуль не найден
Я использую Windows 7. Я установил python 2.7 и gensim, используя (pip install gensim). Когда я пытаюсь импортировать gensim в консоль Python, я получаю следующую ошибку:
C:\HOMEWARE\Anaconda\lib\site-packages\gensim\utils.py:860: UserWarning:...
2195 просмотров
schedule
24.10.2023
Сходство контекста python word2vec с использованием окружающих слов
Я хотел бы использовать вложения, сделанные w2v, чтобы получить наиболее вероятные заменяющие слова, ДАННЫЕ контексту (окружающие слова), а не предоставлять отдельное слово.
Пример: предложение = "Я хочу пойти в парк завтра после школы"
Если я...
618 просмотров
schedule
29.10.2023
Как использовать TaggedDocument в gensim?
У меня есть два каталога, из которых я хочу прочитать их текстовые файлы и пометить их, но я не знаю, как это сделать через TaggedDocument . Я думал, что это будет работать как TaggedDocument([Strings],[Labels]), но это явно не работает.
Это мой...
20709 просмотров
schedule
03.05.2024
получение матрицы расстояний и матрицы признаков из модели word2vec
Я создал модель word2vec, используя gensim для огромного корпуса, и мне нужно сгруппировать словари, используя кластеризацию k означает, что мне нужно:
Матрица косинусного расстояния (от слова к слову, поэтому размер матрицы равен number_of_words...
1076 просмотров
schedule
02.03.2024
Вручную добавляйте словосочетания в gensim фразер
Я занимаюсь моделированием тем для статей по лингвистике и использую Gensim Phrases для выявления часто встречающихся словосочетаний. Я хочу иметь возможность помечать такие термины, как «поддерживаю» и «это-расщелины», как одно слово, поскольку они...
478 просмотров
schedule
05.12.2022
Word2Vec в Gensim с использованием model.most_similar
Я новичок в Word2Vec в Gensim. Я хочу построить модель Word2Vec для текста (извлечено из Википедии: машинное обучение) и найти слова, наиболее похожие на «машинное обучение».
Мой текущий код выглядит следующим образом.
# import modules &...
723 просмотров
schedule
04.03.2024
Создание векторной модели слов, объединяющей слова из других моделей
У меня есть две разные векторные модели слов, созданные с использованием алгоритма word2vec. Теперь проблема, с которой я столкнулся, заключается в том, что несколько слов из первой модели отсутствуют во второй модели. Я хочу создать третью модель...
83 просмотров
schedule
11.03.2024
Неэффективность тематического моделирования для кластеризации текста
Я попытался выполнить кластеризацию текста с помощью LDA, но это не дает мне отдельных кластеров. Ниже мой код
#Import libraries
from gensim import corpora, models
import pandas as pd
from gensim.parsing.preprocessing import STOPWORDS
from...
321 просмотров
schedule
17.04.2024
Я пытаюсь получить ключ определенного слова из словаря Word2Vec
Word2Vec
В настоящее время я пытаюсь выполнить классификацию текста в текстовом корпусе. Для этого я решил выполнить word2vec с помощью gensim . Для этого у меня есть код ниже:
sentences = MySentences("./corpus_samples") # a...
569 просмотров
schedule
07.03.2024
Потери при обучении не уменьшаются (Word2Vec, Gensim)
Что может вызвать потери от model.get_latest_training_loss() увеличения в каждую эпоху?
Код, используемый для обучения:
class EpochSaver(CallbackAny2Vec):
'''Callback to save model after each epoch and show training parameters '''...
4675 просмотров
schedule
20.04.2024
Обертка Gensim fasttext возвращает ошибку разрешения 13 во время обучения модели
Я попытался воспроизвести это руководство на своем локальный компьютер, чтобы привыкнуть к функциям gensim fasttext. Библиотеки Fasttext и gensim установлены правильно. Вызывая метод train оболочки gensim fasttext
model_wrapper =...
217 просмотров
schedule
10.12.2022
Измеряет ли евклидово расстояние семантическое сходство?
Я хочу измерить сходство между предложениями. Могу ли я использовать sklearn и евклидово расстояние для измерения семантического сходства между предложениями. Я также читал о косинусном сходстве. Может ли кто-нибудь объяснить разницу между этими...
1132 просмотров
schedule
11.01.2024
Gensim в windows: расширение C не загружено, обучение будет медленным
Я пытаюсь использовать word2vec из gensim, но при запуске получаю это предупреждение: - C: \ Users \ user1PycharmProjects \ FirstTest \ venv \ lib \ site-packages \ gensim \ utils.py: 1212: UserWarning: обнаружена Windows; псевдоним chunkize на...
3863 просмотров
schedule
12.12.2022