Публикации по теме 'spacy'


Обнаружение токсичных спанов с помощью spaCy
Введение Выражение является токсичным, если в нем используется грубый, неуважительный или необоснованный язык, который может заставить кого-то покинуть обсуждение. Ядовитая лексика может быть короткой, например "идиот" , или более длинной, например "ваши "посты", как обычно, не соответствуют действительности". Мы будем использовать SpanCategorizer из spaCy для обнаружения токсичных интервалов. Для иллюстрации мы будем использовать хорошо изученный набор данных. В настоящей..

Получение информации из клинических данных: машинное обучение и глубокое обучение в клинических текстах…
Анализ обработки естественного языка (NLP) в здравоохранении с использованием SpaCy, CountVectorizer, NLTK, встраивания слов с моделированием непоследовательности и последовательности и прочим Методы глубокого обучения, НЛП и машинного обучения продемонстрировали значительные перспективы в нескольких приложениях для здравоохранения. Из клинического текста алгоритмы NER могут автоматически распознавать и извлекать важную информацию, включая имена пациентов, медицинские показания и..

Предварительная обработка НЛП: - полезный и важный шаг
Вступление Модель GPT-3 на данный момент стала горячей темой в области обработки естественного языка из-за ее производительности. Он имеет почти 175 миллиардов параметров по сравнению с GPT-2, у которого было около 1,5 миллиардов параметров. Это крупный прорыв в области НЛП. Но этапы предварительной обработки, которые требуются перед обучением любой модели, имеют первостепенное значение. Поэтому в этой статье я объясню все основные шаги, которые используются и требуются при..

Вопросы по теме 'spacy'

Нет модуля с именем pipeline
Я пытаюсь обучить некоторые данные раса-нлу. Итак, я установил анаконду, затем rasa-nlu и spacy. Но всякий раз, когда я пытаюсь бежать python -m rasa_nlu.train -c config.json я получил Traceback (most recent call last): File...
4674 просмотров
schedule 10.10.2022

Повторное обучение NER v1.8.2 от spaCy - Объем обучения и сочетание типов сущностей
Я нахожусь в процессе (пере) обучения распознавателя именованных сущностей spaCy, и у меня есть несколько сомнений в том, что, надеюсь, более опытный исследователь / практик поможет мне разобраться: Если несколько сотен примеров считаются...
696 просмотров

Какие модели NN на самом деле реализует spaCy? От чего зависит их размер в памяти?
Я видел, что существует статья , в которой изложена идея, лежащая в основе Sense2Vec , но как изначально создавались / создавались стандартные модели spaCy? Когда я загружаю что-то вроде стандартной модели "en_core_web_md" из подборки моделей ,...
808 просмотров
schedule 24.02.2024

Как проверить установленную версию spaCy?
Я установил spaCy с Python для своего проекта НЛП. Я установил это, используя pip . Как я могу проверить установленную версию spaCy? с использованием pip install -U spacy Что такое команда для проверки установленной версии spaCy?
29518 просмотров
schedule 06.12.2023

неопределенный символ PyFPE_jbuf с spaCy
Теперь я получаю undefined symbol: PyFPE_jbuf при попытке import spacy на Ubuntu 17.10. >>> import spacy Traceback (most recent call last): File "<stdin>", line 1, in <module> File...
1937 просмотров
schedule 27.11.2023

spaCy выдает OSError при развертывании на AWS Lambda с помощью zappa
При развертывании приложения Python spaCy в AWS Lambda я получаю следующую ошибку при развертывании (см. ниже). Зачем развертывать с помощью zappa? ZIP-файл имеет сжатый размер 125 МБ, поэтому прямая загрузка из aws-cli не выполняется из-за...
525 просмотров
schedule 31.01.2024

Использование пробелов и textacy. Нужно найти оценку tf-idf в корпусе оригинальных твитов, но не могу импортировать векторизатор textacy.
Я новичок в этих структурах, а также в НЛП. Я следую примеру, который дает мне следующий фрагмент кода для вычисления оценки tf-idf всех токенов в твитах. Однако я продолжаю получать либо ошибки импорта, либо неопределенный векторизатор. Код:...
3011 просмотров
schedule 25.11.2023

нечеткое сопоставление на основе словаря
Я хочу сопоставить вхождения сущностей в SeqString . Например: dict_data = ['johnson', 'apple platform'] SeqString = 'Johnson buys a new phone which is based on Apppple Platform. Johnson very likes the Apple Platform.' Ожидаемые результаты:...
230 просмотров

Percentage Count Verb, существительное с использованием Spacy?
Я хочу подсчитать процентное разделение POS в предложении, используя простор, аналогичный Считайте глаголы, существительные и другие части речи с Python NLTK В настоящее время умеет обнаруживать и подсчитывать POS. Как найти процентное...
1679 просмотров
schedule 10.01.2024

Модели загрузки SpaCy
Я новичок в НЛП и spaCy. Я использую модель en_core_web_md . Я загружаю его с помощью spacy.load() Всякий раз, когда я запускаю свою программу, она загружает модель. Есть ли способ загрузить модель только один раз для всех последующих прогонов?
614 просмотров
schedule 26.12.2023

Как заставить тег pos в пространстве до / после теггера?
Если я обработаю приговор 'Верните целевую карту в руку' с spacy и моделью en_web_core_lg он распознает токены, как показано ниже: Верните СУЩЕСТВИТЕЛЬНОЕ целевое СУЩЕСТВИТЕЛЬНОЕ КАРТОЧНОЕ СУЩЕСТВИТЕЛЬНОЕ в ADP свою ADJ руку...
1410 просмотров
schedule 15.05.2024

Spacy — порция токенов NE
Допустим, у меня есть документ, например: import spacy nlp = spacy.load('en') doc = nlp('My name is John Smith') [t for t in doc] > [My, name, is, John, Smith] Спейси достаточно умен, чтобы понять, что «Джон Смит» — это именованная...
483 просмотров

Удаление существительных, содержащих стоп-слова, с помощью spaCy
Я использовал spaCy для поиска наиболее употребляемых существительных и noun_phrases. Я могу успешно избавиться от знаков препинания и стоп-слов при поиске отдельных существительных docx = nlp('The bird is flying high in the sky blue of...
2544 просмотров

Какой смысл скачивать «модели» при использовании SpaCy?
Что делает модель? Я вижу, как этот термин используется в отношении НЛП и МО в целом, и, кажется, нет конкретного определения. Что делают модели в отношении NLP и SpaCy? import spacy from spacy import displacy nlp =...
2605 просмотров
schedule 29.11.2022

Пространство, определяющее пустые пространства как объекты
Я только начинаю работать со Spacy и вставил текст, чтобы проверить, как он работает с PDF-файлом, который я распознал с помощью AntFileConverter. Файл txt (образец ниже - будет прикреплен, но не знаю, как) выглядит нормально, находится в UTF-8....
792 просмотров
schedule 12.12.2022

spacy преобразовать conllul в spacy json формат
Я получаю данные из универсальных зависимостей. Я работаю в основном с индонезийским языком (бахаса), поэтому клонирую репо: https://github.com/conllul/UL_Indonesian-PUD https://github.com/conllul/UL_Indonesian-GSD оба репо содержат...
1103 просмотров
schedule 04.03.2024

Обновление уже существующей пространственной модели NER
Я хочу обновить уже существующую пространственную модель en_core_web_sm и обучить ее дополнительным данным. Мои данные находятся в том же формате, который указан в документации spacy https://spacy.io/usage/training Я выполнил те же шаги, что и...
1342 просмотров
schedule 10.12.2023

Как обучить пользовательский NER в Spacy с набором данных из отдельных слов?
Я пытаюсь обучить специалиста в Spacy с новой сущностью «ЖИВОТНОЕ». Но у меня есть набор данных с отдельными словами как: TRAIN_DATA = [("Whale_ Blue", {"entities": [(0,11,LABEL)]}), ("Shark_ whale", {"entities": [(0,12,LABEL)]}), ("Elephant_...
507 просмотров
schedule 20.03.2024

spaCy Matcher: апельсин, яблоко и виноград - фрукты
Я хочу использовать сопоставление spaCy для сопоставления: orange, apple and grape are fruits. То есть: [NOUN[,and]]+ NOUN are fruits. Однако мой образец неверен. Может ли кто-нибудь помочь мне написать правильный узор? Спасибо!
48 просмотров
schedule 16.01.2024

Как импортировать текст из формата CoNNL с именованными объектами в spaCy, вывести объекты с моей моделью и записать их в тот же набор данных (с Python)?
У меня есть набор данных в формате CoNLL NER, который в основном представляет собой файл TSV с двумя полями. Первое поле содержит токены из некоторого текста - по одному токену на строку (каждый символ пунктуации также считается там токеном), а...
2071 просмотров
schedule 17.11.2022