Публикации по теме 'spacy'
Обнаружение токсичных спанов с помощью spaCy
Введение
Выражение является токсичным, если в нем используется грубый, неуважительный или необоснованный язык, который может заставить кого-то покинуть обсуждение. Ядовитая лексика может быть короткой, например "идиот" , или более длинной, например "ваши "посты", как обычно, не соответствуют действительности".
Мы будем использовать SpanCategorizer из spaCy для обнаружения токсичных интервалов. Для иллюстрации мы будем использовать хорошо изученный набор данных. В настоящей..
Получение информации из клинических данных: машинное обучение и глубокое обучение в клинических текстах…
Анализ обработки естественного языка (NLP) в здравоохранении с использованием SpaCy, CountVectorizer, NLTK, встраивания слов с моделированием непоследовательности и последовательности и прочим
Методы глубокого обучения, НЛП и машинного обучения продемонстрировали значительные перспективы в нескольких приложениях для здравоохранения. Из клинического текста алгоритмы NER могут автоматически распознавать и извлекать важную информацию, включая имена пациентов, медицинские показания и..
Предварительная обработка НЛП: - полезный и важный шаг
Вступление
Модель GPT-3 на данный момент стала горячей темой в области обработки естественного языка из-за ее производительности. Он имеет почти 175 миллиардов параметров по сравнению с GPT-2, у которого было около 1,5 миллиардов параметров. Это крупный прорыв в области НЛП. Но этапы предварительной обработки, которые требуются перед обучением любой модели, имеют первостепенное значение. Поэтому в этой статье я объясню все основные шаги, которые используются и требуются при..
Вопросы по теме 'spacy'
Нет модуля с именем pipeline
Я пытаюсь обучить некоторые данные раса-нлу.
Итак, я установил анаконду, затем rasa-nlu и spacy.
Но всякий раз, когда я пытаюсь бежать
python -m rasa_nlu.train -c config.json
я получил
Traceback (most recent call last):
File...
4674 просмотров
schedule
10.10.2022
Повторное обучение NER v1.8.2 от spaCy - Объем обучения и сочетание типов сущностей
Я нахожусь в процессе (пере) обучения распознавателя именованных сущностей spaCy, и у меня есть несколько сомнений в том, что, надеюсь, более опытный исследователь / практик поможет мне разобраться:
Если несколько сотен примеров считаются...
696 просмотров
schedule
16.01.2024
Какие модели NN на самом деле реализует spaCy? От чего зависит их размер в памяти?
Я видел, что существует статья , в которой изложена идея, лежащая в основе Sense2Vec , но как изначально создавались / создавались стандартные модели spaCy? Когда я загружаю что-то вроде стандартной модели "en_core_web_md" из подборки моделей ,...
808 просмотров
schedule
24.02.2024
Как проверить установленную версию spaCy?
Я установил spaCy с Python для своего проекта НЛП.
Я установил это, используя pip . Как я могу проверить установленную версию spaCy?
с использованием
pip install -U spacy
Что такое команда для проверки установленной версии spaCy?
29518 просмотров
schedule
06.12.2023
неопределенный символ PyFPE_jbuf с spaCy
Теперь я получаю undefined symbol: PyFPE_jbuf при попытке import spacy на Ubuntu 17.10.
>>> import spacy
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File...
1937 просмотров
schedule
27.11.2023
spaCy выдает OSError при развертывании на AWS Lambda с помощью zappa
При развертывании приложения Python spaCy в AWS Lambda я получаю следующую ошибку при развертывании (см. ниже). Зачем развертывать с помощью zappa? ZIP-файл имеет сжатый размер 125 МБ, поэтому прямая загрузка из aws-cli не выполняется из-за...
525 просмотров
schedule
31.01.2024
Использование пробелов и textacy. Нужно найти оценку tf-idf в корпусе оригинальных твитов, но не могу импортировать векторизатор textacy.
Я новичок в этих структурах, а также в НЛП. Я следую примеру, который дает мне следующий фрагмент кода для вычисления оценки tf-idf всех токенов в твитах. Однако я продолжаю получать либо ошибки импорта, либо неопределенный векторизатор.
Код:...
3011 просмотров
schedule
25.11.2023
нечеткое сопоставление на основе словаря
Я хочу сопоставить вхождения сущностей в SeqString . Например:
dict_data = ['johnson', 'apple platform']
SeqString = 'Johnson buys a new phone which is based on Apppple Platform. Johnson very likes the Apple Platform.'
Ожидаемые результаты:...
230 просмотров
schedule
23.11.2022
Percentage Count Verb, существительное с использованием Spacy?
Я хочу подсчитать процентное разделение POS в предложении, используя простор, аналогичный
Считайте глаголы, существительные и другие части речи с Python NLTK
В настоящее время умеет обнаруживать и подсчитывать POS. Как найти процентное...
1679 просмотров
schedule
10.01.2024
Модели загрузки SpaCy
Я новичок в НЛП и spaCy. Я использую модель en_core_web_md . Я загружаю его с помощью spacy.load() Всякий раз, когда я запускаю свою программу, она загружает модель. Есть ли способ загрузить модель только один раз для всех последующих прогонов?
614 просмотров
schedule
26.12.2023
Как заставить тег pos в пространстве до / после теггера?
Если я обработаю приговор
'Верните целевую карту в руку'
с spacy и моделью en_web_core_lg он распознает токены, как показано ниже:
Верните СУЩЕСТВИТЕЛЬНОЕ целевое СУЩЕСТВИТЕЛЬНОЕ КАРТОЧНОЕ СУЩЕСТВИТЕЛЬНОЕ в ADP свою ADJ руку...
1410 просмотров
schedule
15.05.2024
Spacy — порция токенов NE
Допустим, у меня есть документ, например:
import spacy
nlp = spacy.load('en')
doc = nlp('My name is John Smith')
[t for t in doc]
> [My, name, is, John, Smith]
Спейси достаточно умен, чтобы понять, что «Джон Смит» — это именованная...
483 просмотров
schedule
26.02.2024
Удаление существительных, содержащих стоп-слова, с помощью spaCy
Я использовал spaCy для поиска наиболее употребляемых существительных и noun_phrases.
Я могу успешно избавиться от знаков препинания и стоп-слов при поиске отдельных существительных
docx = nlp('The bird is flying high in the sky blue of...
2544 просмотров
schedule
06.12.2023
Какой смысл скачивать «модели» при использовании SpaCy?
Что делает модель?
Я вижу, как этот термин используется в отношении НЛП и МО в целом, и, кажется, нет конкретного определения.
Что делают модели в отношении NLP и SpaCy?
import spacy
from spacy import displacy
nlp =...
2605 просмотров
schedule
29.11.2022
Пространство, определяющее пустые пространства как объекты
Я только начинаю работать со Spacy и вставил текст, чтобы проверить, как он работает с PDF-файлом, который я распознал с помощью AntFileConverter.
Файл txt (образец ниже - будет прикреплен, но не знаю, как) выглядит нормально, находится в UTF-8....
792 просмотров
schedule
12.12.2022
spacy преобразовать conllul в spacy json формат
Я получаю данные из универсальных зависимостей. Я работаю в основном с индонезийским языком (бахаса), поэтому клонирую репо:
https://github.com/conllul/UL_Indonesian-PUD
https://github.com/conllul/UL_Indonesian-GSD
оба репо содержат...
1103 просмотров
schedule
04.03.2024
Обновление уже существующей пространственной модели NER
Я хочу обновить уже существующую пространственную модель en_core_web_sm и обучить ее дополнительным данным.
Мои данные находятся в том же формате, который указан в документации spacy https://spacy.io/usage/training
Я выполнил те же шаги, что и...
1342 просмотров
schedule
10.12.2023
Как обучить пользовательский NER в Spacy с набором данных из отдельных слов?
Я пытаюсь обучить специалиста в Spacy с новой сущностью «ЖИВОТНОЕ». Но у меня есть набор данных с отдельными словами как:
TRAIN_DATA = [("Whale_ Blue", {"entities": [(0,11,LABEL)]}), ("Shark_ whale", {"entities": [(0,12,LABEL)]}), ("Elephant_...
507 просмотров
schedule
20.03.2024
spaCy Matcher: апельсин, яблоко и виноград - фрукты
Я хочу использовать сопоставление spaCy для сопоставления:
orange, apple and grape are fruits.
То есть: [NOUN[,and]]+ NOUN are fruits.
Однако мой образец неверен. Может ли кто-нибудь помочь мне написать правильный узор?
Спасибо!
48 просмотров
schedule
16.01.2024
Как импортировать текст из формата CoNNL с именованными объектами в spaCy, вывести объекты с моей моделью и записать их в тот же набор данных (с Python)?
У меня есть набор данных в формате CoNLL NER, который в основном представляет собой файл TSV с двумя полями. Первое поле содержит токены из некоторого текста - по одному токену на строку (каждый символ пунктуации также считается там токеном), а...
2071 просмотров
schedule
17.11.2022