Публикации по теме 'text-classification'


Классификация текста с использованием Python spaCy
В двух предыдущих статьях о текстовой аналитике мы рассмотрели несколько интересных вещей, которые spaCy можно делать в целом. В этой статье мы узнаем, как извлекать значимые шаблоны и темы из текстовых данных. Это полезно в самых разных приложениях для обработки данных: фильтрация спама, запросы в службу поддержки, анализ социальных сетей, контекстная реклама, просмотр отзывов клиентов и многое другое. В этой статье мы углубимся в классификацию текста, в частности, в классификацию..

Получение информации из клинических данных: машинное обучение и глубокое обучение в клинических текстах…
Анализ обработки естественного языка (NLP) в здравоохранении с использованием SpaCy, CountVectorizer, NLTK, встраивания слов с моделированием непоследовательности и последовательности и прочим Методы глубокого обучения, НЛП и машинного обучения продемонстрировали значительные перспективы в нескольких приложениях для здравоохранения. Из клинического текста алгоритмы NER могут автоматически распознавать и извлекать важную информацию, включая имена пациентов, медицинские показания и..

Классификация текста с помощью Tensorflow: какая модель лучше?
Разница между моделями бинарной классификации настроений в наборе данных IMDB Tensorflow — это хорошо документированная и простая в использовании библиотека для машинного обучения. Чтобы использовать Tensorflow, не нужно знать никакой теории или даже Python. Для обычных задач может быть достаточно просто адаптировать…

Самые задаваемые вопросы об интервью по НЛП от Word2Vec
Что такое Word2Vec? Word2Vec  – это метод обработки естественного языка (NLP), который преобразует значение слов в короткие плотные векторы (встраивания слов), которые можно использовать для последующих задач NLP, включая ответы на вопросы, поиск информации, машинный перевод и т. д. и языковое моделирование. Этот вектор (или векторы) контекстуализирует значение слов в корпусе, рассматривая слова, окружающие это слово. Миколов и др. опубликовал в 2013 году статью под названием..

Получение лучших слов в задаче классификации текста с несколькими классами
Во время работы над проектом, который связан с проблемой классификации текста по нескольким классам. Идея заключалась в том, чтобы научить модель прогнозировать категорию (из 16 возможных категорий) отчета на основе произвольного текста. Для подготовки данных я использовал CountVectorizer и TfIdfVectorizer из scikit-learn. CountVectorizer преобразует корпус в токены (отдельные слова) и предоставляет словарь корпуса, который присваивает каждому токену уникальный целочисленный..

Начало работы с обработкой естественного языка: основы
Я уже довольно давно работаю над обработкой естественного языка и понял, что это не так много сборников надежных ресурсов для изучения и реализации методов и моделей НЛП. Хотя существует множество курсов таких университетов, как Стэнфорд, MIT, UCB , которые в основном открыты, но какой курс выбрать на каком этапе обучения - большой вопрос. Итак, в этом сообщении в блоге , Я проложу конвейер изучения основ НЛП, а затем перейду к другим областям НЛП, таким как обобщение текста,..

Текстовая классификация  — «От набора слов к BERT» —  Часть 4 (Сверточная нейронная сеть)
Эта история является частью серии Текстовая классификация — от Bag-of-Words до BERT, реализующей несколько методов на конкурсе Kaggle под названием «Вызов классификации токсичных комментариев » . В этом конкурсе перед нами стоит задача создать многоуровневую модель, способную выявлять различные типы токсичности, такие как угрозы, непристойности, оскорбления и ненависть на основе личных данных. Если вы не читали предыдущие новости, обязательно посмотрите их. Часть 1..