Публикации по темата text-classification

Свързани публикации 'text-classification'

Отключване на прозрения от клинични данни: Машинно обучение и задълбочено обучение в клиничен текст…

Анализ на обработката на естествен език (NLP) в здравеопазването с помощта на SpaCy, CountVectorizer, NLTK, Word Embedding с моделиране без последователност и последователност и други Методите за дълбоко обучение, НЛП и машинно обучение са показали значителни обещания в няколко приложения в здравеопазването. От клиничния текст NER алгоритмите могат автоматично да разпознават и извличат важна информация, включително имена на пациенти, медицински състояния и имена на рецепти. Медицински..

Класификация на текст с Tensorflow: Кой модел е най-добрият?

Разликата между моделите за бинарна класификация на настроението в набора от данни на IMDB Tensorflow е добре документирана и лесна за използване библиотека за машинно обучение. За да използвате Tensorflow, не е необходимо да познавате никаква теория или дори Python. За общи задачи може да е достатъчно просто да адаптирате...

Най-задаваните въпроси за НЛП интервю от Word2Vec

Какво е Word2Vec? Word2Vec е техника за обработка на естествен език (NLP), която преобразува значението на думите в кратки, плътни вектори (вграждане на думи), които могат да се използват за NLP задачи надолу по веригата, включително отговаряне на въпроси, извличане на информация, машинен превод, и езиково моделиране. Този вектор (или вектори) контекстуализира значението на думите в даден корпус, като разглежда думите, които обграждат тази дума. Миколов и др. публикува статия през..

Получаване на най-добрите думи в проблем с многокласова текстова класификация

Докато работих по проект, който включваше проблем с класификацията на многокласов текст. Идеята беше да се обучи модел за прогнозиране на категорията (от 16 възможни категории) на отчет въз основа на свободен текст. За да подготвя данните, използвах CountVectorizer и TfIdfVectorizer от scikit-learn. CountVectorizer трансформира корпуса в токени (индивидуални думи) и ви дава речник на корпуса, който присвоява на всеки токен уникален идентификационен номер с цяло число. Тъй като повечето..

Първи стъпки в обработката на естествен език: основи

Работя върху обработката на естествен език от известно време и разбрах, че това не са много компилации от надеждни ресурси за изучаване и прилагане на НЛП техники и модели. Въпреки че има много курсове от университети като Станфорд, Масачузетски технологичен институт, Калифорнийски университет , които са предимно отворени, но големият въпрос е кой курс да се направи на каква фаза на обучение. И така, в тази публикация в блога , ще положа процеса на изучаване на основни неща в НЛП и..

Текстова класификация — From Bag-of-Words to BERT — Част 4 (Конволюционна невронна мрежа)

Тази история е част от поредица Text Classification — From Bag-of-Words to BERT, прилагаща множество методи на Kaggle Competition, наречена „ Токсично предизвикателство за класификация на коментари » . В това състезание сме изправени пред предизвикателството да изградим многостранен модел, който е способен да открива различни видове токсичност като заплахи, непристойност, обиди и омраза, основана на самоличността. Ако не сте проверили предишните истории, проверете ги Част 1..

Приложение CRUD за класификация на текст

В последния пост описах „CRUD за машинно обучение“ със следните функции: съхраняване и обслужване на SciKit-Learn модели с Flask/Python API (от съществуващ проект) постепенно обучение - добавете данни за обучение с течение на времето, за да подобрите модела ELI5, за да обясни решението на модела за всяка прогноза Следващата стъпка за моя проект е поддържането на класификация на текст. За да поддържам езици извън английския, ще използвам „FastText“ на Facebook, за да анализирам..