Можно ли идентифицировать содержимое страниц интрасети с помощью распознавания именованных объектов?

Я новичок в обработке естественного языка и хочу узнать больше, создав простой проект. Предполагалось, что NLTK будет популярен в НЛП, поэтому я буду использовать его в своем проекте.

Вот что я хотел бы сделать:

  • Я хочу просканировать страницы интрасети нашей компании; примерно 3К страниц
  • Я хотел бы проанализировать и классифицировать содержимое этих страниц на основе определенных критериев, таких как: HR, Engineering, корпоративные страницы и т. д.

Из того, что я прочитал до сих пор, я могу сделать это с помощью распознавания именованных объектов. Я могу описать объекты для каждой категории страниц, обучить решение NLTK и запустить каждую страницу, чтобы определить категорию.

Это правильный подход? Я ценю любое направление и идеи...

Спасибо


person kind_robot    schedule 23.10.2010    source источник


Ответы (1)


Похоже, вы хотите выполнить классификацию текста/документа, что не совсем то же самое, что и Named Entity. Распознавание, целью которого является распознавание в тексте любых именованных объектов (имен собственных, мест, учреждений и т. д.). Тем не менее, имена собственные могут быть очень полезными функциями при классификации текста в ограниченном домене, например, вполне вероятно, что страница с именем главного инженера может быть классифицирована как «Инженерная».

В книге NLTK есть глава, посвященная базовой классификации текстов.

person Community    schedule 23.10.2010
comment
Что, если я хочу классифицировать, скажем, инженерные страницы с большей глубиной, например, «Структурная инженерия» или «Электротехника»? Затем мне пришлось бы распознавать некоторые шаблоны регулярных выражений для каждой инженерной дисциплины. Ваш пример тоже очень хороший. Если ни одно регулярное выражение не соответствует определенной дисциплине, имя инженера (принадлежащего известной дисциплине) в тексте темы может указывать на конкретную дисциплину. Поможет ли NER в НЛП достичь этого? - person kind_robot; 24.10.2010
comment
Обычно вы обучаете какую-то модель на основе вектора, обычно основанную на взвешивании tf/idf, это не очень сложно ни на практике, ни в теории, и часто может давать очень хорошие результаты. Существуют более продвинутые методы, если этого недостаточно. Я не думаю, что NER очень полезен, равно как и создание регулярных выражений для категоризации документов, скорее всего, это будет много работы, особенно. если вам нужны детализированные категории, и вам придется самостоятельно придумывать какой-то показатель достоверности при работе с более сложными документами. - person ; 24.10.2010
comment
Я вижу вашу точку зрения. Как мне это сделать с помощью NLTK и с чего начать? Можете ли вы указать мне правильное направление? Ваша помощь очень ценится. - person kind_robot; 24.10.2010
comment
Если вы еще не нашли ее, книга «Обработка естественного языка» — это хорошее начало для всего, что связано с NLTK: nltk.org /book Это также с открытым исходным кодом. - person winwaed; 28.10.2010
comment
В книге NLTK есть раздел: nltk.org/book/ch06.html. - person dmh; 14.07.2013