Можно ли идентифицировать содержимое страниц интрасети с помощью распознавания именованных объектов?

Я новичок в обработке естественного языка и хочу узнать больше, создав простой проект. Предполагалось, что NLTK будет популярен в НЛП, поэтому я буду использовать его в своем проекте.

Вот что я хотел бы сделать:

Я хочу просканировать страницы интрасети нашей компании; примерно 3К страниц
Я хотел бы проанализировать и классифицировать содержимое этих страниц на основе определенных критериев, таких как: HR, Engineering, корпоративные страницы и т. д.

Из того, что я прочитал до сих пор, я могу сделать это с помощью распознавания именованных объектов. Я могу описать объекты для каждой категории страниц, обучить решение NLTK и запустить каждую страницу, чтобы определить категорию.

Это правильный подход? Я ценю любое направление и идеи...

Спасибо

nlp nltk

kind_robot 23.10.2010 источник

Ответы (1)

arrow_upward
1
arrow_downward

Похоже, вы хотите выполнить классификацию текста/документа, что не совсем то же самое, что и Named Entity. Распознавание, целью которого является распознавание в тексте любых именованных объектов (имен собственных, мест, учреждений и т. д.). Тем не менее, имена собственные могут быть очень полезными функциями при классификации текста в ограниченном домене, например, вполне вероятно, что страница с именем главного инженера может быть классифицирована как «Инженерная».

В книге NLTK есть глава, посвященная базовой классификации текстов.

Community 23.10.2010

comment

Что, если я хочу классифицировать, скажем, инженерные страницы с большей глубиной, например, «Структурная инженерия» или «Электротехника»? Затем мне пришлось бы распознавать некоторые шаблоны регулярных выражений для каждой инженерной дисциплины. Ваш пример тоже очень хороший. Если ни одно регулярное выражение не соответствует определенной дисциплине, имя инженера (принадлежащего известной дисциплине) в тексте темы может указывать на конкретную дисциплину. Поможет ли NER в НЛП достичь этого? - kind_robot; 24.10.2010

comment

Обычно вы обучаете какую-то модель на основе вектора, обычно основанную на взвешивании tf/idf, это не очень сложно ни на практике, ни в теории, и часто может давать очень хорошие результаты. Существуют более продвинутые методы, если этого недостаточно. Я не думаю, что NER очень полезен, равно как и создание регулярных выражений для категоризации документов, скорее всего, это будет много работы, особенно. если вам нужны детализированные категории, и вам придется самостоятельно придумывать какой-то показатель достоверности при работе с более сложными документами. - ; 24.10.2010

comment

Я вижу вашу точку зрения. Как мне это сделать с помощью NLTK и с чего начать? Можете ли вы указать мне правильное направление? Ваша помощь очень ценится. - kind_robot; 24.10.2010

comment

Если вы еще не нашли ее, книга «Обработка естественного языка» — это хорошее начало для всего, что связано с NLTK: nltk.org /book Это также с открытым исходным кодом. - winwaed; 28.10.2010

comment

В книге NLTK есть раздел: nltk.org/book/ch06.html. - dmh; 14.07.2013

Можно ли идентифицировать содержимое страниц интрасети с помощью распознавания именованных объектов?

Ответы (1)

Похожие вопросы