Я новичок в обработке естественного языка и хочу узнать больше, создав простой проект. Предполагалось, что NLTK будет популярен в НЛП, поэтому я буду использовать его в своем проекте.
Вот что я хотел бы сделать:
- Я хочу просканировать страницы интрасети нашей компании; примерно 3К страниц
- Я хотел бы проанализировать и классифицировать содержимое этих страниц на основе определенных критериев, таких как: HR, Engineering, корпоративные страницы и т. д.
Из того, что я прочитал до сих пор, я могу сделать это с помощью распознавания именованных объектов. Я могу описать объекты для каждой категории страниц, обучить решение NLTK и запустить каждую страницу, чтобы определить категорию.
Это правильный подход? Я ценю любое направление и идеи...
Спасибо