Java и Heritrix 3.1.x: анализ веб-контента?

Поскольку документация разработчика для Heritrix 3.x в значительной степени устарела (большая ее часть относится к Heritrix 1.x, так как большинство классов было изменено или код был значительно переписан/рефакторинг), может ли кто-нибудь указать мне на соответствующие класс (или классы) системы, которые имеют дело с фактическим извлечением содержимого веб-страницы?

Что я хочу сделать, так это получить содержимое веб-страницы, которую Heritrix собирается сканировать, а затем применить классификатор к содержимому веб-страницы? (анализировать структурные особенности и т. д.). Я думаю, что эта функциональность может быть распределена между классом ContentExtractor и его многочисленными подклассами, но я пытаюсь найти точку, где у меня есть содержимое веб-страницы полностью или в виде фрагмента. читаемый/анализируемый поток. Где находится содержимое (html), к которому Heritrix применяет регулярные выражения (для поиска ссылок, определенных типов файлов и т. д.)?


person 9codeMan9    schedule 19.07.2013    source источник


Ответы (1)


Я предлагаю изучить собственный WriterProcessor. Я написал собственный MirrorWriter, который просматривает входящие данные и записывает файлы в разные места по мере их поступления для последующей постобработки. Код класса MirrorWriter довольно прост и хорошо прокомментирован. Документация находится здесь: http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

Если вы твердо настроены на предварительную обработку, вы можете работать с расширением org.archive.modules.extractor.ExtractorHTML и делать версию «на лету». http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

person Nielsvh    schedule 22.07.2013