Поскольку документация разработчика для Heritrix 3.x в значительной степени устарела (большая ее часть относится к Heritrix 1.x, так как большинство классов было изменено или код был значительно переписан/рефакторинг), может ли кто-нибудь указать мне на соответствующие класс (или классы) системы, которые имеют дело с фактическим извлечением содержимого веб-страницы?
Что я хочу сделать, так это получить содержимое веб-страницы, которую Heritrix собирается сканировать, а затем применить классификатор к содержимому веб-страницы? (анализировать структурные особенности и т. д.). Я думаю, что эта функциональность может быть распределена между классом ContentExtractor и его многочисленными подклассами, но я пытаюсь найти точку, где у меня есть содержимое веб-страницы полностью или в виде фрагмента. читаемый/анализируемый поток. Где находится содержимое (html), к которому Heritrix применяет регулярные выражения (для поиска ссылок, определенных типов файлов и т. д.)?