Как мне подойти к созданию приложения для копирования веб-страниц

Привет, я провожу много исследований в Интернете, но в большинстве случаев у меня нет подключения к WWW на все время моего исследования. Итак, я хотел бы приступить к созданию приложения для копирования веб-сайтов ... Я знаю о HHTrack Website Copier, но у этой программы есть свои ограничения, например, она не может копировать ни одну из страниц Википедии ... вероятно, вызывает доступ к "целевым" серверам на указанный порт, доступ к которому разрешен в определенной степени. Но то, что я ищу, в основном не копирование «всего» сайта, а только его частей. Процедура копирования веб-страницы проста, если вы делаете это вручную. 1) Перейдите по URL-адресу. 2) Щелкните Файл> Сохранить страницу как. 3) убедитесь, что вы сохранили как «полную страницу». 3 простых шага. Как бы это сделать автоматизированным? Я мог бы использовать макрос, но он просто заставляет работать больше, чем должно быть. утроить усилие ....

Я, вероятно, мог бы создать плагин для Firefox, в который вы добавили бы список URL-адресов, которые вы хотели бы сохранить на своем компьютере. Но я не очень знаком с API / SDK. Я, вероятно, мог бы взглянуть на HHTrack Src и немного поработать над некоторыми частями и собрать красивую головоломку. Но если бы я сделал это с нуля, какие API мне нужно было бы искать на C, C ++ или Java? Я не ищу графический интерфейс. но просто программа простая. так что ты думаешь?

если вам интересно, что я исследую. Математика, телекоммуникации, программирование, компьютерная архитектура, магнетизм. Книги стоят денег и иногда дают больше информации, чем вам нужно, и не так портативны, как нетбук. ТОЛЬКО потому, что я изучаю эти области, не означает, что я все знаю ... такая большая помощь будет очень полезна.


person lagMuffin    schedule 15.01.2011    source источник
comment
Что именно вы имеете в виду, когда говорите, что хотите скопировать его части ?? Вы хотите сохранить эти части как есть или использовать их? Возможно, вы захотите изучить инструменты для очистки веб-сайтов - для Java: twit88.com/blog/2008/01/06/ или для python (если вы хотите изучить этот потрясающий язык для исследований!): crummy.com/software/BeautifulSoup   -  person Saher Ahwal    schedule 15.01.2011


Ответы (2)


Wget --mirror http://example.com

person time4tea    schedule 15.01.2011
comment
я забыл про wget. Спасибо за напоминание, и всем спасибо за несколько хороших ссылок и ваше время. - person lagMuffin; 15.01.2011

Вы также можете проверить wget: для Java: http://www.koders.com/java/fid8A3F9CE8B64CA6212A5018CF8A345BCC58796ACE.aspx?s=Quota#L95

Для C ++: проверьте этот старый вопрос и ответ на Stack OverFlow: Параметры для веб-парсинга - C ++ только версия

person Saher Ahwal    schedule 15.01.2011