Каква е разликата между уеб-обхождане и уеб-скрапинг?

Има ли разлика между обхождане и уеб-скрапинг?

Ако има разлика, кой е най-добрият метод, който да използвате, за да съберете някои уеб данни, за да предоставите база данни за по-късна употреба в персонализирана търсачка?


person wassimans    schedule 01.12.2010    source източник
comment
Изтриването означава изтегляне на съдържание от страница. Обхождането означава следване на връзки, за да достигнете до множество страници. Роботите трябва да изгребват и това е по две причини: едната е, че полезните роботи не просто преминават през страниците без нищо; те събират информация (напр. индексиране на думи за изграждане на индекс за търсене за търсачка). Второ, те трябва да открият връзки към други страници.   -  person Kaz    schedule 11.10.2013


Отговори (6)


Обхождането би било по същество това, което Google, Yahoo, MSN и т.н. правят, търсейки ВСЯКАКВА информация. Извличането обикновено е насочено към определени уебсайтове, за конкретни данни, напр. за сравнение на цените, така че са кодирани съвсем различно.

Обикновено скреперът ще бъде по поръчка за уебсайтовете, които трябва да изтрива, и ще прави неща, които (добър) робот не би направил, т.е.:

  • Нямайте отношение към robots.txt
  • Идентифицира се като браузър
  • Изпратете формуляри с данни
  • Изпълнете Javascript (ако е необходимо да действате като потребител)
person Ben    schedule 01.12.2010
comment
@Ben Знаете ли къде мога да намеря повече за това как уеб скреперът се идентифицира като браузър? Wikipedia казва прилагане на протокол за прехвърляне на хипертекст на ниско ниво (HTTP), но наистина бих искал да знам повече как работи. - person Abdul; 13.07.2015
comment
@Abdul в HTTP заявки, можете да посочите свойство на потребителски агент, за да се идентифицирате. Ако например зададете това на Mozilla/5.0 ... Chrome или нещо, което Chrome използва, вашият скрепер ще изглежда като браузър за сървъра. - person Amani Kilumanga; 16.03.2016

Да, различни са. На практика може да се наложи да използвате и двете.

(Трябва да се намеся, защото засега другите отговори не достигат до същността. Те използват примери, но не правят разграниченията ясни. Разбира се, те са от 2010 г.!)

Уеб скрапирането, ако използваме минимална дефиниция, е процес на обработка на уеб документ и извличане на информация от него. Можете да правите уеб скрапинг, без да правите уеб обхождане.

Обхождането на мрежата, ако използваме минимална дефиниция, е процес на итеративно намиране и извличане на уеб връзки, започвайки от списък с начални URL адреси. Строго погледнато, за да обхождате мрежата, трябва да извършите известна степен на уеб скрапинг (за да извлечете URL адресите.)

За да изясните някои понятия, споменати в другите отговори:

  • robots.txt е предназначен да се прилага към всеки автоматизиран процес, който осъществява достъп до уеб страница. Така че се отнася както за пълзящите, така и за скреперите.

  • „Правилните“ краулери и скрепери, и двете, трябва да се идентифицират точно.

Някои препратки:

person David J.    schedule 21.06.2012

AFAIK Уеб обхождането е това, което Google прави - той обикаля уебсайт, разглеждайки връзки и изгражда база данни за оформлението на този сайт и сайтовете, към които той препраща

Web Scraping би бил програмен анализ на уеб страница за зареждане на някои данни от нея, например зареждане на прогнозата за времето на BBC и извличане (изтриване) на прогнозата за времето от нея и поставянето й на друго място или използването й в друга програма.

person Chris Harden    schedule 01.12.2010

Има фундаментална разлика между тези двете. За тези, които искат да копаят по-дълбоко, предлагам да прочетете това - Уеб скрепер, уеб робот

Тази публикация е в подробности. Добро обобщение е в тази диаграма от статията: диаграма, показваща разликата между изстъргване и обхождане

person Mohit Sharma    schedule 06.09.2013
comment
Имайте предвид, че отговорите само с връзка не се препоръчват, ТАКА че отговорите трябва да бъдат крайната точка на търсене за решение (срещу още едно спиране на препратки, които са склонни да остареят с времето). Моля, обмислете добавянето на самостоятелен синопсис тук, като запазите връзката като справка. - person kleopatra; 06.09.2013
comment
Хей, @Mohit, връзката е повредена... всеки друг източник - person konzo; 09.05.2016

Определено има разлика между тези двете. Единият се отнася за посещение на сайт, а другият за извличане.

person Annie    schedule 06.09.2013
comment
Можете да опитате и да предоставите повече информация... Със сигурност ще помогне... - person NREZ; 06.09.2013

Ние обхождаме сайтове, за да имаме широка перспектива как е структуриран сайтът, какви са връзките между страниците, за да преценим колко време ни е необходимо, за да посетим всички страници, които ни интересуват. Скрапингът често е по-труден за прилагане, но е същността на извличането на данни. Нека си представим изстъргването като покриване на уебсайт с лист хартия с изрязани правоъгълници. Вече можем да виждаме само неща, от които се нуждаем, като напълно игнорираме части от уебсайта, които са общи за всички страници (като навигация, долен колонтитул, реклами), или външна информация като коментари или навигационни пътеки. Повече за разликите между обхождане и бракуване можете да намерите тук: https://tarantoola.io/web-scraping-vs-web-crawling/

person shirk3y    schedule 26.11.2016