Каква е разликата между уеб-обхождане и уеб-скрапинг?

Има ли разлика между обхождане и уеб-скрапинг?

Ако има разлика, кой е най-добрият метод, който да използвате, за да съберете някои уеб данни, за да предоставите база данни за по-късна употреба в персонализирана търсачка?

web-scraping web-crawler search-engine

wassimans 01.12.2010 източник

comment

Изтриването означава изтегляне на съдържание от страница. Обхождането означава следване на връзки, за да достигнете до множество страници. Роботите трябва да изгребват и това е по две причини: едната е, че полезните роботи не просто преминават през страниците без нищо; те събират информация (напр. индексиране на думи за изграждане на индекс за търсене за търсачка). Второ, те трябва да открият връзки към други страници. - Kaz 11.10.2013

Отговори (6)

arrow_upward
122
arrow_downward

Обхождането би било по същество това, което Google, Yahoo, MSN и т.н. правят, търсейки ВСЯКАКВА информация. Извличането обикновено е насочено към определени уебсайтове, за конкретни данни, напр. за сравнение на цените, така че са кодирани съвсем различно.

Обикновено скреперът ще бъде по поръчка за уебсайтовете, които трябва да изтрива, и ще прави неща, които (добър) робот не би направил, т.е.:

Нямайте отношение към robots.txt
Идентифицира се като браузър
Изпратете формуляри с данни
Изпълнете Javascript (ако е необходимо да действате като потребител)

Ben 01.12.2010

comment

@Ben Знаете ли къде мога да намеря повече за това как уеб скреперът се идентифицира като браузър? Wikipedia казва прилагане на протокол за прехвърляне на хипертекст на ниско ниво (HTTP), но наистина бих искал да знам повече как работи. - Abdul; 13.07.2015

comment

@Abdul в HTTP заявки, можете да посочите свойство на потребителски агент, за да се идентифицирате. Ако например зададете това на Mozilla/5.0 ... Chrome или нещо, което Chrome използва, вашият скрепер ще изглежда като браузър за сървъра. - Amani Kilumanga; 16.03.2016

arrow_upward
69
arrow_downward

Да, различни са. На практика може да се наложи да използвате и двете.

(Трябва да се намеся, защото засега другите отговори не достигат до същността. Те използват примери, но не правят разграниченията ясни. Разбира се, те са от 2010 г.!)

Уеб скрапирането, ако използваме минимална дефиниция, е процес на обработка на уеб документ и извличане на информация от него. Можете да правите уеб скрапинг, без да правите уеб обхождане.

Обхождането на мрежата, ако използваме минимална дефиниция, е процес на итеративно намиране и извличане на уеб връзки, започвайки от списък с начални URL адреси. Строго погледнато, за да обхождате мрежата, трябва да извършите известна степен на уеб скрапинг (за да извлечете URL адресите.)

За да изясните някои понятия, споменати в другите отговори:

robots.txt е предназначен да се прилага към всеки автоматизиран процес, който осъществява достъп до уеб страница. Така че се отнася както за пълзящите, така и за скреперите.
„Правилните“ краулери и скрепери, и двете, трябва да се идентифицират точно.

Някои препратки:

David J. 21.06.2012

arrow_upward
8
arrow_downward

AFAIK Уеб обхождането е това, което Google прави - той обикаля уебсайт, разглеждайки връзки и изгражда база данни за оформлението на този сайт и сайтовете, към които той препраща

Web Scraping би бил програмен анализ на уеб страница за зареждане на някои данни от нея, например зареждане на прогнозата за времето на BBC и извличане (изтриване) на прогнозата за времето от нея и поставянето й на друго място или използването й в друга програма.

Chris Harden 01.12.2010

arrow_upward
3
arrow_downward

Има фундаментална разлика между тези двете. За тези, които искат да копаят по-дълбоко, предлагам да прочетете това - Уеб скрепер, уеб робот

Тази публикация е в подробности. Добро обобщение е в тази диаграма от статията:

Mohit Sharma 06.09.2013

comment

Имайте предвид, че отговорите само с връзка не се препоръчват, ТАКА че отговорите трябва да бъдат крайната точка на търсене за решение (срещу още едно спиране на препратки, които са склонни да остареят с времето). Моля, обмислете добавянето на самостоятелен синопсис тук, като запазите връзката като справка. - kleopatra; 06.09.2013

comment

Хей, @Mohit, връзката е повредена... всеки друг източник - konzo; 09.05.2016

arrow_upward
0
arrow_downward

Определено има разлика между тези двете. Единият се отнася за посещение на сайт, а другият за извличане.

Annie 06.09.2013

comment

Можете да опитате и да предоставите повече информация... Със сигурност ще помогне... - NREZ; 06.09.2013

arrow_upward
0
arrow_downward

Ние обхождаме сайтове, за да имаме широка перспектива как е структуриран сайтът, какви са връзките между страниците, за да преценим колко време ни е необходимо, за да посетим всички страници, които ни интересуват. Скрапингът често е по-труден за прилагане, но е същността на извличането на данни. Нека си представим изстъргването като покриване на уебсайт с лист хартия с изрязани правоъгълници. Вече можем да виждаме само неща, от които се нуждаем, като напълно игнорираме части от уебсайта, които са общи за всички страници (като навигация, долен колонтитул, реклами), или външна информация като коментари или навигационни пътеки. Повече за разликите между обхождане и бракуване можете да намерите тук: https://tarantoola.io/web-scraping-vs-web-crawling/

shirk3y 26.11.2016

Каква е разликата между уеб-обхождане и уеб-скрапинг?

Отговори (6)

Подобни въпроси