Има ли разлика между обхождане и уеб-скрапинг?
Ако има разлика, кой е най-добрият метод, който да използвате, за да съберете някои уеб данни, за да предоставите база данни за по-късна употреба в персонализирана търсачка?
Има ли разлика между обхождане и уеб-скрапинг?
Ако има разлика, кой е най-добрият метод, който да използвате, за да съберете някои уеб данни, за да предоставите база данни за по-късна употреба в персонализирана търсачка?
Обхождането би било по същество това, което Google, Yahoo, MSN и т.н. правят, търсейки ВСЯКАКВА информация. Извличането обикновено е насочено към определени уебсайтове, за конкретни данни, напр. за сравнение на цените, така че са кодирани съвсем различно.
Обикновено скреперът ще бъде по поръчка за уебсайтовете, които трябва да изтрива, и ще прави неща, които (добър) робот не би направил, т.е.:
Да, различни са. На практика може да се наложи да използвате и двете.
(Трябва да се намеся, защото засега другите отговори не достигат до същността. Те използват примери, но не правят разграниченията ясни. Разбира се, те са от 2010 г.!)
Уеб скрапирането, ако използваме минимална дефиниция, е процес на обработка на уеб документ и извличане на информация от него. Можете да правите уеб скрапинг, без да правите уеб обхождане.
Обхождането на мрежата, ако използваме минимална дефиниция, е процес на итеративно намиране и извличане на уеб връзки, започвайки от списък с начални URL адреси. Строго погледнато, за да обхождате мрежата, трябва да извършите известна степен на уеб скрапинг (за да извлечете URL адресите.)
За да изясните някои понятия, споменати в другите отговори:
robots.txt
е предназначен да се прилага към всеки автоматизиран процес, който осъществява достъп до уеб страница. Така че се отнася както за пълзящите, така и за скреперите.
„Правилните“ краулери и скрепери, и двете, трябва да се идентифицират точно.
Някои препратки:
AFAIK Уеб обхождането е това, което Google прави - той обикаля уебсайт, разглеждайки връзки и изгражда база данни за оформлението на този сайт и сайтовете, към които той препраща
Web Scraping би бил програмен анализ на уеб страница за зареждане на някои данни от нея, например зареждане на прогнозата за времето на BBC и извличане (изтриване) на прогнозата за времето от нея и поставянето й на друго място или използването й в друга програма.
Има фундаментална разлика между тези двете. За тези, които искат да копаят по-дълбоко, предлагам да прочетете това - Уеб скрепер, уеб робот
Тази публикация е в подробности. Добро обобщение е в тази диаграма от статията:
Определено има разлика между тези двете. Единият се отнася за посещение на сайт, а другият за извличане.
Ние обхождаме сайтове, за да имаме широка перспектива как е структуриран сайтът, какви са връзките между страниците, за да преценим колко време ни е необходимо, за да посетим всички страници, които ни интересуват. Скрапингът често е по-труден за прилагане, но е същността на извличането на данни. Нека си представим изстъргването като покриване на уебсайт с лист хартия с изрязани правоъгълници. Вече можем да виждаме само неща, от които се нуждаем, като напълно игнорираме части от уебсайта, които са общи за всички страници (като навигация, долен колонтитул, реклами), или външна информация като коментари или навигационни пътеки. Повече за разликите между обхождане и бракуване можете да намерите тук: https://tarantoola.io/web-scraping-vs-web-crawling/