В чем разница между веб-сканированием и веб-скрейпингом?

Есть ли разница между сканированием и веб-скрейпингом?

Если есть разница, какой метод лучше всего использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в специализированной поисковой системе?


person wassimans    schedule 01.12.2010    source источник
comment
Скрапинг означает извлечение контента со страницы. Сканирование означает переход по ссылкам для доступа к многочисленным страницам. Поисковые роботы должны выполнять парсинг по двум причинам: во-первых, полезные поисковые роботы не просматривают страницы просто так; они собирают информацию (например, индексируют слова для создания поискового индекса для поисковой системы). Во-вторых, они должны обнаружить ссылки на другие страницы.   -  person Kaz    schedule 11.10.2013


Ответы (6)


Сканирование будет по сути тем, что делают Google, Yahoo, MSN и т. Д., Ища ЛЮБУЮ информацию. Скрапинг обычно нацелен на определенные веб-сайты для конкретных данных, например. для сравнения цен, поэтому кодируются совсем по-другому.

Обычно скрапер создается специально для веб-сайтов, которые он должен очищать, и будет делать то, чего (хороший) сканер делать не будет, т. е.:

  • Не обращайте внимания на robots.txt
  • Идентифицировать себя как браузер
  • Отправка форм с данными
  • Выполнить Javascript (если требуется действовать как пользователь)
person Ben    schedule 01.12.2010
comment
@Ben Вы знаете, где я могу узнать больше о том, как парсер идентифицирует себя как браузер? В Википедии говорится о реализации низкоуровневого протокола передачи гипертекста (HTTP), но я хотел бы узнать больше, как он работает. - person Abdul; 13.07.2015
comment
@Abdul в HTTP-запросах вы можете указать свойство User-Agent, чтобы идентифицировать себя. Если вы, например, установите для этого Mozilla/5.0... Chrome или что-то, что использует Chrome, ваш парсер будет выглядеть на сервере как браузер. - person Amani Kilumanga; 16.03.2016

Да, они разные. На практике вам может понадобиться использовать оба.

(Я должен вскочить, потому что до сих пор другие ответы не доходят до сути. Они используют примеры, но не проясняют различия. Конечно, они из 2010 года!)

Веб-скрапинг, если использовать минимальное определение, — это процесс обработки веб-документа и извлечения из него информации. Вы можете выполнять веб-скрапинг, не выполняя веб-сканирование.

Веб-сканирование, если использовать минимальное определение, — это процесс многократного поиска и извлечения веб-ссылок, начиная со списка исходных URL-адресов. Строго говоря, для сканирования веб-страниц вам необходимо выполнить некоторую степень очистки веб-страниц (чтобы извлечь URL-адреса).

Чтобы прояснить некоторые понятия, упомянутые в других ответах:

  • robots.txt предназначен для применения к любому автоматизированному процессу, который обращается к веб-странице. Таким образом, это относится как к сканерам, так и к скребкам.

  • «Правильные» сканеры и скребки должны точно идентифицировать себя.

Некоторые ссылки:

person David J.    schedule 21.06.2012

AFAIK Web Crawling — это то, что делает Google — он просматривает веб-сайт, просматривая ссылки и создавая базу данных макета этого сайта и сайтов, на которые он ссылается.

Веб-скрапинг будет программным анализом веб-страницы для загрузки с нее некоторых данных, например, загрузкой погоды BBC и копированием (скрапингом) прогноза погоды с нее и размещением в другом месте или использованием в другой программе.

person Chris Harden    schedule 01.12.2010

Между этими двумя есть принципиальная разница. Тем, кто хочет копнуть глубже, советую прочитать это — Парсер веб-страниц, поисковый робот

В этом посте подробно. Хорошая сводка приведена на этой диаграмме из статьи: диаграмма, показывающая разницу между парсингом и сканированием

person Mohit Sharma    schedule 06.09.2013
comment
Обратите внимание, что ответы только по ссылкам не рекомендуются, ответы SO должны быть конечной точкой поиска. для решения (по сравнению с еще одной остановкой ссылок, которые со временем устаревают). Пожалуйста, рассмотрите возможность добавления здесь отдельного синопсиса, оставив ссылку в качестве ссылки. - person kleopatra; 06.09.2013
comment
Эй, @Mohit, ссылка не работает... любой другой источник - person konzo; 09.05.2016

Между этими двумя определенно есть разница. Один относится к посещению сайта, другой к извлечению.

person Annie    schedule 06.09.2013
comment
Вы также можете попробовать и предоставить больше информации... Это, безусловно, поможет... - person NREZ; 06.09.2013

Мы сканируем сайты, чтобы иметь общее представление о том, как устроен сайт, каковы связи между страницами, чтобы оценить, сколько времени нам нужно, чтобы посетить все интересующие нас страницы. Парсинг часто сложнее реализовать, но это суть извлечения данных. Давайте представим парсинг как покрытие веб-сайта листом бумаги с несколькими вырезанными прямоугольниками. Теперь мы можем видеть только то, что нам нужно, полностью игнорируя те части веб-сайта, которые являются общими для всех страниц (такие как навигация, нижний колонтитул, реклама), или постороннюю информацию в виде комментариев или хлебных крошек. Подробнее о различиях между сканированием и удалением вы можете узнать здесь: https://tarantoola.io/web-scraping-vs-web-crawling/

person shirk3y    schedule 26.11.2016