Есть ли разница между сканированием и веб-скрейпингом?
Если есть разница, какой метод лучше всего использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в специализированной поисковой системе?
Есть ли разница между сканированием и веб-скрейпингом?
Если есть разница, какой метод лучше всего использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в специализированной поисковой системе?
Сканирование будет по сути тем, что делают Google, Yahoo, MSN и т. Д., Ища ЛЮБУЮ информацию. Скрапинг обычно нацелен на определенные веб-сайты для конкретных данных, например. для сравнения цен, поэтому кодируются совсем по-другому.
Обычно скрапер создается специально для веб-сайтов, которые он должен очищать, и будет делать то, чего (хороший) сканер делать не будет, т. е.:
Да, они разные. На практике вам может понадобиться использовать оба.
(Я должен вскочить, потому что до сих пор другие ответы не доходят до сути. Они используют примеры, но не проясняют различия. Конечно, они из 2010 года!)
Веб-скрапинг, если использовать минимальное определение, — это процесс обработки веб-документа и извлечения из него информации. Вы можете выполнять веб-скрапинг, не выполняя веб-сканирование.
Веб-сканирование, если использовать минимальное определение, — это процесс многократного поиска и извлечения веб-ссылок, начиная со списка исходных URL-адресов. Строго говоря, для сканирования веб-страниц вам необходимо выполнить некоторую степень очистки веб-страниц (чтобы извлечь URL-адреса).
Чтобы прояснить некоторые понятия, упомянутые в других ответах:
robots.txt
предназначен для применения к любому автоматизированному процессу, который обращается к веб-странице. Таким образом, это относится как к сканерам, так и к скребкам.
«Правильные» сканеры и скребки должны точно идентифицировать себя.
Некоторые ссылки:
AFAIK Web Crawling — это то, что делает Google — он просматривает веб-сайт, просматривая ссылки и создавая базу данных макета этого сайта и сайтов, на которые он ссылается.
Веб-скрапинг будет программным анализом веб-страницы для загрузки с нее некоторых данных, например, загрузкой погоды BBC и копированием (скрапингом) прогноза погоды с нее и размещением в другом месте или использованием в другой программе.
Между этими двумя есть принципиальная разница. Тем, кто хочет копнуть глубже, советую прочитать это — Парсер веб-страниц, поисковый робот
В этом посте подробно. Хорошая сводка приведена на этой диаграмме из статьи:
Между этими двумя определенно есть разница. Один относится к посещению сайта, другой к извлечению.
Мы сканируем сайты, чтобы иметь общее представление о том, как устроен сайт, каковы связи между страницами, чтобы оценить, сколько времени нам нужно, чтобы посетить все интересующие нас страницы. Парсинг часто сложнее реализовать, но это суть извлечения данных. Давайте представим парсинг как покрытие веб-сайта листом бумаги с несколькими вырезанными прямоугольниками. Теперь мы можем видеть только то, что нам нужно, полностью игнорируя те части веб-сайта, которые являются общими для всех страниц (такие как навигация, нижний колонтитул, реклама), или постороннюю информацию в виде комментариев или хлебных крошек. Подробнее о различиях между сканированием и удалением вы можете узнать здесь: https://tarantoola.io/web-scraping-vs-web-crawling/