В чем разница между веб-сканированием и веб-скрейпингом?

Есть ли разница между сканированием и веб-скрейпингом?

Если есть разница, какой метод лучше всего использовать для сбора некоторых веб-данных для предоставления базы данных для последующего использования в специализированной поисковой системе?

web-scraping web-crawler search-engine

wassimans 01.12.2010 источник

comment

Скрапинг означает извлечение контента со страницы. Сканирование означает переход по ссылкам для доступа к многочисленным страницам. Поисковые роботы должны выполнять парсинг по двум причинам: во-первых, полезные поисковые роботы не просматривают страницы просто так; они собирают информацию (например, индексируют слова для создания поискового индекса для поисковой системы). Во-вторых, они должны обнаружить ссылки на другие страницы. - Kaz 11.10.2013

Ответы (6)

arrow_upward
122
arrow_downward

Сканирование будет по сути тем, что делают Google, Yahoo, MSN и т. Д., Ища ЛЮБУЮ информацию. Скрапинг обычно нацелен на определенные веб-сайты для конкретных данных, например. для сравнения цен, поэтому кодируются совсем по-другому.

Обычно скрапер создается специально для веб-сайтов, которые он должен очищать, и будет делать то, чего (хороший) сканер делать не будет, т. е.:

Не обращайте внимания на robots.txt
Идентифицировать себя как браузер
Отправка форм с данными
Выполнить Javascript (если требуется действовать как пользователь)

Ben 01.12.2010

comment

@Ben Вы знаете, где я могу узнать больше о том, как парсер идентифицирует себя как браузер? В Википедии говорится о реализации низкоуровневого протокола передачи гипертекста (HTTP), но я хотел бы узнать больше, как он работает. - Abdul; 13.07.2015

comment

@Abdul в HTTP-запросах вы можете указать свойство User-Agent, чтобы идентифицировать себя. Если вы, например, установите для этого Mozilla/5.0... Chrome или что-то, что использует Chrome, ваш парсер будет выглядеть на сервере как браузер. - Amani Kilumanga; 16.03.2016

arrow_upward
69
arrow_downward

Да, они разные. На практике вам может понадобиться использовать оба.

(Я должен вскочить, потому что до сих пор другие ответы не доходят до сути. Они используют примеры, но не проясняют различия. Конечно, они из 2010 года!)

Веб-скрапинг, если использовать минимальное определение, — это процесс обработки веб-документа и извлечения из него информации. Вы можете выполнять веб-скрапинг, не выполняя веб-сканирование.

Веб-сканирование, если использовать минимальное определение, — это процесс многократного поиска и извлечения веб-ссылок, начиная со списка исходных URL-адресов. Строго говоря, для сканирования веб-страниц вам необходимо выполнить некоторую степень очистки веб-страниц (чтобы извлечь URL-адреса).

Чтобы прояснить некоторые понятия, упомянутые в других ответах:

robots.txt предназначен для применения к любому автоматизированному процессу, который обращается к веб-странице. Таким образом, это относится как к сканерам, так и к скребкам.
«Правильные» сканеры и скребки должны точно идентифицировать себя.

Некоторые ссылки:

David J. 21.06.2012

arrow_upward
8
arrow_downward

AFAIK Web Crawling — это то, что делает Google — он просматривает веб-сайт, просматривая ссылки и создавая базу данных макета этого сайта и сайтов, на которые он ссылается.

Веб-скрапинг будет программным анализом веб-страницы для загрузки с нее некоторых данных, например, загрузкой погоды BBC и копированием (скрапингом) прогноза погоды с нее и размещением в другом месте или использованием в другой программе.

Chris Harden 01.12.2010

arrow_upward
3
arrow_downward

Между этими двумя есть принципиальная разница. Тем, кто хочет копнуть глубже, советую прочитать это — Парсер веб-страниц, поисковый робот

В этом посте подробно. Хорошая сводка приведена на этой диаграмме из статьи:

Mohit Sharma 06.09.2013

comment

Обратите внимание, что ответы только по ссылкам не рекомендуются, ответы SO должны быть конечной точкой поиска. для решения (по сравнению с еще одной остановкой ссылок, которые со временем устаревают). Пожалуйста, рассмотрите возможность добавления здесь отдельного синопсиса, оставив ссылку в качестве ссылки. - kleopatra; 06.09.2013

comment

Эй, @Mohit, ссылка не работает... любой другой источник - konzo; 09.05.2016

arrow_upward
0
arrow_downward

Между этими двумя определенно есть разница. Один относится к посещению сайта, другой к извлечению.

Annie 06.09.2013

comment

Вы также можете попробовать и предоставить больше информации... Это, безусловно, поможет... - NREZ; 06.09.2013

arrow_upward
0
arrow_downward

Мы сканируем сайты, чтобы иметь общее представление о том, как устроен сайт, каковы связи между страницами, чтобы оценить, сколько времени нам нужно, чтобы посетить все интересующие нас страницы. Парсинг часто сложнее реализовать, но это суть извлечения данных. Давайте представим парсинг как покрытие веб-сайта листом бумаги с несколькими вырезанными прямоугольниками. Теперь мы можем видеть только то, что нам нужно, полностью игнорируя те части веб-сайта, которые являются общими для всех страниц (такие как навигация, нижний колонтитул, реклама), или постороннюю информацию в виде комментариев или хлебных крошек. Подробнее о различиях между сканированием и удалением вы можете узнать здесь: https://tarantoola.io/web-scraping-vs-web-crawling/

shirk3y 26.11.2016

В чем разница между веб-сканированием и веб-скрейпингом?

Ответы (6)

Похожие вопросы