Удаление просто означает извлечение информации
веб-скраппинг просто означает извлечение контента с любого удаленного веб-сайта. в веб-сканировании мы очищаем html-контент веб-сайта и отображаем его в соответствии с нашими потребностями.
в веб-сканировании мы обычно делаем запрос к странице для ее html, а затем мы можем использовать его по своему усмотрению.
все поисковые системы говорят, что Google использует веб-сканирование для индексации своего контента.
веб-сканирование может выполняться на разных языках программирования, но этот блог ориентирован на javascript
перед тем, как начать
- у вас должны быть базовые знания html, dom и javascript
- на вашем компьютере должен быть установлен node js
вы готовы начать, но перед этим вам понадобятся некоторые инструменты, чтобы сделать запрос и использовать эти данные ответа.
развеселить
- cheerio похож на jquery для узла, есть много библиотек для удаления веб-страниц, но почему мы используем cheerio, хорошо, что cheerio используется большинством разработчиков, поскольку он надежен и очень прост, если вы использовали jquery, который у вас должен быть, тогда его синтаксис будет вам знакомо.
запрос
сделать запрос на удаленный сайт
приступим к отмене
const cheerio = require('cheerio') const $ = cheerio.load('<p id="para">hello world i am going to be scrapped:-)</p>') const text = $('#para').text() console.log(text)
- вывод: привет, мир, я собираюсь отказаться от :-) выглядит знакомо для jquery :-)
аналогично вы можете очистить удаленный веб-сайт
var request = require('request'); var cheerio = require('cheerio'); const url =https://en.wikipedia.org/wiki/Sachin; request(url, function (error, response, html) { if (!error && response.statusCode == 200) { console.log(html); } });
- если все работает нормально, вы должны увидеть html-содержимое этой страницы в своей консоли.
request(url, function (error, response, html) { if (!error && response.statusCode == 200) { let $ = cheerio.load(html); let heading = $('#firstHeading').text(); console.log(heading) //output:sachin }); } });
Хорошо, поэтому в приведенном выше примере мы соскребли заголовок страницы википедии аналогично, вы можете очистить любое содержимое этой веб-страницы, или вы также можете сделать клон википедии, поскольку у вас есть полный доступ к этой странице с помощью cheerio happy scraping :-)