Удаление просто означает извлечение информации

веб-скраппинг просто означает извлечение контента с любого удаленного веб-сайта. в веб-сканировании мы очищаем html-контент веб-сайта и отображаем его в соответствии с нашими потребностями.

в веб-сканировании мы обычно делаем запрос к странице для ее html, а затем мы можем использовать его по своему усмотрению.

все поисковые системы говорят, что Google использует веб-сканирование для индексации своего контента.

веб-сканирование может выполняться на разных языках программирования, но этот блог ориентирован на javascript

перед тем, как начать

  • у вас должны быть базовые знания html, dom и javascript
  • на вашем компьютере должен быть установлен node js

вы готовы начать, но перед этим вам понадобятся некоторые инструменты, чтобы сделать запрос и использовать эти данные ответа.

развеселить

  • cheerio похож на jquery для узла, есть много библиотек для удаления веб-страниц, но почему мы используем cheerio, хорошо, что cheerio используется большинством разработчиков, поскольку он надежен и очень прост, если вы использовали jquery, который у вас должен быть, тогда его синтаксис будет вам знакомо.

запрос

сделать запрос на удаленный сайт

приступим к отмене

const cheerio = require('cheerio')
const $ = cheerio.load('<p id="para">hello world i am going to be scrapped:-)</p>')
const text = $('#para').text()
console.log(text)
  • вывод: привет, мир, я собираюсь отказаться от :-) выглядит знакомо для jquery :-)

аналогично вы можете очистить удаленный веб-сайт

var request = require('request');
var cheerio = require('cheerio');
const url =https://en.wikipedia.org/wiki/Sachin; 
request(url, function (error, response, html) {
  if (!error && response.statusCode == 200) {
    console.log(html);
  }
});
  • если все работает нормально, вы должны увидеть html-содержимое этой страницы в своей консоли.
request(url, function (error, response, html) {
  if (!error && response.statusCode == 200) {
     
   let $ = cheerio.load(html);
     
   let heading  = $('#firstHeading').text();
       console.log(heading)
       //output:sachin 
    });
  }
});

Хорошо, поэтому в приведенном выше примере мы соскребли заголовок страницы википедии аналогично, вы можете очистить любое содержимое этой веб-страницы, или вы также можете сделать клон википедии, поскольку у вас есть полный доступ к этой странице с помощью cheerio happy scraping :-)