паук не переходит на следующую страницу

Я изучаю все сведения о продуктах на http://www.ulta.com/makeup-eyes-eyebrows?N=26yi. Мои правила скопированы ниже. Я получил данные только с первой страницы, и они не переходят на следующую страницу.

rules = (Rule(LinkExtractor(
            restrict_xpaths='//*[@id="canada"]/div[4]/div[2]/div[3]/div[3]/div[2]/ul/li[3]/a',), 
            callback = 'parse',
            follow =True),)

Кто-нибудь может мне с этим помочь?


person Zhuoyang Li    schedule 03.07.2017    source источник
comment
Используйте CrawlSpider, как указано в приведенном ниже вопросе, stackoverflow.com /вопросы/32624033/   -  person Ramakanth Putta    schedule 03.07.2017
comment
Я думаю, что мой код точно следует сканирующему пауку в ссылке выше. но не работает   -  person Zhuoyang Li    schedule 03.07.2017


Ответы (1)


Используйте CrawlSpider, он автоматически переползет на другие страницы, в противном случае с помощью Spider вам нужно вручную передать другие ссылки

 class Scrapy1Spider(CrawlSpider):

вместо

 class Scrapy1Spider(scrapy.Spider):

См.: Скрапирование со следующей страницей

person Ramakanth Putta    schedule 03.07.2017
comment
Я использую обходного паука вместо паука. а limited_xpaths — это xpath для следующей кнопки. но он очищает только первую страницу. - person Zhuoyang Li; 03.07.2017
comment
Проверьте, являются ли другие ссылки частью переменной allow_domains. Почему вы не добавляете allow() в LinkExtractor. - person Ramakanth Putta; 03.07.2017
comment
задача решена. при очистке первой страницы произошла ошибка продукта. - person Zhuoyang Li; 03.07.2017