Путь вокруг HTTP 403 с python

я делаю программу, которая использует Google для поиска, но я не могу из-за ошибки HTTP 403, есть ли способ обойти это или что-то, что я использую для просмотра, вот мой код

from mechanize import Browser

inp = raw_input("Enter Word: ")
Word = inp

SEARCH_PAGE = "https://www.google.com/"

browser = Browser()
browser.open( SEARCH_PAGE )
browser.select_form( nr=0 )

browser['q'] = Word
browser.submit()

вот сообщение об ошибке

Traceback (most recent call last):
File "C:\Python27\Project\Auth2.py", line 16, in <module>
browser.submit()
File "C:\Python27\lib\site-packages\mechanize\_mechanize.py", line 541, in submit
return self.open(self.click(*args, **kwds))
File "C:\Python27\lib\site-packages\mechanize\_mechanize.py", line 203, in open
return self._mech_open(url, data, timeout=timeout)
File "C:\Python27\lib\site-packages\mechanize\_mechanize.py", line 255, in _mech_open
raise response
httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

пожалуйста, помогите и спасибо

Serial 18.04.2013 источник

comment

В конечном итоге Google временно забанит вас, если вы сделаете это слишком много раз. Программное использование поиска Google — это платная услуга, предоставляемая API пользовательского поиска (100 бесплатных запросов в день для разработки). - David 19.04.2013

comment

Эта проблема очень похожа на urllib2.HTTPError: HTTP Error 403: Forbidden< /а> - Supreet Sethi 06.11.2017

Ответы (2)

arrow_upward
6
arrow_downward

Вы можете указать Mechanize игнорировать файл robots.txt:

browser.set_handle_robots(False)

Blender 18.04.2013

comment

теперь я получаю это httperror_seek_wrapper: Ошибка HTTP 403: Запрещено - Serial; 19.04.2013

comment

@ChristianCareaga: вам нужно изменить свой пользовательский агент: views.scraperwiki.com/run/python_mechanize_cheat_sheet? - Blender; 19.04.2013

arrow_upward
2
arrow_downward

Mechanize пытается соблюдать ограничения сканирования, объявленные файлом /robots.txt на сайте. Здесь Google не хочет, чтобы сканеры индексировали его поисковые страницы.

Вы можете игнорировать это ограничение:

browser.set_handle_robots(False)

как указано в Web Crawler — игнорировать файл Robots.txt?

Кроме того, я бы рекомендовал вместо этого использовать API пользовательского поиска Google, который предоставляет правильный API с легко анализируемыми результатами.

Nicolas Cortot 18.04.2013

Путь вокруг HTTP 403 с python

Ответы (2)

Похожие вопросы