Я использую BeautifulSoup и механизацию, чтобы найти контент с веб-страницы. Дело в том, что ИНОГДА искомая строка не найдена. не знаю в чем может быть проблема
Он работал нормально в течение многих месяцев для многих веб-страниц, но внезапно перестал работать. Затем я должен перезапустить свою программу и надеяться на правильный результат.
Проблема в data.find(text=re.compile('string to find'))
. Веб-страница всегда загружается, но строка иногда не найдена. Думаю проблема может быть в неправильном HTML
форматировании загружаемой страницы? Есть идеи?
Вот очень небольшая часть кода, с которым я работаю, и это только для вашего обзора.
from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re
def get_page(url):
mech = Browser()
page = mech.open(url)
return page.read()
def test():
data = soup(get_page('some url'))
div_pages = data.find(text=re.compile('string to find'))
try: pager = div_pages.strip().split(' ')
except:
print div_pages
sys.exit()
print 'ok'
if __name__ == '__main__':
test()