Използвам BeautifulSoup и mechanise, за да намеря малко съдържание от уеб страница. Работата е там, че ПОНЯКОГА низът, който търся, не се намира. Не знам какво може да е проблемът
Работеше добре в продължение на много месеци за много уеб страници, но изведнъж спря да работи. След това трябва да рестартирам програмата си и да се надявам на правилния резултат.
Проблемът е в data.find(text=re.compile('string to find'))
. Уеб страницата винаги се изтегля, но понякога низът не се намира. Мисля, че проблемът може да е в грешно HTML
форматиране на заредената страница? Някаква идея?
Ето много малка част от кода, с който работя и е само за преглед от вас
from BeautifulSoup import BeautifulSoup as soup
from mechanize import Browser
import sys, re
def get_page(url):
mech = Browser()
page = mech.open(url)
return page.read()
def test():
data = soup(get_page('some url'))
div_pages = data.find(text=re.compile('string to find'))
try: pager = div_pages.strip().split(' ')
except:
print div_pages
sys.exit()
print 'ok'
if __name__ == '__main__':
test()