У меня есть базовый цикл для поиска ссылок на странице, которую я получил с помощью urllib2.urlopen, однако я пытаюсь следовать только внутренним ссылкам на странице.
Любые идеи, как заставить мой нижний цикл получать только ссылки, которые находятся в том же домене?
for tag in soupan.findAll('a', attrs={'href': re.compile("^http://")}):
webpage = urllib2.urlopen(tag['href']).read()
print 'Deep crawl ----> ' +str(tag['href'])
try:
code-to-look-for-some-data...
except Exception, e:
print e