Как получить текущий URL-адрес проанализированной HTML-страницы в Python с помощью lxml?

В Python я анализирую различные URL-адреса, чтобы найти некоторые элементы в теле возвращаемого документа. Я использую для этого lxml, например:

import lxml.html as html

url = 'http://www.linktowebsite.com'
data = html.parse(url)

for d in data.xpath('body'):
    code code code

Однако некоторые URL-адреса перенаправляют на другую страницу, и я хочу знать текущий URL-адрес после перенаправления. Я ничего не нашел в документации lxml по этому поводу.

Как я могу найти текущий URL анализируемой/перенаправленной страницы?

Roland 30.12.2011 источник

comment

Посмотрите здесь stackoverflow.com/q/4902523/776084 - RanRag 30.12.2011

Ответы (1)

arrow_upward
4
arrow_downward

Используйте data.docinfo.URL документацию

Пример:

In [22]: data = html.parse('http://httpbin.org/redirect/2')

In [23]: data.docinfo.URL
Out[23]: u'http://httpbin.org/get'

reclosedev 30.12.2011

Как получить текущий URL-адрес проанализированной HTML-страницы в Python с помощью lxml?

Ответы (1)

Похожие вопросы