Как извлечь с помощью XPath текст, содержащий ‹, не закодированный как

Я хочу извлечь некоторый текст из html-страницы с помощью Scrapy.

Один из элементов содержит символ <, который не закодирован как < (страница не является допустимым html).

Например

<div>
  years < 7
</div>

С XPath (в Chrome или в коде Scapy) с использованием '//div/text()' я могу извлечь только 'years'

Есть ли способ получить полный текст, т.е. 'years < 7'?

Go4It 13.11.2013 источник

comment

Что произойдет, если вы используете //div[not(*)] и получите .textContent результатов? - Tomalak 13.11.2013

Ответы (2)

arrow_upward
0
arrow_downward

вы можете использовать другой модуль вместо основного Выберите, например, я использую свой собственный

from lxml import etree
from lxml.html.clean import clean_html

import html5lib
from lxml.etree import XMLSyntaxError, XPathEvalErro

def parse_user(self, response):        
    m = smarte_html_parser.dive_html_root_level(html=response.body)

от Некоторых Титул лет ‹ 7

У меня лет ‹ 7

Andrei.Danciuc 13.11.2013

arrow_upward
1
arrow_downward

XPath работает на уровне DOM, а не на том, как что-то закодировано. XPath не видит, использовались ли сущности для определенных целей или нет. Это бизнес парсеров DOM. Таким образом, если анализатор DOM отбросил < 7, потому что не мог понять это, то XPath вообще не увидит эту часть.

Чтобы получить надежные результаты, исправьте HTML другими способами, прежде чем применять XPath.

Thomas W 13.11.2013

Как извлечь с помощью XPath текст, содержащий ‹, не закодированный как

Ответы (2)

Похожие вопросы