Я работаю над проектом по очистке веб-страниц и столкнулся с проблемами со скоростью. Чтобы попытаться это исправить, я хочу использовать lxml вместо html.parser в качестве парсера BeautifulSoup. Я смог сделать это:
soup = bs4.BeautifulSoup(html, 'lxml')
но я не хочу постоянно вводить 'lxml'
каждый раз, когда я вызываю BeautifulSoup. Есть ли способ установить, какой синтаксический анализатор использовать один раз в начале моей программы?
lxml
является значением по умолчанию вbs4
, если у вас установленоlxml
. Так что, если только вы не работаете с BeautifulSoup3... - person roippi   schedule 06.01.2015