Я следую веб-учебнику, пытаясь использовать BeautifulSoup4 для извлечения данных из html-файла (хранящегося на моем локальном ПК) в Jupyterlab следующим образом:
from bs4 import BeautifulSoup
with open ('simple.html') as html_file:
simple = BeautifulSoup('html_file','lxml')
print(simple.prettify())
Я получаю следующий вывод независимо от того, что находится в html-файле вместо ожидаемого html
<html>
<body>
<p>
html_file
</p>
</body>
</html>
Я также пробовал это с помощью анализатора html html.parser, и я просто получаю html_file
в качестве вывода. Я знаю, что он может найти файл, потому что когда я запускаю код после его удаления из каталога, я получаю FileNotFoundError.
Он отлично работает, когда я запускаю python в интерактивном режиме из того же каталога. Я могу запускать другие BeautifulSoup для анализа веб-страниц.
Я использую Fedora 32 linux с Python3, Jupyterlab, BeautifulSoup4, request, lxml, установленными в виртуальной среде с помощью pipenv.
Приветствуется любая помощь в решении проблемы.