Я пытаюсь очистить этот веб-сайт (нижняя таблица) https://www.eia.gov/dnav/ng/hist/rngwhhdD.htm, код которого я уже получил. Мне нужна помощь в очистке скопированных данных. (Мне просто нужен текст и удалить HTML-код/теги)
(Этот код ниже работает) (кстати, я делаю это в блокноте Jupyter)
Я пробовал ".text" и ".strip", но пока безуспешно.
import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
import csv
#open page and grab html
my_url = ('https://www.eia.gov/dnav/ng/hist/rngwhhdD.htm')
uClient = uReq(my_url)
page_html = uClient.read()
uClient.close
#HTML parser
page_soup = soup(page_html, 'html.parser')
#Find table
soup = page_soup.findAll("td",{"class":{"B6","B3"}})
#Print table
print(soup)
Я рассчитываю напечатать все без кодов HTML/тегов. Просто чистый текст в столбцах.