Упражнение със задача да се свържете със страницата и да получите информация от там

В момента работя върху тази задача: Използвайте BeautifulSoup и изисква пакети на Python, за да отпечатате списък на всички заглавия на статии на началната страница на New York Times. Засега мога да се свържа само със страницата:

import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.nytimes.com/")
if r.status_code == 200:
    print("Page opened successfully.")
    soup = BeautifulSoup(r.text,'html.parser')
else:
    print("Page not found!")
    exit(1)
r_html = r.text
exit(0)

И така... въпросът ми е как мога да използвам bs4 библиотека и изходен код от страницата, за да намеря информацията, която искам от там (списък със статии от началната страница)?


person Hubertius    schedule 08.08.2020    source източник


Отговори (1)


Критерият/критериите за сортиране (общи тагове или html свойства за статии) е основното предизвикателство. Това, което направих по-долу, е да взема всички заглавия на статии, които се появяват в етикета.

import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.nytimes.com/")
if r.status_code == 200:
    print("Page opened successfully.")
    soup = BeautifulSoup(r.text,'html.parser')
    result = soup.find_all('h2')
    headlines = []
    for i in result:
        if result.index(i) < len(result)-2:
            headlines.append(i.text)
else:
     print("Page not found!")
    exit(1)
r_html = r.text
print(headlines)
exit(0)

Може да отделите известно време, за да проучите изходния код на страницата, тъй като това ще ви даде по-добра представа кои свойства са уникални за заглавията на статиите (с него можете по-добре да изчерпвате информацията, която искате)

person Seyi Daniel    schedule 08.08.2020