Базирана на Python обиколка с екскурзовод за декодиране на променливостта на данните
Склонни сме да опростяваме нещата бързо, но също така можем да мислим бавно и да се справяме със сложността.
В книгата си „Мислене, бързо и бавно“ Даниел Канеман обяснява нашата борба с разбирането на променливостта на данните.
Ще използваме данните за емисиите на CO2 на Python и Gapminder, за да се справим с тази сложност. Ще видим как емисиите са се променили с времето, различават се от място на място и защо е трудно да се обобщава.
Нека да разгледаме четири практически примера за кодиране, за да получим по-ясна представа за променливостта на данните.
Като изпробвате тези примери, ще научите повече за глобалните емисии на CO2 — и ще подобрите способността си да забелязвате детайли в данните.
Пример 1: Променливост на емисиите на CO2 във времето
Първо, ще разгледаме данните за CO2 емисиите на Китай във времето.
Наборът от данни, който използваме, е достъпен в github.
За първия пример използвам връзката към github за моя URL адрес (също изтеглих файла като CSV за следващите примери).
import pandas as pd import matplotlib.pyplot as plt url = "https://raw.githubusercontent.com/open-numbers/ddf--gapminder--systema_globalis/master/countries-etc-datapoints/ddf--datapoints--co2_emissions_tonnes_per_person--by--geo--time.csv" co2_emissions = pd.read_csv(url) # Selecting CO2 emissions for China china_co2 = co2_emissions[co2_emissions['geo'] == 'chn'] plt.plot(china_co2['time'], china_co2['co2_emissions_tonnes_per_person'], color=['red'] ) plt.title('Variability in CO2 Emissions of China Over Time') plt.xlabel('Year') plt.ylabel('CO2 Emissions (Tonnes per person)') plt.show()
Данните се зареждат от URL в pandas DataFrame с помощта на функцията pd.read_csv()
. DataFrame, co2_emissions
, съдържа данни за емисиите на CO2 за множество държави за няколко години.
co2_emissions
DataFrame се филтрира, за да избере само редовете, където колоната „geo“ (която представлява държавата) е „chn“ (кодът за Китай). Това подмножество от данни се съхранява в нова DataFrame, china_co2