Базирана на Python обиколка с екскурзовод за декодиране на променливостта на данните

Склонни сме да опростяваме нещата бързо, но също така можем да мислим бавно и да се справяме със сложността.

В книгата си „Мислене, бързо и бавно“ Даниел Канеман обяснява нашата борба с разбирането на променливостта на данните.

Ще използваме данните за емисиите на CO2 на Python и Gapminder, за да се справим с тази сложност. Ще видим как емисиите са се променили с времето, различават се от място на място и защо е трудно да се обобщава.

Нека да разгледаме четири практически примера за кодиране, за да получим по-ясна представа за променливостта на данните.

Като изпробвате тези примери, ще научите повече за глобалните емисии на CO2 — и ще подобрите способността си да забелязвате детайли в данните.

Пример 1: Променливост на емисиите на CO2 във времето

Първо, ще разгледаме данните за CO2 емисиите на Китай във времето.

Наборът от данни, който използваме, е достъпен в github.

За първия пример използвам връзката към github за моя URL адрес (също изтеглих файла като CSV за следващите примери).

import pandas as pd
import matplotlib.pyplot as plt

url = "https://raw.githubusercontent.com/open-numbers/ddf--gapminder--systema_globalis/master/countries-etc-datapoints/ddf--datapoints--co2_emissions_tonnes_per_person--by--geo--time.csv"
co2_emissions = pd.read_csv(url)

# Selecting CO2 emissions for China
china_co2 = co2_emissions[co2_emissions['geo'] == 'chn']

plt.plot(china_co2['time'], china_co2['co2_emissions_tonnes_per_person'], color=['red'] )
plt.title('Variability in CO2 Emissions of China Over Time')
plt.xlabel('Year')
plt.ylabel('CO2 Emissions (Tonnes per person)')
plt.show()

Данните се зареждат от URL в pandas DataFrame с помощта на функцията pd.read_csv(). DataFrame, co2_emissions, съдържа данни за емисиите на CO2 за множество държави за няколко години.

co2_emissions DataFrame се филтрира, за да избере само редовете, където колоната „geo“ (която представлява държавата) е „chn“ (кодът за Китай). Това подмножество от данни се съхранява в нова DataFrame, china_co2