В науката за данни две често използвани структури от данни в библиотеката на Pandas са Series и DataFrames.
- Поредици:
Поредицата е едномерен етикетиран масив, който може да съдържа всеки тип данни, като цели числа, низове, плаващи числа и обекти. Подобно е на колона в електронна таблица или SQL таблица.
Тук данните могат да бъдат от всеки тип данни, а индексът е списък с етикети за данните. Ако индексът не е посочен, тогава ще се използват целочислените етикети по подразбиране.
Например:
import pandas as pd s = pd.Series([3, 6, 9, 12, 15]) print(s) #output 0 3 1 6 2 9 3 12 4 15 dtype: int64
- DataFrames:
DataFrames са двуизмерни етикетирани масиви, които могат да съдържат данни от различни типове данни в колони. Подобно е на електронна таблица или SQL таблица. Синтаксисът за създаване на DataFrame е както следва:
import pandas as pd df = pd.DataFrame(data, columns=columns)
Тук данните могат да бъдат речник, списък със списъци, numpy ndarray или друга DataFrame. Параметърът columns не е задължителен и може да се използва за указване на етикетите на колоните. Ако колоните не са зададени, тогава ще се използват целочислените етикети по подразбиране.
Например:
import pandas as pd data = {'name': ['John', 'Mary', 'Peter', 'Lisa'], 'age': [25, 30, 35, 40], 'gender': ['M', 'F', 'M', 'F']} df = pd.DataFrame(data) print(df) #output name age gender 0 John 25 M 1 Mary 30 F 2 Peter 35 M 3 Lisa 40 F
Благодаря, че прегледахте блога ми, въпреки че беше малък, но по-важно нещо, което трябва да знаете, преди да проучим рамката на pandas.
Очаквайте следващия блог за различни функции на pandas, използвани в ежедневните дейности от учените по данни.
Благодаря ти!!