Проучвателният анализ на данни е най-важната и първата стъпка, в която откриваме модели и тенденции в набора от данни. Днес ще ви покажа най-лесния и бърз начин за извършване на проучвателен анализ на данни само с няколко реда код в Python. Проучвателният анализ на данни е процес, при който ние сме склонни да анализираме набора от данни и да обобщим основните характеристики на набора от данни, често използвайки визуални методи. EDA е наистина важно, защото ако не сте запознати с набора от данни, върху който работите, тогава няма да можете да направите извод от тези данни. EDA обаче обикновено отнема много време. Но днес ще научим най-бързия начин да направим EDA.

В тази статия ще работим върху автоматизирането на използването на EDA

  1. ) Sweetviz
  2. ) Профилиране на Pandas.

Това са библиотека на python, която генерира красиви визуализации с висока плътност, за да стартирате вашия EDA. Нека първо разгледаме подробно Sweetviz и по-късно ще преминем към Pandas Profiling.

Инсталиране на Sweetviz

Както всяка друга библиотека на python, можем да инсталираме Sweetviz, като използваме командата pip install, дадена по-долу.

pip install sweetviz

Анализиране на набор от данни

В тази статия ще използваме набор от рекламни данни, който съдържа 4 атрибута и 200 реда. Първо, трябва да заредим използващите pandas.

import pandas as  pd
df = pd.read_csv('Advertising.csv')

Sweetviz има функция, наречена Analyze(), която анализира целия набор от данни и предоставя подробен отчет с визуализация.

Нека анализираме нашия набор от данни, като използваме командата, дадена по-долу.

#importing sweetviz
import sweetviz as sv
#analyzing the dataset
advert_report = sv.analyze(df)
#display the report
advert_report.show_html('Advertising.html')

И ето, както можете да видите по-горе, нашият доклад на EDA е готов и съдържа много информация за всички атрибути. Лесно е за разбиране и се подготвя само в 3 реда код.

Сега нека да преминем към профилирането на Panda

Инсталиране на Pandas Profiling

Както направихме за sweetviz, трябва да инсталираме pandas-profiling, като използваме командата pip install, дадена по-долу.

pip install pandas-profiling

Сега нека използваме тази библиотека в набор от данни на Kaggle (класификация на риска от рак на маточната шийка) и да преминем през изхода. Използвайки кодовия фрагмент по-долу, генерирах подробен отчет за данните с помощта на модула Pandas ProfileReport.

# import the pandas profile library
from pandas_profiling import ProfileReport
# load the data from Kaggle
train1=pd.read_csv(“/kaggle/input/cervical-cancer-risk-classification/kag_risk_factors_cervical_cancer.csv”)
# data cleaning
train2 = train1.replace(‘?’, np.nan)
# creating profile report
report = ProfileReport(train2, title=’Profile Report’, html={‘style’:{‘full_width’:True}})

Ето моментна снимка на резултата:

Както можете да видите от моментната снимка, наведнъж получавате всички важни изводи от данните. Това е само разделът Общ преглед. Можете да се задълбочите в характеристиките на всяка променлива, като щракнете върху раздела Променливи.

Тук получаваме описание на данните и тяхното разпространение. Този изход се дава за всяка променлива в данните поотделно. Следва разделът Корелации. За променливите са предвидени пет вида корелации. Можете да анализирате всяка корелация, за да разберете връзката между целевата и зависимите променливи.

Следващият раздел е за Липсващи стойности. Анализът на липсващата стойност се показва в пет различни изходни формата. Стълбовата диаграма за преброяване предоставя бърз преглед на броя на липсващите стойности за всяка променлива. Има също матрица, топлинна карта и дендрограма, които осигуряват хубаво картинно представяне на всички липсващи стойности в данните.

Последният раздел в отчета на профила предоставя Извадка от първите и последните няколко реда от набора от данни.

Като цяло и двете библиотеки са отлични и намаляват усилията, свързани с изследването на данни, тъй като всички ключови резултати от EDA са част от отчета на профила. Бих предложил да използвате и двете библиотеки, за да получите един и същ набор от данни и да сравните резултатите си. Въз основа на този отчет може да се извърши допълнително проучване на данните.

Преди да тръгнеш

Благодаря, че прочетохте! Ако искате да се свържете с мен, можете да се свържете с мен на [email protected] или на моя Профил в LinkedIn. Можете също да видите кода и данните, които използвах тук, в моя Github.