Проучвателният анализ на данни е най-важната и първата стъпка, в която откриваме модели и тенденции в набора от данни. Днес ще ви покажа най-лесния и бърз начин за извършване на проучвателен анализ на данни само с няколко реда код в Python. Проучвателният анализ на данни е процес, при който ние сме склонни да анализираме набора от данни и да обобщим основните характеристики на набора от данни, често използвайки визуални методи. EDA е наистина важно, защото ако не сте запознати с набора от данни, върху който работите, тогава няма да можете да направите извод от тези данни. EDA обаче обикновено отнема много време. Но днес ще научим най-бързия начин да направим EDA.
В тази статия ще работим върху автоматизирането на използването на EDA
- ) Sweetviz
- ) Профилиране на Pandas.
Това са библиотека на python, която генерира красиви визуализации с висока плътност, за да стартирате вашия EDA. Нека първо разгледаме подробно Sweetviz и по-късно ще преминем към Pandas Profiling.
Инсталиране на Sweetviz
Както всяка друга библиотека на python, можем да инсталираме Sweetviz, като използваме командата pip install, дадена по-долу.
pip install sweetviz
Анализиране на набор от данни
В тази статия ще използваме набор от рекламни данни, който съдържа 4 атрибута и 200 реда. Първо, трябва да заредим използващите pandas.
import pandas as pd df = pd.read_csv('Advertising.csv')
Sweetviz има функция, наречена Analyze(), която анализира целия набор от данни и предоставя подробен отчет с визуализация.
Нека анализираме нашия набор от данни, като използваме командата, дадена по-долу.
#importing sweetviz import sweetviz as sv #analyzing the dataset advert_report = sv.analyze(df) #display the report advert_report.show_html('Advertising.html')
И ето, както можете да видите по-горе, нашият доклад на EDA е готов и съдържа много информация за всички атрибути. Лесно е за разбиране и се подготвя само в 3 реда код.
Сега нека да преминем към профилирането на Panda
Инсталиране на Pandas Profiling
Както направихме за sweetviz, трябва да инсталираме pandas-profiling, като използваме командата pip install, дадена по-долу.
pip install pandas-profiling
Сега нека използваме тази библиотека в набор от данни на Kaggle (класификация на риска от рак на маточната шийка) и да преминем през изхода. Използвайки кодовия фрагмент по-долу, генерирах подробен отчет за данните с помощта на модула Pandas ProfileReport.
# import the pandas profile library from pandas_profiling import ProfileReport # load the data from Kaggle train1=pd.read_csv(“/kaggle/input/cervical-cancer-risk-classification/kag_risk_factors_cervical_cancer.csv”) # data cleaning train2 = train1.replace(‘?’, np.nan) # creating profile report report = ProfileReport(train2, title=’Profile Report’, html={‘style’:{‘full_width’:True}})
Ето моментна снимка на резултата:
Както можете да видите от моментната снимка, наведнъж получавате всички важни изводи от данните. Това е само разделът Общ преглед. Можете да се задълбочите в характеристиките на всяка променлива, като щракнете върху раздела Променливи.
Тук получаваме описание на данните и тяхното разпространение. Този изход се дава за всяка променлива в данните поотделно. Следва разделът Корелации. За променливите са предвидени пет вида корелации. Можете да анализирате всяка корелация, за да разберете връзката между целевата и зависимите променливи.
Следващият раздел е за Липсващи стойности. Анализът на липсващата стойност се показва в пет различни изходни формата. Стълбовата диаграма за преброяване предоставя бърз преглед на броя на липсващите стойности за всяка променлива. Има също матрица, топлинна карта и дендрограма, които осигуряват хубаво картинно представяне на всички липсващи стойности в данните.
Последният раздел в отчета на профила предоставя Извадка от първите и последните няколко реда от набора от данни.
Като цяло и двете библиотеки са отлични и намаляват усилията, свързани с изследването на данни, тъй като всички ключови резултати от EDA са част от отчета на профила. Бих предложил да използвате и двете библиотеки, за да получите един и същ набор от данни и да сравните резултатите си. Въз основа на този отчет може да се извърши допълнително проучване на данните.
Преди да тръгнеш
Благодаря, че прочетохте! Ако искате да се свържете с мен, можете да се свържете с мен на [email protected] или на моя Профил в LinkedIn. Можете също да видите кода и данните, които използвах тук, в моя Github.