Проучвателен анализ на данни: ръководство; използване на библиотеки на Python

Разбирането на данните е ключово, когато сте в сферата на света на данните, независимо дали сте инженер по данни, анализатор на данни, инженер по ML/AI или учен по данни.

В тази статия ще разкажа как проучвам, анализирам и визуализирам набора от данни за имоти от Ню Йорк, това е малък набор от данни. Тази статия е насочена към начинаещи, които търсят идеи как да разберат набор от данни.

Файловете с код и данни са тук в GitHub.

Да започнем с разбирането; Какво е проучвателен анализ на данни (EDA)?

EDA обикновено е стъпката, която идва веднага след събирането на данни, преди да преминем към моделирането. За да получите точен модел, ефективното боравене с данни на тази стъпка от EDA е от съществено значение.

Какви стъпки включва EDA, ще попитате, ето го:

Анализът започва със задаване на въпросите.

Каква е нашата цел с тези данни?
Защо анализираме тези данни?
Как ще получим отговорите?

Разгледайте набора от данни, който взех, набора от данни за свойствата.

Интуиция:

Аз съм човек, който търси дом в Ню Йорк в тези пощенски кодове. Въпросите, които задавам са:

„Цената“ ще бъде етикетът; у-оста. Другите стойности да бъдат във връзка с Цената, за да ми помогнат да определя дали да купя или не.

Сега имам въпроси, на които трябва да отговоря този набор от данни. Ще започна да се карам; което по същество е почистване на данните и трансформиране на функции, ако е необходимо.

Заредих данните в рамка с данни „property_data“ и данните изглеждат така:

С помощта на атрибута shape можем да видим, че наистина работим с малък набор от данни от 183 реда и 9 колони. Описателната статистика, използваща метода describe, дава статистика само за пощенския_код, защо е така, нека разберем с помощта на атрибута dtypes, за да намерим типовете

СРЕЩУВАНЕ НА ДАННИ И ТРАНСФОРМАЦИЯ НА ХАРАКТЕРИСТИКИ

Освен poštanski_код, всички останали са низове, ще трябва да направим някои трансформации на функции, само с низове би било трудно да се получи добра точност на модела.

Нека проверим дали има някакви нули,

Освен недвижимите имоти, никакви други функции нямат нулеви стойности, доста чист набор от данни тук. Ще премахна колоните „недвижими имоти“ и „url“, защото според мен те може да не дадат много информация.

Забележка: Не публикувам всички екранни снимки, тъй като всичко е в качения код.

Тъй като иначе данните са чисти, нека направим някои трансформации на функции, за да получим повече подробности.

От колоните „факти и характеристики“, извличане на легла, бани и информация за sqft, преобразуване в цифрови и всяко легло, което чете „Студио“, присвоява като 0.

От колоната „цена“, това, което знаем за колоната с цените, е, че тя е в низ и има запетаи при преобразуване в цифри, не можем да имаме запетаи, така че ще ги разделим и ще съединим отново низа без запетаите, преди да конвертираме ги към числови,

От колоната „заглавие“ можем да извлечем вида на имота, независимо дали е апартамент, апартамент, възбрана.

След спорове окончателният набор от данни преди визуализацията.

А типовете данни са:

ВИЗУАЛИЗАЦИЯ НА ДАННИ

От изображението по-горе данните изглеждат малко изкривени, повечето от обявите са тип апартамент, това потенциално може да причини проблем с моделирането.

Нека да разгледаме други визуализации, които биха помогнали да отговорят на въпросите, за които говорихме по-рано

Въпросите бяха:

Цена спрямо броя легла, бани и квадратни фута

2.Цената е в зависимост от вида на имота

3.Цената спрямо града и пощенския код

ЗАКЛЮЧЕНИЕ

От този набор от данни може да се предположи, че тези данни може да не ни дадат точни прогнози, когато моделираме, тъй като имаме някои изкривявания в данните с повече информация само за наличните апартаменти; и се нуждаят от повече разнообразни данни, за да получат по-точни модели. Заключението би било да се върнем назад и да съберем повече данни, за да получим точни резултати за моделиране. И също така, че имотите в Ню Йорк са наистина скъпи 😊.

Твърди се, че 90% от световните данни в необработен формат са неструктурирани. Предпоставка за машинно обучение е да имате чисти данни като вход. Модифицирането на данни, обединяването на данни, премахването на нулеви типове данни става много важно. Става необходимо за ML/Ai инженерите, учените по данни и всеки, работещ в областта на данните, да е добре запознат с EDA.

ПРЕПРАТКИ

PyData Cheatsheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
Използвани библиотеки на Python: Pandas, Seaborn, Matplotlib
Python се използва за Data Wrangling и визуализация
R е добър за статистически анализ, създаден от статистици, python е по-скоро за общо предназначение.
Pandas: Два основни типа данни — Серия и рамка с данни (Колекция от серии)