В съседство Data Scientist

Винаги е много по-лесно да се разберат сложни взаимоотношения и прозрения, ако са представени като визуални представяния. Те просто естествено са по-привлекателни за индивида. Техниките за визуализация на данни, които се стремим да разгледаме, не служат само за естетическа цел, те имат мощната способност да предоставят смислени прозрения само с един поглед! Те също така правят разглеждането на купища точки от данни в набор от данни много по-лесно.

1. Кутия Парцела

Графиките с кутии са един от най-популярните видове техники за визуализация на данни, тъй като улавят ключови статистически параметри, включително-

A) IQR (Интерквартилен диапазон) — За разлика от диапазона, интерквартилният диапазон е устойчив на отклонения и на свой ред може да помогне при определяне на отклонение от набора от данни. Той също така ни казва колко разпределени са нашите средни 50%.

B) Първи квартил (25% от данните), медиана (50% от данните) и трети квартил (75% от данните)

C) Максимални и минимални стойности

D) Извънредни стойностиТова е една от малкото техники за визуализация на данни, която позволява да се визуализират извънредни стойности. Друга обещаваща техника е използването на диаграмата на разсейване.

Проверката за отклонения е важна стъпка в нашата EDA. Има много алгоритми за машинно обучение, които са чувствителни към отклонения, нека разгледаме модела на линейна регресия като пример. Този алгоритъм конструира най-подходящата линия, използвайки наличните точки от данни и в случай че нашият набор от данни се състои от много отклонения, най-подходящата линия, генерирана от този алгоритъм, ще бъде компрометирана. По този начин се намалява точността на прогнозата.

2. Сюжет за цигулка

Макар и рядък и считан за малко по-ангажиращ, диаграмата на цигулката улавя плътността на разпределението на числовите данни. Тази диаграма често се наслагва върху диаграмата в кутия, за да покаже допълнително статистически характеристики като тези, споменати в предишния раздел.

Сюжетът на цигулката е популярен избор, когато става въпрос за сравнения между различни групи.

3. Хистограма

Друга много популярна техника за визуализация на данни е хистограмата. Този график се използва за визуализиране на разпределението на непрекъсната променлива чрез създаване на „контейнери“ от стойности и честотата на стойностите, попадащи в контейнер, се показват на графиката.

Хистограмата също ни казва за разпределението на набора от данни (т.е. дали данните саизкривени или симетрични). Защо ни е грижа за разпространението на нашите данни? Ако нашите данни са изкривени, това означава, че наборът от данни съдържа извънредни стойности и както видяхме в по-ранните раздели, тези извънредни стойности са склонни да влошават точността на прогнозата, направена от моделите.