Лошо качество на данните: Чудовището на Франкенщайн за вашите модели за машинно обучение

Какво е общото между готвача и специалиста по данни?

Чувствате се изключително гладни. Купили сте списък със съставки от хранителния магазин, за да приготвите вкусно ястие за вечерта. Започвате да готвите, добавяйки различни вкусове, за да подправите нещата. Но скоро ви очаква проблем, който ще развали настроението на цялата вечер.

Когато храната е готова, отхапвате първата хапка, само за да разберете, че нещо не е наред. Има „лош“ вкус. И тогава разбирате, че някои от използваните съставки при приготвянето на храната са били с лошо качество, което е довело до това, че цялото ястие не се е получило, както сте се надявали.

Нека приложим същата аналогия към ландшафта на науката за данни. Тук храната се отнася до модела за машинно обучение, който разработвате, а съставките се отнасят до данните, които използвате, за да подадете в модела.

Ако данните са с лошо качество, такъв ще бъде и моделът, а оттам и прогнозите. В света на компютрите това се нарича GARBAGE IN, GARBAGE OUT.

Ако все още не сте сигурни как да започнете с машинно обучение без никакво кодиране, „тази статия“ ви помага.

Имате правилните данни, но все още търсите правилната ML платформа? Вие сте попаднали на правилното място. „Изпробвайте AI & Analytics безплатно за 2 седмици!“

Първо детектив, по-късно специалист по данни

Ако мъдростта беше млада, тя щеше да ви каже да проучите качеството на вашите данни, преди да изградите модел за машинно обучение. Преди да поемете ролята на учен по данни, може да искате да си сложите шапката на детектив, за да разследвате и изследвате качеството на данните, намиращи се във вътрешните системи на вашата компания. Трябва също така да сте сигурни, че вашата компания е наистина готова да поеме AI/ML проект.

Внимавайте за тези най-често срещани проблеми с качеството на данните

Ще прегледаме някои от най-често срещаните проблеми с качеството на данните, които може да срещнете, когато работите с набори от данни от реалния свят. Целта тук не е да се хвърли светлина върху това защо възникват тези проблеми и какво може да се направи, за да бъдат разрешени, а просто да се направи преглед на най-често срещаните проблеми, на които може да се натъкнете и за които трябва да внимавате. Някои от тези проблеми могат да бъдат коригирани чрез вашия процес на „почистване на данни“.

За да илюстрираме нашата гледна точка, имаме таблица по-долу, която изброява имената на служителите, работещи в дадена компания, тяхната възраст, отдел и началната и крайната дата на договора им.

Преди да продължите да четете, ви предлагаме да погледнете таблицата и да се опитате да разберете дали можете да забележите проблеми с качеството на данните. (Забелязахте ли ги всички?)

1. Липсващи данни

Както можете да видите в таблицата по-горе, има много NULL стойности, което означава, че данните липсват. Един опростен подход би бил да се игнорират всички такива редове, които имат липсващи стойности, но компромисът е, че това би довело до загуба на информация, която би могла да помогне на модела да се обучи и да научи основните тенденции и модели в данните.

2. Невалидни данни

Обърнете внимание на последния ред в таблицата. Забелязвате ли нещо странно?

Ah37@ не отговаря на стандартите, които едно име трябва да има. КолонатаИме трябва да се състои само от азбуки, но Ah37@ съдържа азбуки, числа и буквено-цифрови знаци.

Това е пример за невалидни данни, при които даден запис не съответства на типа данни на колоната.

3. Непоследователни формати на данни

Такива проблеми обикновено възникват при работа с колони за дата-час. Погледнете датите contract_start и contract_end в последния ред и ги сравнете с другите стойности.

Датите във всички останали редове изглежда следват формата на датата ГГГГ-ММ-ДД, докато последният ред изглежда има формат ММ-ДД-ГГГГ. Всички дати трябва да са в един и същ формат.

Друг пример за противоречиви данни може да се намери, като се разгледат първите два реда в таблицата. И двата реда са за служителя Джон и данните във всички колони изглеждат еднакви с изключение на една колона: Отдел.

В първия ред виждаме, че Джон работи в Продажби, но ако сканираме втория ред, изглежда, че Джон работи в ИТ. Кое е правилното? Не е възможно един служител да работи в два различни отдела. Когато данните се компилират или обобщават от множество системи, работещи в силози, възникват такива проблеми.

4. Дубликати

Разгледайте редове шест и седми.

И двете са за един и същи служител Алекс и съдържат абсолютно същата информация. Това се нарича излишни данни, които трябва да бъдат проверени и дубликатите да бъдат премахнати, преди да продължите.

5. Бизнес логика

Погледнете по-отблизо първия ред в таблицата и обърнете специално внимание на дататаcontract_start и contract_end? Намирате ли нещо странно в тези дати?

На пръв поглед и двете дати изглеждат в правилния формат (ГГГГ-ММ-ДД). Но ако погледнете по-отблизо, ще забележите, че началната дата на договора е по-голяма от крайната дата на договора. Това означава, че договорът на Джон е започнал през 2021 г., но договорът му е приключил през 2020 г. Това противоречи на бизнес логиката, тъй като крайната дата на договора трябва да е след началната дата на договора.

Такива проверки трябва да се извършват, особено когато са включени дати. Датите трябва да се сравнят една с друга, за да се провери дали разликите изглеждат разумни. Това беше сравнително прост пример за илюстрация, но в една компания може да има сценарии, при които различни заинтересовани страни използват различни дати за измерване на KPI. При такива сценарии е изключително важно всички участващи заинтересовани страни да постигнат консенсус относно бизнес дефинициите.

Завийте

С огромните обеми данни, които се генерират ежедневно, организациите са изправени пред непрекъснато нарастващо предизвикателство да поддържат качеството на своите данни под контрол, в противен случай няма да могат да разгърнат истинския потенциал на своите данни, за да получат значима информация за вземане на решение. Ако фирмите наистина искат да бъдат част от революцията в данните, която се случва, тогава те трябва да предприемат навременни мерки, за да гарантират, че техните данни са висококачествени, последователни, точни и уместни.

Имате правилните данни, но не сте сигурни как да започнете да използвате машинно обучение за правене на прогнози? Няма проблем! „Резервирайте безплатна демонстрация при нас“ и ние ще ви помогнем да започнете!

Първоначално публикувано на https://www.pi.exchange.