Тъй като данните са в основата на машинното обучение, е неизбежно работата на всички алгоритми за машинно обучение да бъде пряко повлияна от качеството на входните данни. Поговорката Боклук в боклука навънважи и в случая с машинното обучение: използването на данни с лошо качество може да подведе процеса на обучение и да доведе до неточни модели, по-дълго време за обучение и в крайна сметка лоши резултати. От друга страна, алгоритмите за машинно обучение, обучени върху точни, чисти и добре етикетирани данни, могат да идентифицират моделите, скрити в данните, и да произвеждат модели, които предоставят прогнози с висока точност. Поради тази причина е много важно да се разбере входът, да се открият и адресират всички проблеми, засягащи качеството му, преди подаването на входа към алгоритъма за машинно обучение.

В останалата част от тази статия обсъждаме кои показатели можете да използвате, за да оцените качеството на данните и начините за справяне с откритите проблеми.

Оценка на качеството на данните

Има много аспекти на качеството на данните и различни измерения, които човек може да вземе предвид, когато оценява наличните данни. Някои от най-често срещаните аспекти, изследвани в процеса на оценка на качеството на данните, са следните:

Брой липсващи стойности. Повечето набори от данни в реалния свят съдържат липсващи стойности, т.е. записи на характеристики без съхранена стойност на данни. Тъй като много алгоритми за машинно обучение не поддържат липсващи стойности, откриването на липсващите стойности и правилното им боравене може да има значително въздействие.

Наличие на дублирани стойности. Дублиращите се стойности могат да приемат различни формати, като например множество записи на една и съща точка от данни, множество екземпляри на цяла колона и повторение на една и съща стойност в ID. променлива. Въпреки че дублиращите се екземпляри може да са валидни в някои набори от данни, те често възникват поради грешки в процесите на извличане и интегриране на данни. Следователно е важно да откриете всички дублиращи се стойности и да решите дали съответстват на невалидни стойности (истински дубликати) или формират валидна част от набора от данни.

Наличие на извънредни стойности/аномалии. Отклоненията са точки от данни, които се различават значително от останалите данни и могат да възникнат поради разнообразието на набора от данни или поради грешки/грешки. Тъй като алгоритмите за машинно обучение са чувствителни към диапазона и разпределението на стойностите на атрибутите, идентифицирането на отклоненията и тяхното естество е важно за оценка на качеството на набора от данни.

Наличие на невалидни/лошо форматирани стойности. Наборите от данни често съдържат непоследователни стойности, като например променливи с различни единици в точките за данни и променливи с неправилен тип данни. Например, често се случва някои специални числови променливи, като проценти и дроби, да се съхраняват погрешно като низове и трябва да се открият и трансформират такива случаи, така че алгоритъмът за машинно обучение да може да работи с действителните числа.

Подобряване на качеството на данните

След като проучите данните, за да оцените качеството им и да получите задълбочено разбиране на набора от данни, е важно да разрешите всички открити проблеми, преди да продължите към следващите етапи от процеса на машинно обучение. По-долу даваме някои от най-често срещаните начини за справяне с подобни проблеми.

Обработка на липсващи стойности. Има различни начини за справяне с липсващи данни въз основа на техния брой и тип данни:

  • Премахване на липсващите данни. Ако броят точки с данни, съдържащи липсващи стойности, е малък и размерът на набора от данни е достатъчно голям, можете да премахнете такива точки с данни. Освен това, ако дадена променлива съдържа много голям брой липсващи стойности, тя може да бъде премахната.
  • Уменение. Ако броят на липсващите стойности не е достатъчно малък, за да бъдат премахнати, и не е достатъчно голям, за да представлява значителна част от записите на променливите, можете да замените липсващите стойности в цифрова променлива със средната/медианата на не- липсващи записи и липсващите стойности в категориална променлива с режима, който е най-честият запис на променливата.

Справяне с дублирани стойности. Истинските дубликати, т.е. екземпляри на една и съща точка от данни, обикновено се премахват. По този начин се елиминира увеличаването на теглото на извадката в тези точки и се намалява рискът от изкуствено увеличаване на показателите за ефективност.

Справяне с извънредни стойности. Както в случая с липсващи стойности, обичайните методи за справяне с откритите извънредни стойности включват премахване на извънредните стойности и приписване на нови стойности. Въпреки това, в зависимост от контекста на набора от данни и броя на отклоненията, запазването на отклоненията непроменени може да бъде най-подходящият курс на действие. Например, запазването на извънредните стойности би било предложено в набор от данни, където броят на извънредните стойности не е много малък, тъй като те може да са необходими за правилното разбиране на набора от данни.

Преобразуване на неправилно форматирани стойности. Всички неправилно формирани стойности се преобразуват и съхраняват с правилния тип данни. Например числови променливи, които се съхраняват като низове, се преобразуват в съответните числа, а низове, които представляват дати, се съхраняват като обекти за дата. Освен това е важно да конвертирате и да се уверите, че всички записи в променлива съответстват на една и съща единица, тъй като в противен случай сравненията между записите на променливата няма да съответстват на истинските сравнения.

Както видяхме, разбирането на качеството на входа и подготовката на набора от данни, така че всички проблеми да бъдат разрешени, са необходими за алгоритмите за машинно обучение, за да произвеждат точни прогнози. Въпреки че могат да бъдат трудоемки, много е важно да ги включите в тръбопровода за машинно обучение, тъй като ако не го направите, това може да доведе до ненадеждни решения.

Ние от TurinTech AI, като учени и изследователи на данни, разбираме, че почистването на данни и оценката на качеството на данните може да отнеме много време и да бъде разочароващо. По този начин, когато изграждаме EvoML, цялостна платформа за AI оптимизация, ние се погрижихме да включим функция, чрез която специалистите по данни могат автоматично да проверяват качеството на своите данни и да прилагат съответните техники, за да ги направят готови за AI. Както можете да видите на Фигура 1, EvoML автоматично оценява качеството на входните данни, предоставя отчети за качеството на данните, използвайки лесни за разбиране етикети и статистики, и адресира всички открити проблеми. С EvoML подготовката на данните може да бъде по-бърза и лесна, което ви позволява да отделите повече време за разбиране и трансформиране на данни за по-добра производителност на модела.

За автора

Д-р Кристала Павлоу​ | Изследователски екип на TurinTech

Завършил докторска степен по компютърни науки с магистърска степен по теоретични компютърни науки и степен по електротехника и компютърно инженерство. Обича да чете и да се разхожда.

Относно TurinTech

TurinTech е лидер в оптимизацията на изкуствения интелект. TurinTech дава възможност на бизнеса да изгради ефективен и мащабируем AI чрез автоматизиране на целия жизнен цикъл на науката за данни с многоцелева оптимизация. TurinTech позволява на организациите да управляват AI трансформация с минимални човешки усилия, в мащаб и с висока скорост.

TurinTech — AI. Оптимизирано.

Научете повече за TurinTech
Следвайте ни в социалните медии: LinkedIn и Twitter