Въведение в избора на екземпляри в извличането на данни

Изборът на екземпляри играе важна роля в предварителната обработка на данни за машинно обучение. Целта е да се намали количеството данни, използвани за откриване на знания. В идеалния случай това ще доведе до модел с (поне) същата производителност като модел, обучен с всички данни.

По-голямата част от тази публикация в блога, ако не е отбелязана по друг начин, е извлечена от глава 8 на García et al [1].

Цели на избора на екземпляри

Основната цел при избора на екземпляр е да се намери модел за извличане на данни, обучен върху подмножество от данни DMₛ, който се представя еднакво добре като модел, обучен върху целите данни DMₜ, оценен по дадена мярка за ефективност P.

Като цяло се преследват три цели, а именно Активиране, Фокусиранеи Почистване.

Активиране

Преди няколко години наборите от данни, използвани за машинно обучение, бяха много по-малки, отколкото са днес. Много пъти днес специалистите по данни се сблъскват с милиони точки от данни в единични набори от данни. Следователно, за да се напаснат смислени модели за разумно време, често е необходимо да се намали броят на случаите.

Следователно изборът на екземпляри позволяваалгоритмите да работят ефективно чрез намаляване на броя на екземплярите, с които да се обучава моделът.

Фокусиране

Много пъти наборите от данни съдържат информация за конкретен домейн (напр. разходи за здравеопазване). Все пак науката за данни често се фокусира върху конкретна част от домейн (напр. разходи, свързани с мигрена). Може да се наложи да се намалят точките от данни до конкретната част, следователно, фокусираневърху важните аспекти на набора от данни.

Почистване

Наборите от данни по-често съдържат излишни, шумни и дори грешни данни. Чрез предварително прилагане на методи за избор на екземпляр е възможно да се подобри качеството на данните чрез почистванеданните и премахване на излишни точки от данни.

Избор на прототип срещу набор за обучение

Изборът на прототип (PS) се основава на избора на подмножество от оригиналните данни за обучение и е разделен на три различни категории, а именно редакция, кондензация и хибридни подходи [2].

Основното предимство, посочено в PS методите, е способността да се избират подходящи примери, без да се генерират нови изкуствени данни [2, p.418].

Алгоритмите на изданието избират да елиминират определени точки от данни (напр. шумни) с цел повишаване на общата точност на алгоритъма. Алгоритмите за кондензация елиминират излишните точки от данни, като същевременно поддържат точността на алгоритъма на същото ниво. Хибридните алгоритми съчетават двата подхода [2].

Избор на набор за обучениее подобна концепция, която е по-ориентирана към подобряване на възможностите на модела (напр. точност, интерпретируемост). Повечето от предложените методи в литературата се основават на избор на прототип.

Характеристики на методите за избор на прототип

Посока на търсене

Постепенно: Започнете с празен набор и добавете екземпляри въз основа на някои критерии. Тук е възможно да нямате всички данни в началото, но да получите допълнителни данни с течение на времето.
Декрементален: Работи аналогично на инкременталния, но започва с всички екземпляри и ги премахва един по един. Тук всички данни трябва да са налични в началото.
Партида: Започва и с пълен комплект. Проверяват се всички екземпляри в набора дали отговарят на някакъв критерий. След това всички те се премахват наведнъж.
Смесен: Започва с непразно подмножество и може да добавя, както и да премахва екземпляри.
Коригирано: Подобно на смесеното търсене. Броят на добавянията обаче трябва да бъде същият като броя на изтриванията, следователно броят на екземплярите на подмножеството е предварително дефиниран.

Тип селекция

Тези характеристики включват вече споменатите кондензация, издание и хибридподходи. Като се има предвид задача за класификация, може да се прави разлика между гранични точки (на или близо до границата на две групи) и вътрешни точки.

Алгоритмите за кондензация се опитват да премахнат вътрешни точки при предположението, че те не влияят на класификацията толкова, колкото го правят точките на или близо до границата. По време на избора на прототип производителността на тренировъчния комплект се поддържа на постоянно ниво. Все пак трябва да се гарантира, че способността на модела да обобщава невиждани преди тестови данни не е отрицателно засегната.

Алгоритмите за издания, напротив, премахват гранични точки, които изглеждат малко вероятни. Следователно, целта на такива алгоритми е да премахнат привидно шумните точки, като по този начин границата между различните групи стане по-гладка.

Хибриднитеалгоритми съчетават както подходи за редактиране, така и подходи за кондензация, за да създадат модел с възможност за добро обобщаване.

Примери за методи за избор на прототип

По-долу ще бъдат изброени два примера за методи за избор на прототип, един алгоритъм за кондензация и един алгоритъм за издание. За допълнителни примери, моля, вижте глава 8 от García et al [1].

Кондензация:Кондензиран най-близък съсед (CNN)
CNN е инкрементален алгоритъм, започващ с празно подмножество. Една произволна извадка от всеки клас се добавя към подмножеството. Основното намерение е да се добавят екземпляри към подмножеството, така че най-близкият съсед на всеки екземпляр в набора за обучение да бъде от същия клас като самия екземпляр.
Следователно, алгоритъмът итерира всички екземпляри извън подмножеството и, ако екземплярът бъде класифициран неправилно, той се добавя към подмножеството, докато всички не бъдат класифицирани правилно.
Издание:Редактиран най-близък съсед (ENN)
ENN е декрементален алгоритъм, следователно започва с всички проби и число k. След това екземпляр ще бъде премахнат, ако по-голямата част от k най-близките съседи имат различен етикет (което прави вероятно точката да представлява шум).

[1] García et al. „Предварителна обработка на данни при извличане на данни“. Референтна библиотека за интелигентни системи. 2015 г.

[2] García et al. „Избор на прототип за класификация на най-близкия съсед: Таксономия и емпирично изследване“. IEEE Transactions on Pattern Analysis and Machine Intelligence 34/3: p.417–435. 2012 г.