Решението дали да се използват техники за свръхизвадка или недостатъчна извадка за обработка на небалансирани набори от данни зависи от специфичните характеристики на набора от данни и целите на анализа. Обмислете следните фактори, когато вземате решение:

  1. Свръхсемплиране: Техниките на свръхсемплиране увеличават броя на екземплярите в малцинствения клас чрез генериране на синтетични семплиране. Този подход може да бъде полезен, когато малцинствената класа е недостатъчно представена и се нуждае от повече представителство в данните за обучението. Например, в набор от данни за откриване на измами с кредитни карти, където случаите на измами са редки в сравнение със случаите без измами, свръхизвадката може да помогне за балансиране на разпределението на класове и да предостави повече данни за обучение на класификатора.
  2. Недостатъчно вземане на проби: Техниките за недостатъчно вземане на проби намаляват броя на екземплярите в мажоритарния клас, за да съответства на броя на екземплярите в миноритарния клас. Този метод може да бъде ефективен, когато има голям дисбаланс между класите и класата на мнозинството надвива класата на малцинството. Например, в набор от медицински данни за диагностициране на рядко заболяване, където по-голямата част от случаите съответстват на здрави индивиди, а класът на малцинството представлява индивиди с болестта, вземането на недостатъчна извадка от класа на мнозинството може да помогне за създаването на по-балансиран набор от данни.
  3. Комбиниране на свръхсемплиране и недостатъчно семплиране: В някои случаи може да е подходяща комбинация от техники за свръхсемплиране и недостатъчно семплиране. Този подход може да помогне за постигане на баланс между справянето с дисбаланса на класовете и поддържането на разнообразието на набора от данни. Като пример, помислете за набор от данни за анализ на настроението, където класът на положителното настроение е силно дисбалансиран в сравнение с класа на отрицателното настроение. Вместо само свръхизвадка от положителния клас или недостатъчна извадка от отрицателния клас, комбинация от свръхизвадка от положителния клас и недостатъчна извадка от отрицателния клас може да помогне за създаването на по-балансиран набор от данни.

За да вземете информирано решение, е важно да оцените ефективността на различните техники за вземане на проби, като използвате подходящи показатели и кръстосано валидиране. Освен това вземете под внимание потенциалните недостатъци на всяка техника, като например риска от пренастройване при свръхсемплиране или потенциалната загуба на информация при недостатъчно семплиране.

В крайна сметка изборът между свръхизвадка и недостатъчна извадка (или тяхната комбинация) трябва да се основава на задълбочено разбиране на набора от данни, характеристиките на класовете и конкретните цели на анализа. Експериментирането с различни техники и оценката на тяхното въздействие върху производителността на модела ще помогне да се определи най-подходящият подход.

Как да решите дали да използвате свръхсемплиране или недостатъчно семплиране?

Първоначално, след използване на свръхизвадка, ние обучаваме класификатор на логистична регресия върху свръхизвадката за обучение. След това, след недостатъчна извадка, ние обучаваме друг логистичен регресионен класификатор върху недостатъчната извадка за обучение.

Чрез сравняване на класификационните доклади, получени от подходите за свръхизвадка и недостатъчна извадка, можем да оценим ефективността на моделите и да определим кой подход е по-подходящ за нашия специфичен набор от данни и цели за анализ. Докладът за класификация предоставя важни показатели като прецизност, припомняне и F1-резултат за всеки клас, което може да помогне за оценка на ефективността на модела при справяне с дисбаланс на класа.

Ето разбивка на това как да тълкувате доклада за класификация:

  1. Прецизност: Прецизността измерва дела на правилно предвидените положителни случаи от всички случаи, предвидени като положителни. По-високата точност показва по-малко фалшиви положителни резултати. В контекста на небалансирани набори от данни прецизността е важна, за да се осигурят точни прогнози за малцинствения клас.
  2. Припомняне: Припомнянето (известно още като чувствителност или истински положителен процент) измерва дела на правилно предвидените положителни случаи от всички действителни положителни случаи. По-високото припомняне показва по-малко фалшиви отрицателни резултати. Припомнянето е особено важно за идентифициране на всички случаи на класа на малцинството.
  3. F1-резултат: F1-резултатът е средната хармонична стойност на прецизността и припомнянето. Той осигурява балансирана мярка, която взема предвид както прецизността, така и припомнянето едновременно. F1-резултатът е полезен, когато искаме да постигнем баланс между прецизност и припомняне.

Чрез сравняване на прецизността, припомнянето и F1-резултатите за всеки клас в класификационните доклади, получени от свръх и недостатъчно вземане на проби, можем да наблюдаваме ефективността на моделите и за двата подхода. Ето няколко сценария, които да разгледате:

Свръхсемплиране: Ако подходът на свръхсемплиране дава по-висока прецизност, припомняне и F1-резултати за малцинствения клас, това показва, че свръхсемплираните данни са помогнали на модела да улови по-добре моделите на малцинствения клас. Този подход може да е подходящ, ако искаме да увеличим максимално откриването на положителни случаи, като същевременно поддържаме разумна обща производителност.

Недостатъчно вземане на извадки: Ако подходът на слаби извадки показва подобрена прецизност, припомняне и F1-резултати за класа на малцинството, това предполага, че намаляването на доминирането на класа на мнозинството е позволило на модела да се съсредоточи повече върху класа на малцинството. Този подход може да бъде за предпочитане, когато искаме да осигурим равно представителство на двете класи и да избегнем пристрастия към класата на мнозинството.

Компромис: Понякога показателите за ефективност може да варират между подходите на свръхсемплиране и недостатъчно семплиране. В такива случаи трябва да вземем предвид компромисите. Свръхсемплирането може да доведе до по-добро цялостно представяне, но с по-висок риск от пренастройване. Недостатъчното вземане на проби може да осигури балансирана производителност, но с потенциална загуба на информация от мажоритарния клас. Изборът зависи от конкретните изисквания и приоритети на нашия анализ.

В крайна сметка сравняването на класификационните доклади, получени от различни техники за вземане на проби, ни помага да оценим тяхното въздействие върху производителността на модела и да вземем информирано решение дали да използваме свръхизвадка или недостатъчна извадка, или дори комбинация от двете, за нашия специфичен набор от данни и цели за анализ.