При проблеми с класификацията ние използваме модели за машинно обучение за класовете, които искаме да предвидим. Има много налични модели за класификация, но не всички от тях са подходящи за всеки набор от данни. Обикновено към набора от данни за класификация се прилага повече от един модел и сред тях се избира най-подходящият. Има определени показатели за оценка, за да изберете най-подходящия сред тези модели. Тези; Точност, припомняне, прецизност, F1 резултат.

Най-известният от тези показатели е резултатът за точност. Въпреки това, оценяването само на резултата за точност може да ни подведе при избора на правилния модел. Резултатът за точност ни казва колко точно моделът е предвидил всички класове. Ако обаче имаме небалансиран набор от данни, този резултат е недостатъчен, за да даде информация за успеха на модела. Например 99% от учениците в едно училище са здрави, а 1% са болни. В този случай резултатът за точност от 99% не ни показва, че моделът е успешен. Защото нашият модел не можеше да предвиди болните ученици. За да избегнем тази ситуация, трябва да оценим и други показатели за грешки. За да се обяснят тези показатели, първо е необходимо да се разбере матрицата на объркването.

Матрица на объркването:

Матрицата на объркването представлява връзката между стойностите, предвидени от модела, и действителните стойности. Благодарение на тази матрица се изчисляват показателите за оценка, споменати по-горе.

За да изчислим резултатите на споменатите показатели, имаме нужда от стойностите TP, TN, FP и FN, които виждате в матрицата на объркването. Нека обясним тези понятия просто с пример. Да предположим, че имаме тест за Covid-19.

Истински положителен (TP):Предполагаме, че сме болни (предвиждаме теста да е положителен) и тестът действително се оказа положителен.

Фалшив положителен (FP):Предположихме, че сме болни (предположихме, че е положителен), но резултатът от теста се оказа отрицателен.

Истински отрицателен (TN):Предположихме, че не сме болни (предположихме отрицателен), но резултатът от теста се оказа отрицателен.

Грешно отрицателен (FN):Предположихме, че не сме болни (предположихме, че е отрицателен), но резултатът от теста се оказа отрицателен.

Благодарение на стойностите TP, TN, FP и FN в матрицата на объркване, можем да разберем колко от данните, принадлежащи към всеки клас, са класифицирани правилно и колко са неправилно класифицирани. Сега, след като се научихме да четем матрицата на объркването, можем да преминем към тълкуването на показателите за оценка.

Точност:

Както се разбира от формулата, стойността на точността ни казва колко точно моделът предвижда всички класове. Както споменах по-горе, може да бъде подвеждащо да се оценява моделът само според резултата за точност в нестабилни набори от данни.

Припомняне:

Той показва на колко от хората с положителен тест за Covid прогнозираме резултата от теста като положителен. Ако прогнозираме положителните хора като отрицателни (FN), това показва голям проблем. Така че предположението, че някой, който е болен, не е болен, може да причини големи проблеми. Съответно този показател трябва да се използва в случаите, когато стойността на FN не може да бъде пренебрегната.

Прецизност

Дава информация за това колко от тези, които прогнозирахме като положителни, всъщност са положителни. С други думи, колко от хората, които оценяваме като болни, са наистина болни. За да дадем друг пример, ако вашият модел маркира имейлите, които трябва да пристигнат във вашата пощенска кутия като спам (FP), тогава той няма да може да види важните имейли, които трябва да получите, и това може да причини проблем. Както се вижда, Recall и Precision са обратно пропорционални една на друга и трябва да се намери баланс между тях за подходящ модел.

Резултат F1: припомняне и прецизност

Особено когато искаме да усъвършенстваме прогнозите си за един клас, искаме да запазим прецизността и припомнянето възможно най-високо. Причината да вземем хармоничната средна стойност на тези показатели е, че искаме да игнорираме екстремните случаи. Основната причина за използване на F1 Score стойност вместо Accuracy е да не се направи неправилен избор на модел в небалансирани набори от данни. Ако търсим баланс между прецизност и припомняне, ние търсим случаи, в които F1-резултатът е максимален, ние максимизираме припомнянето и минимизираме прецизността, за да запазим F1 резултата висок.

В допълнение към тези показатели има още две важни концепции за проблемите с класификацията. Това са ROC кривата и AUC Score.

ROC крива и AUC резултат:

ROC е вероятностна крива и площта под нея, AUC, представлява степента или мярката за разделимост. В ROC кривата има FPR (честота на фалшиви положителни резултати) по оста X и TPR (честота на истински положителни резултати) по оста Y.

Колкото по-високо е нивото под кривата, толкова по-висока е ефективността на дискриминация между класовете. AUC показва колко добре моделът може да различи класове. Например, колкото по-висока е AUC в набор от данни за болни и непациентни хора, толкова по-добре се представя моделът при разграничаване на пациенти със и без заболяването.

Както може да се види на графиките, колкото по-висока е стойността на AUC, толкова по-добре са разделени един от друг класовете.