Основи на RoC кривата и AUC резултат

RoC кривата означава крива на работните характеристики на приемника, а AUC означава площ под кривата

За да разберем напълно RoC кривата и AUC резултата, трябва да разберем матрицата на объркването. Матрицата на объркване е матрица с размерност 2X2 между Действително +/- и Тест +/-. Въпреки това можем да обменяме между True и Test.

Когато действителните + и - имат едни и същи стойности в теста, това се означава съответно като истински положителен и истински отрицателен. Като има предвид, че ако действителен + се тества като тест, тогава той се определя като фалшив и обратно.

Сега, Чувствителност, която показва Истинска положителна фракция = TP/ (TP+FN), т.е. Истинска положителна от обща действителна положителна, докато специфичност, която показва фалшива положителна фракция = FP/ (FP+TN), т.е. фалшива положителна от обща действителна отрицателна.

Когато начертаем 1-специфичност по оста X и истинската степен на положителност по оста Y, полученият график се нарича RoC крива.

По този начин всяка точка от кривата на RoC всъщност е граница, която отразява различна матрица на объркване, въпреки че не можете да я видите, но с TPR и TPF можем да я получим.

За да направите RoC крива от данни, сортирайте стойностите и осигурете ранг и свържете положителния и отрицателния флаг с тях.

Изчислете TPR (процент на истинска положителност) или чувствителност и 1-специфичност за точки от данни.

С точките на чувствителност и 1-специфичност можем да начертаем RoC крива във всеки наличен инструмент.

Идва към AUC или Area Under Curve

Различни програми като python вече имат специална библиотечна функция за този от sklearn.metrics импорт roc_auc_score.

Но можем също да го изчислим с помощта на всеки инструмент, това е просто сумата от всички площи между оста X и линия, свързваща две съседни точки с формулата:

(Xk — Xk-1) * (Yk + Yk-1)/2

Анализиране на RoC кривата:

Перфектният тест няма да има припокриване между положителен и отрицателен резултат и следователно ще има 100% специфичност и 100% чувствителност и кривата ще докосва горната точка на оста y

като има предвид, че безполезен тест ще има 50% специфичност и 50% чувствителност, което означава припокриване между всички набори от данни и кривата ще има само диагонална линия

Колкото по-близо е RoC кривата до оста y, по-добре е ефективността на теста

Вероятно можем да кажем от горната графика, че Тест А е по-добър от Тест Б, тъй като степента на Истинска Положителност е по-висока от степента на Невярно Положителни.