Класификация и регресионни метрики за анализ на прогнозно моделиране

Темите, които предизвикват безпокойство, са анализите на здравеопазването и извличането на данни. Приложенията за здравеопазване и данните за здравеопазването се пресичат с науката за данни и анализа на големи данни. Разбиране на алгоритми за обработка на големи данни.

Тази статия е част от поредица от статии по темата Големи данни за курс по здравна информатика
Можете да посетите връзката по-горе, за да разберете тази тема в контекста на пълния курс. Тази статия препраща към знания от статията „Предсказуемо моделиране“, но темата за показателите за методите на класификацията ще бъде обхваната по начин, който може да бъде разбран независимо от пълния курс.

Забележка: Тази статия изисква познаване на концепциите за машинно обучение.

Въведение и обобщение

В предишна статия; „Прогнозно моделиране“ обсъждаме как да оценим ефективността на прогнозен модел. Една основна грижа е качеството на разработените модели. За да се справим с това, ние създаваме показатели за оценка като:

Точност: измерва колко често класификаторът правилно прогнозира. Можем да определим точността като съотношението между броя на правилните прогнози и общия брой прогнози.
Чувствителност
Специфичност
и т.н.

Ключова част от работата с големи данни е да се развият множество вярвания и да се сравнят с показатели за оценка.

За да обобщим, ние разгледахме тръбопровод за предсказуем модел и покрихме общи алгоритми за предсказуемо моделиране; регресия и класификация.

Ще се съсредоточим върху шестата стъпка, която е оценка на ефективността и ще разберем детайлите на показателите. Предсказуемите модели са функция, която картографира функции за прогнозиране на цел.

Алгоритмите за класифициране имат цел y или като двоична, или като набор от категории. Показателите за оценка включват:

Вярно/Невярно положителен процент
Положителен прогнозен модел
F1
Площ под ROC крива

Алгоритмите за регресия имат целта като непрекъснато число. Метриките за оценка за регресия включват

Средна абсолютна грешка
Средна квадратна грешка
R на квадрат

Резултати

Ще прегледаме всеки показател за ефективност, споменат по-рано. Дайте определение за тях и обяснете как са свързани помежду си.

Показатели за ефективност при проблеми с двоичната класификация

Двоичната класификация предвижда един от два класа. Например разбиране дали пациентът ще получи сърдечна недостатъчност или не.

Прогнозата или резултатът от бинарен прогнозен модел може да бъде положителен или отрицателен. По подобен начин основните стойности на истината (това, което действително се случва в действителност) могат да бъдат положителни или отрицателни. В зависимост от комбинацията от прогнозния резултат и основната истина се формира таблица за непредвидени обстоятелства или матрица на объркване със следните резултати:

Истински положителен: Този резултат се вижда, когато резултатът от прогнозата е положителен и основното условие за истина също е положително.
Фалшив положителен: Този резултат се получава, когато прогнозата е положителна, но в действителност основното условие за истина е отрицателно. Това също е известно като грешка тип 1.
Фалшиво отрицание: Това също е известно като грешка тип 2. Това се случва, когато прогнозата е отрицателна, но основното условие за истина е положително.
Истински отрицателен: Това е, когато и основната истина, и прогнозата са отрицателни.

Анализирайте диаграмата по-горе, за да разберете връзките. Всеки ред и колона на матрицата се сумират до маргинала. Какво означава това?
Когато добавим положителен прогнозен резултат към отрицателен прогнозен резултат заедно, те ни дават общата популация. По подобен начин, когато сумираме истинското положително с фалшиво отрицателното, ще получим общата стойност за основното истинно условие, което е положително и така нататък...

Това са основните показатели, които съставляват двоичната класификация, но въз основа на тези 4 показателя можем да извлечем повече показатели, като вземем съотношенията на различни стойности

Истински положителен процент = Истински положителен / Условие положително
Фалшиво положителен процент = Фалшиво положителен резултат / Отрицателно състояние
Фалшиво отрицателен процент = Фалшиво отрицателен / Условие положително
Истински отрицателен процент = Истински отрицателен / Условие отрицателно

точност

Точността е най-основният показател, който е интуитивен. Изчислява се чрез:
Точност = (Истински положителен + Истински отрицателен) / Общо население

Забележка Показателите за точност са нормализиране на стойностите на истината на земята

Това обаче не е най-добрият показател, ако етикетите на класа са небалансирани. Да предположим, че имаме 1% от общото население със сърдечна недостатъчност с тривиален модел, който можем просто да предвидим, че всички нямат сърдечна недостатъчност и точността ще бъде 99%.

Чувствителност

С много имена; Истински положителен процент/чувствителност или припомнянее друг важен показател. За да изчислим това, можем:
Чувствителност = Истинско положително / Условие положително.

Нека приемем, че положително означава сърдечна недостатъчност, а отрицателно означава липса на сърдечна недостатъчност. За да се измери сред всички хора в популацията със сърдечна недостатъчност (това е наистина положително), какъв процент е правилно идентифициран от модела.

Искаме висок процент тук, това показва, че моделът е близо до правилния.

Фалшива отрицателна ставка

Свързан показател, който се извлича по алтернативен начин, а именно:
Фалшиво отрицателен процент = 1- Истински положителен

Този показател ни позволява да знаем от всички пациенти, които имат заболяване въз основа на основната истина, колко от тях предикторът е класифицирал погрешно като нямащи заболяването.

Искаме този показател да е нисък, тъй като това показва по-малко грешни класификации.

Коефициент на фалшиви положителни резултати

Интуицията зад тази метика е да се измери сред всички пациенти без сърдечна недостатъчност какъв процент от тях са неправилно предвидени от модела да имат сърдечна недостатъчност.

Това трябва да е ниско, тъй като искаме по-правилни прогнози.

Специфичност или истински отрицателен процент

Това може да се изчисли и чрез изваждане на 1 от процента на фалшивите положителни резултати. Този показател ни казва броя на пациентите без сърдечна недостатъчност, които моделът е предвидил правилно. Искаме този показател да е по-висок.

Разпространение

Точността е метрика, която е нормализиране на основните показатели за истината, докато разпространението се определя от някаква стока, разделена на резултатите от прогнозата.

Разпространението е съотношението между положителното състояние и общата популация. Разпространението измерва доколко е вероятно заболяването да се появи сред цялата популация и тази стойност може да се различава в зависимост от различните болестни състояния. Например сърдечната недостатъчност сред по-възрастното население може да е по-висока в сравнение с по-младото население.

Положителна прогнозна стойност (прецизност) = Истински положителен / положителен прогнозен резултат
Коефициент на фалшиви пропуски = фалшив отрицателен / отрицателен резултат от прогнозата
Степен на фалшиви открития = фалшиво положително / положителен прогнозен резултат
Отрицателна прогнозна стойност = Истински отрицателен / Отрицателен прогнозен резултат

Положителна прогнозна стойност или прецизност

Това също се нарича Прецизност. Положителната прогностична стойност разглежда сред всички пациенти, за които се прогнозира сърдечна недостатъчност, какъв процент от тях действително ще имат сърдечна недостатъчност.

С други думи, всички тези пациенти правилно са класифицирани спрямо пациентите от популацията, която е получила положителна прогноза. Това трябва да е висока стойност, тъй като се стремим да прогнозираме положителен резултат за всички тези основни условия на истина, които са положителни.

Коефициент на фалшиво откриване

Този показател е свързан с прецизност, процент на фалшиви открития + прецизност = 1.

В какво съотношение на популацията предикторът е осигурил положителен резултат, тъй като те са били погрешно идентифицирани като положителни случаи, въпреки че са били отрицателни от основната истина.
Този процент показва, че предикторът ги е открил като положителни, но те са фалшиви открития.

Ако тази стойност е ниска, това означава, че предикторът е добър в прогнозирането на положителни резултати.

Коефициент на фалшив пропуск

Пропускането означава да се пропусне или изключи — този показател ни дава представа за процента пациенти, които ще развият сърдечна недостатъчност, но моделът ги класифицира като отрицателни.

Този показател е желателен, когато е нисък - което означава, че предикторът не е пропуснал никакви положителни случаи.

Отрицателна прогнозна стойност

Това е процентът на населението, което е правилно класифицирано като отрицателен резултат. Това е желателно като по-висок показател.

Един добър прогнозен модел ще има висока положителна прогнозна стойност и висока отрицателна прогнозна стойност. Те трябва да са близки или равни на положителните и отрицателните стойности на основната истина съответно.

F1 резултат

Той съчетава в себе си:

Процент на истински положителни = истински положителни / положително състояние
и положителната прогнозна стойност = истински положителен / положителен прогнозен резултат

Формулата е описана в диаграмата по-долу. Високите F1 резултати са желателни.

Характеристики на оператора на приемника

Като цяло прогнозните модели извеждат непрекъснати прогнозни резултати. За да определим какъв диапазон от непрекъснати резултати трябва да се класифицира като 1 или 0, трябва да дефинираме праг като граница на прогнозиране. Този праг има значително влияние върху всички показатели за ефективност. И така, как да дефинираме тази прагова стойност?

Кривата на работната характеристика на приемника (ROC) или зоната под кривата (AUC) осигуряват начин за сравняване на различни класификатори като граница на прогнозиране.

Тази крива се създава чрез начертаване на истински положителен процент срещу фалшиво положителен процент. Можем да постигнем това, като подредим прогнозния резултат, както се вижда по-долу, в низходящ ред и след това използваме прогнозния резултат като потенциални прагови стойности.

В примера по-долу имаме 20 пациенти, 10 от тях имат положителен и отрицателен резултат, обозначени съответно с p и n.

Сортираме в низходящ ред; прогнозния резултат и считайте всеки за прагова стойност. Стойностите p се нанасят на оста y, което е: истинска положителна честота, а n стойностите се нанасят на оста x като фалшиво положителна честота.

Когато начертаваме тези стойности, ние формираме линейна графика на всеки пик, това са точките, които считаме за прагова стойност. Как да изберем най-добрата стойност? Е, зависи от това какво се опитвате да постигнете.

О: Ако искате процентът на фалшивите положителни резултати да е нисък (0,8)
B: Ако се грижите и за двете нива еднакво (0,54)
C: За висок истински положителен процент (0,38)
D: За висок истински положителен процент (0,30)

Оптималната прагова стойност може да варира в зависимост от прага.

Регресионни показатели

Двата популярни показателя за ефективност на регресията са:

MAE (Средна абсолютна грешка): Измерва средната стойност на абсолютните грешки. Това е абсолютната разлика между прогнозата и стойността на основната истина. MAE е по-стабилен срещу извънредни стойности, но е по-трудно да се работи с него, тъй като тази абсолютна стойност не може да се диференцира.
MSE (Средна квадратна грешка): Измерва средната стойност на квадратната грешка — това е по-лесно за работа, тъй като производната на квадрата е линейна. MSE са силно засегнати от извънредни стойности поради квадратичния термин.

И двата показателя не са ограничени във фиксиран диапазон, което прави невъзможно сравнението между набори от данни.

R на квадрат: Това е друг регресионен показател. Това има фиксиран максимален резултат от 1. R на квадрат също се нарича коефициент на определяне. Това е 1 минус съотношението между MSE и дисперсията.

В горната диаграма можем да видим пример за линеен регресионен модел с MSE = 0,86 и дисперсия = 4,907. В този пример R на квадрат = 0,82

Това се счита за добра стойност. R на квадрат, равен на 1, показва, че регресията идеално пасва на данните, докато 0 показва, че линията също не пасва на данните.

Възможно е да има отрицателни стойности на R на квадрат. Това означава, че прогнозният модел се е представил по-лошо от обикновената средна стойност върху данните.

Бързо напомняне: пълното резюме на курса може да бъде намерено в Големи данни за курс по здравна информатика

Дано си научил нещо.

-R