"Начиная"

8 показателей для измерения эффективности классификации

…объяснено простым английским языком

Классификация — это тип задачи контролируемого машинного обучения, цель которой — предсказать для одного или нескольких наблюдений категорию или класс, к которым они принадлежат.

Важным элементом любого рабочего процесса машинного обучения является оценка производительности модели. Это процесс, в котором мы используем обученную модель, чтобы делать прогнозы на ранее невидимых помеченных данных. В случае классификации мы затем оцениваем, сколько из этих прогнозов модель оправдала.

В реальных задачах классификации модель обычно не может быть на 100% правильной. Таким образом, при оценке модели полезно знать не только то, насколько ошибочной была модель, но и то, в каком отношении эта модель была ошибочной.

«Все модели ошибочны, но некоторые из них полезны», — Джордж Бокс.

Например, если мы пытаемся предсказать, является ли опухоль доброкачественной или злокачественной, мы могли бы с большим удовольствием отказаться от модели, неверно предсказывающей, является ли опухоль злокачественной в небольшом числе случаев. Вместо того, чтобы иметь серьезные последствия отсутствия диагноза рака.

С другой стороны, если бы мы были розничным продавцом, решающим, какие транзакции были мошенническими, мы были бы счастливее, если бы небольшое количество мошеннических транзакций было пропущено. Вместо того, чтобы рисковать отказом от хороших клиентов.

В обоих этих случаях мы бы оптимизировали модель, чтобы она работала лучше для определенных результатов, и поэтому мы можем использовать разные показатели для выбора окончательной модели для использования. Как следствие этих компромиссов при выборе классификатора существует множество показателей, которые вы должны использовать для оптимизации модели для вашего конкретного случая использования.

В следующей статье я собираюсь дать простое описание восьми различных показателей производительности и методов, которые вы можете использовать для оценки классификатора.

1. Точность

Общая точность модели – это просто отношение количества правильных прогнозов к общему количеству прогнозов. Оценка точности дает значение от 0 до 1, значение 1 указывает на идеальную модель.

Эту метрику редко следует использовать изолированно, так как на несбалансированных данных, где один класс намного больше другого, точность может вводить в заблуждение.

Если вернуться к примеру с раком. Представьте, что у нас есть набор данных, в котором только 1% образцов являются раковыми. Классификатор, который просто предсказывает все исходы как доброкачественные, достиг бы показателя точности 99%. Однако на самом деле эта модель была бы бесполезной и опасной, поскольку она никогда не обнаружит рак.

2. Матрица путаницы

Матрица путаницы — чрезвычайно полезный инструмент для наблюдения за тем, в каком отношении модель неверна (или правильна!). Это матрица, которая сравнивает количество правильных и неправильных прогнозов для каждого класса.

В матрице путаницы есть 4 числа, на которые следует обратить внимание.

Истинные положительные результаты: количество положительных наблюдений, которые модель правильно предсказала как положительные.

Ложно-положительные:количество отрицательных наблюдений, которые модель ошибочно спрогнозировала как положительные.

Истинно отрицательный: количество отрицательных наблюдений, которые модель правильно спрогнозировала как отрицательные.

Ложноотрицательный: количество положительных наблюдений, которые модель ошибочно спрогнозировала как отрицательные.

На изображении ниже показана матрица путаницы для классификатора. Используя это, мы можем понять следующее:

  • Модель правильно предсказала 3383 отрицательных образца, но неправильно предсказала 46 положительных результатов.
  • Модель правильно предсказала 962 положительных наблюдения, но неправильно предсказала 89 отрицательных.
  • Из этой матрицы путаницы видно, что выборка данных несбалансирована, а отрицательный класс имеет больший объем наблюдений.

3. АУК/РПЦ

Такой классификатор, как логистическая регрессия, будет возвращать вероятность наблюдения, принадлежащего определенному классу, в качестве выходных данных прогноза. Чтобы модель была полезной, это обычно преобразуется в двоичное значение, например. либо образец принадлежит классу, либо нет. Для этого используется порог классификации, например, мы можем сказать, что если вероятность выше 0,5, то выборка относится к классу 1.

Кривая ROC (рабочие характеристики приемника) представляет собой график производительности модели (график частоты истинных положительных и ложных срабатываний) при всех пороговых значениях классификации. AUC — это измерение всей двумерной площади под кривой и, как таковая, показатель эффективности модели при всех возможных пороговых значениях классификации.

Кривые ROC отображают точность модели и поэтому лучше всего подходят для диагностики производительности моделей, в которых данные не несбалансированы.

4. Точность

Точность показывает, насколько хорошо модель правильно определяет положительный класс. Другими словами, сколько из всех предсказаний для положительного класса были на самом деле правильными? Используя только эту метрику для оптимизации модели, мы минимизируем ложные срабатывания. Это может быть желательно для нашего примера обнаружения мошенничества, но было бы менее полезно для диагностики рака, поскольку у нас было бы мало понимания положительных наблюдений, которые были упущены.

5. Вспомнить

Напомнить, расскажите нам, насколько хорошо модель правильно предсказывает все положительные наблюдения в наборе данных. Однако он не включает информацию о ложных срабатываниях, поэтому будет более полезен в примере с раком.

Обычно точность и отзыв наблюдают вместе, строя кривую точность-отзыв. Это может помочь визуализировать компромиссы между двумя показателями при разных пороговых значениях.

6. Оценка F1

Показатель F1 – это среднее гармоническое точности и полноты. Оценка F1 даст число от 0 до 1. Если оценка F1 равна 1,0, это указывает на идеальную точность и полноту. Если оценка F1 равна 0, это означает, что либо точность, либо отзыв равны 0.

7. Каппа

Статистика каппа сравнивает наблюдаемую точность с ожидаемой точностью или точностью, ожидаемой от случайного случая.Один из недостатков чистой точности заключается в том, что если класс несбалансирован, то предсказания случайным образом может дать высокую оценку точности. Каппа объясняет это, сравнивая точность модели с ожидаемой точностью на основе количества экземпляров в каждом классе.

По сути, он говорит нам, как модель работает по сравнению с моделью, которая случайным образом классифицирует наблюдения в соответствии с частотой каждого класса.

Каппа возвращает значение равное или меньше 1, возможны отрицательные значения. Одним из недостатков этой статистики является отсутствие согласованного стандарта для интерпретации ее значений. Хотя общее толкование метрики дали Лэндис и Кох в 1977 году.

8. МЦК

MCC (коэффициент корреляции Мэтьюза) обычно считается одним из лучших показателей эффективности модели классификации. Во многом это связано с тем, что, в отличие от любой из ранее упомянутых метрик, он учитывает все возможные результаты прогнозирования. Поэтому, если в классах есть дисбаланс, это будет учтено.

MCC, по сути, представляет собой коэффициент корреляции между наблюдаемой и предсказанной классификациями. Как и для любого коэффициента корреляции, его значение будет находиться в диапазоне от -1,0 до +1,0. Значение +1 указывает на идеальную модель.

В этой статье мы рассмотрели простые объяснения восьми показателей для измерения эффективности моделей классификации. На практике редко следует использовать какую-либо из этих метрик по отдельности. Чаще всего специалист по данным оценивает ряд этих показателей и взвешивает компромиссы, которые они обнаруживают при оптимизации модели.

Оценка производительности классификатора, как правило, непроста и сильно зависит от варианта использования и доступного набора данных. Особенно важно понимать риск ошибиться в определенном направлении, чтобы вы могли создать действительно полезную модель.

Спасибо за прочтение!