Существует 14 функций потерь для задач регрессии. Вы знаете несколько из них?

Методы прогнозирования временных рядов включают использование набора исторических временных рядов для прогнозирования, которые широко используются в обработке сигналов, распознавании образов, эконометрике, математических финансах, прогнозировании погоды, прогнозировании землетрясений и других областях. В прошлом методы прогнозирования временных рядов были в основном линейными. Однако во многих недавних приложениях для прогнозирования временных рядов использовались машинное обучение, глубокое обучение, гауссовские процессы и искусственные нейронные сети. При работе с задачами прогнозирования временных рядов очень важен выбор функции потерь, поскольку она будет управлять процессом обучения алгоритма. В прошлом для решения таких проблем, как отклонение данных, долгосрочное прогнозирование и множественная коллинеарность, предлагались различные функции потерь.

В этой статье обобщаются 14 широко используемых функций потерь и анализируются их преимущества и недостатки. Было доказано, что эти функции потерь обеспечивают самые передовые результаты в различных областях. В этой статье анализируется их производительность в различных задачах эталонного тестирования временных рядов, в надежде помочь отраслевым профессионалам и исследователям быстро выбрать подходящие функции потерь для задач и избежать слишком большого количества экспериментальных попыток.

Регрессия — это распространенный метод моделирования прогнозирования, который используется для оценки взаимосвязи между двумя или более переменными. Это метод обучения с учителем, который можно определить как статистический метод и независимую переменную, используемую для моделирования взаимосвязи между связанными реальными переменными.

Данные временных рядов немного отличаются от данных, основанных на регрессии, поскольку информация о времени добавляется к функциям, что делает цель более сложной. Данные временных рядов состоят из следующих компонентов:

● Уровень: каждый временной ряд имеет базовый уровень. Простой расчет базового уровня может быть получен непосредственно путем вычисления среднего/медианы исторических данных;

● Периодичность: данные временных рядов также имеют шаблон, называемый периодичностью, который повторяется нерегулярно, что означает, что они не будут появляться через один и тот же фиксированный интервал;

● Тенденция: указывает, увеличивается или уменьшается временной ряд за определенный период времени. Другими словами, он имеет восходящий (растущий) или нисходящий (убывающий) тренд;

● Сезонность: закономерность, повторяющаяся в течение определенного периода времени, называется сезонностью;

● Шум: после извлечения уровня, периодичности, тенденции и сезонности все остальное представляет собой шум, который представляет собой совершенно случайное изменение данных.

Основной целью каждой модели машинного обучения является улучшение выбранных показателей модели и снижение связанных с этим потерь. Важной частью моделей машинного обучения или глубокого обучения для прогнозирования временных рядов является функция потерь. Производительность модели измеряется по функции потерь, что способствует обновлению параметров модели.

Ниже представлен анализ четырнадцати функций потерь:

1. Средняя абсолютная ошибка (MAE)

MAE, также известная как потеря L1, представляет собой абсолютную ошибку между прогнозируемыми и фактическими значениями:

Среднее значение абсолютных ошибок всех выборочных значений называется MAE:

График производительности MAE Loss and Predictions MAE — это простая и эффективная функция потерь, часто используемая в регрессионных моделях. Но переменные в задаче регрессии могут не быть строго гауссовскими из-за выбросов, которые вызовут некоторые проблемы.

Преимущество:

MAE прост в вычислительном отношении и обеспечивает единую меру производительности модели. MAE менее чувствителен к выбросам.

Недостаток:

MAE следует линейному методу оценки, что означает, что все ошибки взвешиваются одинаково при вычислении среднего значения. Из-за крутизны MAE мы можем пропустить минимумы при обратном распространении. MAE не дифференцируема в нуле, поэтому вычисление градиентов затруднено.

2. Среднеквадратическая ошибка (MSE)

MSE, также известная как потеря L2, представляет собой квадрат ошибки между прогнозируемыми и фактическими значениями:

Среднее значение квадратов ошибок всех выборочных значений называется MSE, также известным как среднеквадратическая ошибка:

MSE также известен как квадратичная потеря, потому что штраф возводится в квадрат, а не пропорционален ошибке. Когда ошибки возводятся в квадрат, выбросы получают больший вес, создавая плавный градиент для меньших ошибок. Выгода от этого штрафа за огромные ошибки помогает алгоритму оптимизации получить наилучшие значения параметров. Поскольку ошибка возводится в квадрат, MSE никогда не может быть отрицательным, а значение ошибки может принимать значения от 0 до бесконечности. По мере увеличения ошибки MSE увеличивается экспоненциально, и хорошая модель будет иметь значение MSE, близкое к 0.

Преимущество:

MSE способствует эффективной минимальной сходимости при небольших ошибках, когда градиенты постепенно уменьшаются. Значение MSE выражается в виде квадратного уравнения, которое помогает оштрафовать модель в случае выбросов.

Недостаток:

Возведение этих значений в квадрат ускоряет обучение, но более высокие значения потерь могут вызывать большие скачки при обратном распространении, что нежелательно. MSE особенно чувствительна к выбросам, а это означает, что значительные выбросы в данных могут повлиять на производительность нашей модели.

3. Средняя ошибка смещения (MBE)

Склонность к завышению или занижению значений параметров называется смещением или средней ошибкой смещения. Единственное возможное направление отклонения – положительное или отрицательное. Положительное смещение указывает на то, что ошибки данных завышены, а отрицательное смещение указывает на то, что ошибки недооценены.
Разница между фактическими и ожидаемыми значениями измеряется как средняя ошибка смещения (MBE). Среднее отклонение в прогнозах количественно определяется MBE. Это практически то же самое, что и MAE, за исключением того, что не учитываются абсолютные значения. К MBE следует относиться с осторожностью, поскольку положительные и отрицательные ошибки могут компенсировать друг друга.

Преимущество:

Если вы хотите идентифицировать и исправить смещение модели, вы должны использовать MBE, чтобы определить направление модели (то есть, является ли оно положительным или отрицательным).

Недостаток:

MBE имеет тенденцию постоянно ошибаться в одном направлении, пытаясь предсказать шаблоны сигналов. Учитывая, что ошибки имеют тенденцию компенсировать друг друга, эта функция потерь не подходит для чисел в диапазоне (-∞, ∞).

4. Относительная абсолютная ошибка (RAE)

RAE рассчитывается путем деления общей абсолютной ошибки на абсолютную разницу между средним и фактическим значением:

RAE — это метрика, основанная на соотношении, используемая для оценки эффективности прогностических моделей. Возможные значения RAE находятся в диапазоне от 0 до 1. Значения, близкие к нулю (ноль — наилучшее значение), характерны для хорошей модели.

Преимущество:

RAE может сравнивать модели, измеряющие ошибку в разных единицах.

недостаток:

Если эталонный прогноз равен истинному значению, РАЭ может стать непредсказуемым, что является одним из его основных недостатков.

5. Относительная квадратичная ошибка (RSE)

RSE измеряет, насколько неточным был бы результат без простого предиктора. Этот простой предиктор просто представляет среднее значение фактических значений. В результате относительная квадратичная ошибка нормализует общую квадратичную ошибку, разделив ее на общую квадратичную ошибку простых предикторов. Сравнение можно проводить между моделями, которые вычисляют ошибку в разных единицах измерения.

Преимущество:

RSE не имеет ничего общего с масштабом. Это позволяет сравнивать модели, когда ошибка измеряется в разных единицах.

Недостаток:

RSE не зависит от среднего или размера прогноза.

6. Средняя абсолютная ошибка в процентах (MAPE)

Средняя абсолютная процентная ошибка (MAPE), также известная как среднее абсолютное процентное отклонение (MAPD), представляет собой показатель, используемый для оценки точности системы прогнозирования. Он вычисляет средний абсолютный процент ошибки в процентах для каждого периода времени путем вычитания абсолютного значения прогнозируемого значения из фактического значения и деления на фактическое значение. Средняя абсолютная процентная ошибка (MAPE) широко используется для ошибки прогноза, поскольку единицы измерения переменной масштабируются до процентных единиц. Он хорошо работает, когда в данных нет выбросов, и часто используется в регрессионном анализе и оценке моделей.

Преимущество:

Потери MAPE рассчитываются путем нормализации всех ошибок до одного процента. Поскольку оценки ошибок выражаются в процентах, MAPE не зависит от размера переменных. Поскольку MAPE использует абсолютные процентные ошибки, проблема смещения положительных чисел с отрицательными числами исключается.

Недостаток:

Поскольку знаменатель уравнения MAPE является прогнозируемым результатом, он может быть равен нулю, что приводит к неопределенным значениям. MAPE наказывает положительные ошибки меньше, чем отрицательные ошибки. Следовательно, когда мы сравниваем точность алгоритмов прогнозирования, она оказывается необъективной, поскольку по умолчанию выбирается алгоритм, результат которого слишком низок.

7. Среднеквадратическая ошибка (RMSE)

Квадратный корень из MSE используется для расчета RMSE. Среднеквадратичное отклонение — это другое название RMSE. Он учитывает изменение фактического значения и измеряет среднюю величину ошибки. RMSE можно применять к различным функциям, поскольку он помогает определить, улучшает ли функция прогнозы модели. RMSE наиболее полезен, когда очень нежелательны огромные ошибки.

Преимущество:

RMSE используется в качестве обучающей эвристики для модели. Многие методы оптимизации выбирают его, потому что он легко дифференцируется и прост в вычислительном отношении. Даже при больших значениях экстремальных потерь меньше, а квадратный корень приводит к тому, что RMSE наказывается меньшей ошибкой, чем MSE.

Недостаток:

Поскольку RMSE по-прежнему является линейной оценочной функцией, градиент вокруг минимума является резким.

По мере увеличения погрешности размер данных определяет RMSE, а также чувствительность к выбросам. Для сходимости модели необходимо уменьшить чувствительность, что приводит к дополнительным затратам на использование RMSE.

8. Среднеквадратическая логарифмическая ошибка (MSLE)

Среднеквадратическая логарифмическая ошибка (MSLE) измеряет разницу между фактическим значением и ожидаемым значением. Добавление логарифма снижает внимание MSLE к процентной разнице между фактическими и прогнозируемыми значениями, а также к относительной разнице между ними. MSLE будет грубо обрабатывать небольшие различия между небольшими фактическими и ожидаемыми значениями и большими различиями между фактическими и прогнозируемыми значениями.

Эту потерю можно интерпретировать как меру отношения между истинными и прогнозируемыми значениями, поскольку:

Преимущество:

Рассматривайте небольшую разницу между небольшим фактическим и прогнозируемым значением как большую разницу между большим фактическим и прогнозируемым значением.

Недостаток:

MSLE наказывает заниженные прогнозы больше, чем завышенные.

9. Среднеквадратическая логарифмическая ошибка (RMSLE)

Среднеквадратическая логарифмическая ошибка вычисляется путем применения log к фактическим и прогнозируемым значениям, а затем их вычитания. Когда учитываются как малые, так и большие ошибки, RMSLE может избежать влияния выбросов.

Преимущество:

RMSLE работает в нескольких масштабах и не зависит от масштаба. На него не влияют значительные выбросы. Учитываются только относительные ошибки между фактическими и ожидаемыми значениями.

Недостаток:

RMSLE является предвзятым и более строго наказывается за недооценку, чем за завышение.

10. Нормализованная среднеквадратическая ошибка (NRMSE)

Нормализованная среднеквадратическая ошибка (NRMSE) RMSE упрощает сравнение моделей в разных масштабах. Эта переменная имеет нормализованную среднеквадратичную ошибку (NRMSE) наблюдаемого диапазона, которая связывает среднеквадратичную ошибку с наблюдаемым диапазоном.

Преимущество:

NRMSE преодолевает зависимость от масштаба и упрощает сравнение между моделями разных масштабов или наборами данных.

Недостаток:

NRMSE теряет единицы, связанные с переменной ответа.

11. Относительная среднеквадратическая ошибка (RRMSE)

RRMSE — это безразмерный вариант RMSE. Относительная среднеквадратическая ошибка (RRMSE) — это мера среднеквадратичной ошибки, которая масштабируется по фактическому значению, а затем нормализуется по среднеквадратичному значению. Хотя масштаб необработанных измерений ограничивает RMSE, RRMSE можно использовать для сравнения различных методов измерения. Расширенная RRMSE возникает, когда ваши прогнозы оказываются неверными, и ошибка выражается относительно RRMSE или в процентах.

Преимущество:

RRMSE можно использовать для сравнения различных методов измерения.

Недостаток:

RRMSE может скрыть неточность экспериментальных результатов.

12. Хубер Лосс

Потеря Хубера представляет собой идеальное сочетание квадратичного и линейного алгоритмов подсчета очков. Существует также дельта гиперпараметра. Для значений потерь меньше дельты следует использовать MSE; для значений потерь больше дельты следует использовать MAE. Это удачно сочетает в себе лучшие черты обеих функций потерь.

Преимущество:

Линейность выше гиперпараметра δ гарантирует, что выбросам будут присвоены соответствующие веса (не такие экстремальные, как в MSE). Добавление гиперпараметра δ позволяет гибко адаптироваться к любому распределению.
Изогнутая форма под гиперпараметром δ обеспечивает правильную длину шагов во время обратного распространения.

Недостаток:

Из-за дополнительных условий и сравнений потеря Хубера требует больших вычислительных ресурсов, особенно если набор данных большой.
Для достижения наилучших результатов необходима оптимизация, что увеличивает требования к обучению.

13. ЛогКош Потеря

LogCosh Вычисляет логарифм гиперболического косинуса ошибки. Эта функция более гладкая, чем квадратичная потеря. Он работает как MSE, но невосприимчив к значительным ошибкам прогноза. Учитывая, что в нем используются линейные и квадратичные методы подсчета очков, он очень близок к потере Хубера.

Преимущество:

Потому что Logcosh вычисляет логарифм гиперболического косинуса ошибки. Следовательно, он имеет значительное преимущество перед проигрышем Хьюбера благодаря своей непрерывности и дифференцируемости.
По сравнению с проигрышем Хьюбера требуется меньше вычислений.

Недостаток:

Она менее адаптируема, чем функция Huber, потому что не требует настройки гиперпараметров.
Получение более сложное, чем потеря Huber, и требует дополнительных исследований.

14. Квантиль потерь

Функция потерь квантильной регрессии используется для прогнозирования квантилей. Квантиль — это значение, указывающее, сколько значений в группе ниже или выше определенного порога. Он вычисляет условную медиану или квантиль ответной (зависимой) переменной по значениям предикторов (независимых) переменных. Функция потерь является расширением MAE, за исключением того, что 50-й процентиль — это MAE. Он не делает предположений о параметрическом распределении отклика и даже предоставляет интервалы прогнозирования остатков с непостоянной дисперсией.

Преимущество:

Можно избежать влияния выбросов. Это облегчает интервальное прогнозирование по сравнению с точечными оценками. Эту функцию также можно использовать в нейронных сетях и древовидных моделях для определения интервалов прогнозирования.

Недостаток:

Квантильная потеря требует больших вычислительных ресурсов. Квантильная потеря будет хуже, если мы оценим среднее значение или используем квадрат потери для количественной оценки эффективности.

Ссылка:

[1] https://arxiv.org/abs/2211.02989

Существует 14 функций потерь для задач регрессии. Вы знаете несколько из них?

1. Средняя абсолютная ошибка (MAE)

2. Среднеквадратическая ошибка (MSE)

3. Средняя ошибка смещения (MBE)

4. Относительная абсолютная ошибка (RAE)

5. Относительная квадратичная ошибка (RSE)

6. Средняя абсолютная ошибка в процентах (MAPE)

7. Среднеквадратическая ошибка (RMSE)

8. Среднеквадратическая логарифмическая ошибка (MSLE)

9. Среднеквадратическая логарифмическая ошибка (RMSLE)

10. Нормализованная среднеквадратическая ошибка (NRMSE)

11. Относительная среднеквадратическая ошибка (RRMSE)

12. Хубер Лосс

13. ЛогКош Потеря

Похожие вопросы