Методите за прогнозиране на времеви редове включват използване на набор от исторически времеви редове за прогнозиране, които се използват широко в обработката на сигнали, разпознаването на образи, иконометрията, математическите финанси, прогнозирането на времето, прогнозирането на земетресенията и други области. В миналото методите за прогнозиране на времеви редове бяха предимно линейни методи. Въпреки това, в много скорошни приложения машинното обучение, дълбокото обучение, процесите на Гаус и изкуствените невронни мрежи са използвани за прогнозиране на времеви редове. Когато се занимаваме със задачи за прогнозиране на времеви редове, изборът на функцията на загубата е много важен, тъй като ще задвижи процеса на обучение на алгоритъма. В миналото бяха предложени различни функции на загуба за решаване на проблеми като отклонение на данните, дългосрочно прогнозиране и множествена колинеарност.

Този документ обобщава 14 често използвани функции на загуба и анализира техните предимства и недостатъци. Доказано е, че тези функции на загуба осигуряват най-модерните резултати в различни области. Този документ анализира тяхното представяне при различни задачи за бенчмарк за времеви серии, като се надява да помогне на професионалистите в индустрията и изследователите бързо да изберат подходящи функции на загуба за задачи и да избегнат твърде много експериментални опити.

Регресията е обща техника за моделиране на прогнозиране, която се използва за оценка на връзката между две или повече променливи. Това е техника за контролирано обучение, която може да се дефинира като статистическа техника и независима променлива, използвана за моделиране на връзката между свързани реални променливи.

Данните от времевия ред са малко по-различни от данните, базирани на регресия, тъй като информацията за времето се добавя към характеристиките, което прави целта по-сложна. Данните от времеви редове имат следните компоненти:

● Ниво: Всеки времеви ред има базово ниво. Простото изчисление на базовото ниво може да се получи директно чрез изчисляване на средната стойност/медианата на исторически данни;

● Периодичност: данните от динамичните редове също имат модел, наречен периодичност, който се повтаря нередовно, което означава, че няма да се появяват на същия фиксиран интервал;

● Тенденция: показва дали времевият ред се увеличава или намалява за период от време. С други думи, има възходяща (нарастваща) или низходяща (намаляваща) тенденция;

● Сезонност: моделът, повтарящ се в рамките на период от време, се нарича сезонност;

● Шум: След извличане на нивото, периодичността, тенденцията и сезонността, останалото е шум, което е напълно произволна промяна в данните.

Основната цел на всеки модел за машинно обучение е да подобри избраните показатели на модела и да намали свързаните с това загуби. Важна част от моделите за машинно обучение или дълбоко обучение за прогнозиране на времеви редове е функцията на загубата. Производителността на модела се измерва според функцията на загубата, която насърчава актуализирането на параметрите на модела.

Следва анализ на четиринадесет функции на загуба:

1. Средна абсолютна грешка (MAE)

MAE, известна още като L1 загуба, е абсолютната грешка между прогнозираните и действителните стойности:

Средната стойност на абсолютните грешки на всички пробни стойности се нарича MAE:

Графика на ефективността на MAE загуба и прогнози MAE е проста и ефективна функция на загуба, често използвана в регресионни модели. Но променливите в регресионния проблем може да не са строго Гаусови поради отклонения, които ще причинят някои проблеми.

Предимство:

MAE е изчислително прост и осигурява единна мярка за производителността на модела. MAE е по-малко чувствителен към отклонения.

Недостатък:

MAE следва линеен метод за оценяване, което означава, че всички грешки се претеглят еднакво при изчисляване на средната стойност. Поради стръмността на MAE може да пропуснем минимумите по време на обратното разпространение. MAE не може да се диференцира при нула, така че изчисляването на градиенти е трудно.

2. Средна квадратна грешка (MSE)

MSE, известна също като L2 загуба, е квадратната грешка между прогнозираните и действителните стойности:

Средната стойност на квадратните грешки на всички примерни стойности се нарича MSE, известна също като средна квадратна грешка:

MSE е известен също като квадратична загуба, тъй като наказанието е на квадрат, а не пропорционално на грешката. Когато грешките са повдигнати на квадрат, крайните стойности получават по-голяма тежест, създавайки плавен градиент за по-малки грешки. Възползването от това наказание за огромни грешки помага на алгоритъма за оптимизация да получи най-добрите стойности за параметрите. Тъй като грешката е на квадрат, MSE никога не може да бъде отрицателна и стойността на грешката може да бъде навсякъде от 0 до безкрайност. С нарастването на грешката MSE нараства експоненциално и добрият модел ще има стойност на MSE, близка до 0.

Предимство:

MSE улеснява ефективната минимална конвергенция при малки грешки, когато градиентите се намаляват постепенно. Стойността на MSE се изразява като квадратно уравнение, което помага да се санкционира моделът в случай на извънредни стойности.

Недостатък:

Поставянето на квадрат на тези стойности ускорява обучението, но по-високите стойности на загубите могат да причинят големи скокове по време на обратното разпространение, което е нежелателно. MSE е особено чувствителен към отклонения, което означава, че значителните отклонения в данните могат да повлияят на ефективността на нашия модел.

3. Средна грешка при отклонение (MBE)

Тенденцията да се надценяват или подценяват стойностите на параметрите се нарича отклонение или средна грешка на отклонение. Единствената възможна посока на отклонението е положителна или отрицателна. Положителното отклонение показва, че грешките в данните са надценени, докато отрицателното отклонение показва, че грешките са подценени.
Разликата между действителните и очакваните стойности се измерва като средна грешка на отклонението (MBE). Средното отклонение в прогнозите се определя количествено чрез MBE. На практика е същото като MAE, с изключение на това, че не се вземат предвид абсолютните стойности. MBE трябва да се третира с повишено внимание, тъй като положителните и отрицателните грешки могат взаимно да се компенсират.

Предимство:

Ако искате да идентифицирате и коригирате отклонението на модела, трябва да използвате MBE, за да определите посоката на модела (т.е. дали е положителен или отрицателен).

Недостатък:

MBE има тенденция постоянно да греши в една посока, докато се опитва да предвиди модели на сигнала. Като се има предвид, че грешките са склонни да се компенсират една друга, това не е подходяща функция за загуби за числа в диапазона (−∞,∞).

4. Относителна абсолютна грешка (RAE)

RAE се изчислява чрез разделяне на общата абсолютна грешка на абсолютната разлика между средната и действителната стойност:

RAE е метрика, базирана на съотношение, използвана за оценка на ефективността на предсказуемите модели. Възможните стойности за RAE са между 0 и 1. Стойностите близки до нула (нулата е най-добрата стойност) са характерни за добър модел.

Предимство:

RAE може да сравнява модели, които измерват грешки в различни единици.

недостатък:

Ако референтната прогноза е равна на истинската стойност, RAE може да стане непредсказуем, което е един от основните му недостатъци.

5. Относителна грешка на квадрат (RSE)

RSE измерва колко неточен би бил резултатът без прост предиктор. Този прост предиктор просто представлява средната стойност на действителните стойности. В резултат на това относителната квадратна грешка нормализира общата квадратна грешка, като я раздели на общата квадратна грешка на простите предиктори. Могат да се правят сравнения между модели, които изчисляват грешки в различни единици.

Предимство:

RSE няма нищо общо с мащаба. Позволява сравнение на модели, когато грешката се измерва в различни единици.

Недостатък:

RSE не се влияе от средната стойност или размера на прогнозата.

6. Средна абсолютна процентна грешка (MAPE)

Средната абсолютна процентна грешка (MAPE), известна още като средно абсолютно процентно отклонение (MAPD), е показател, използван за оценка на точността на система за прогнозиране. Той изчислява средния процент на грешка в абсолютен процент за всеки период от време, като извади абсолютната стойност на прогнозираната стойност от действителната стойност и я раздели на действителната стойност. Средната абсолютна процентна грешка (MAPE) се използва широко за прогнозна грешка, тъй като единиците на променливата са мащабирани до процентни единици. Работи добре, когато няма отклонения в данните и често се използва при регресионен анализ и оценка на модела.

Предимство:

MAPE загубата се изчислява чрез нормализиране на всички грешки до един процент. Тъй като оценките на грешката се изразяват като проценти, MAPE не зависи от размера на променливите. Тъй като MAPE използва абсолютни процентни грешки, проблемът с положителните числа, компенсиращи отрицателните числа, се избягва.

Недостатък:

Тъй като знаменателят на уравнението MAPE е прогнозираният изход, той може да бъде нула, което води до недефинирана стойност. MAPE санкционира положителните грешки по-малко от отрицателните грешки. Следователно, когато сравняваме точността на алгоритмите за прогнозиране, тя е предубедена, защото по подразбиране се избира алгоритъмът, чийто резултат е твърде нисък.

7. Средноквадратична грешка (RMSE)

Корен квадратен от MSE се използва за изчисляване на RMSE. Средното квадратично отклонение е другото име за RMSE. Той взема предвид промяната в действителната стойност и измерва средния размер на грешката. RMSE може да се приложи към различни функции, тъй като помага да се определи дали дадена функция подобрява прогнозите на модела. RMSE е най-полезен, когато огромните грешки са много нежелателни.

Предимство:

RMSE се използва като евристика за обучение на модела. Много методи за оптимизация го избират, защото е лесно диференциран и изчислително прост. Дори при по-големи стойности има по-малко екстремни загуби и квадратният корен води до RMSE, санкционирана по-малко грешка от MSE.

Недостатък:

Тъй като RMSE все още е линейна точкова функция, градиентът е рязък около минимума.

С нарастването на границата на грешка размерът на данните определя RMSE, както и чувствителността към извънредни стойности. За да се сближи моделът, чувствителността трябва да бъде намалена, което води до допълнителни разходи за използване на RMSE.

8. Средна квадратна логаритмична грешка (MSLE)

Средната квадратична логаритмична грешка (MSLE) измерва разликата между действителната и очакваната стойност. Добавянето на логаритъм намалява фокуса на MSLE върху процентната разлика между действителните и прогнозираните стойности, както и относителната разлика между двете. MSLE грубо ще се справи с малки разлики между малки действителни и очаквани стойности и големи разлики между действителни и прогнозирани стойности.

Тази загуба може да се тълкува като мярка за съотношението между истинските и прогнозираните стойности, тъй като:

Предимство:

Третирайте малка разлика между малка действителна и прогнозирана стойност като голяма разлика между голяма действителна и прогнозирана стойност.

Недостатък:

MSLE наказва недостатъчните прогнози повече от свръх прогнозите.

9. Средна квадратна логаритмична грешка (RMSLE)

Средноквадратичната логаритмична грешка се изчислява чрез прилагане на log към действителните и прогнозираните стойности и след това ги извади. Когато се вземат предвид както малки, така и големи грешки, RMSLE може да избегне влиянието на извънредните стойности.

Предимство:

RMSLE работи в множество мащаби и е независим от мащаба. Не се влияе от значителни отклонения. Разглеждат се само относителни грешки между действителните и очакваните стойности.

Недостатък:

RMSLE е предубеден и се наказва по-тежко за подценяване, отколкото за надценяване.

10. Нормализирана средна квадратична грешка (NRMSE)

Нормализирана средна квадратична грешка (NRMSE) RMSE улеснява сравненията между модели в различни мащаби. Тази променлива има нормализирана RMSE (NRMSE) на наблюдавания диапазон, който свързва RMSE с наблюдавания диапазон.

Предимство:

NRMSE преодолява зависимостта от мащаба и опростява сравнението между модели с различни мащаби или набори от данни.

Недостатък:

NRMSE губи единици, свързани с променливата на отговора.

11. Относителна средна квадратична грешка (RRMSE)

RRMSE е безразмерен вариант на RMSE. Относителната средноквадратична грешка (RRMSE) е мярка за средна квадратична грешка, която е мащабирана с действителната стойност и след това нормализирана със средноквадратичната стойност. Въпреки че мащабът на необработените измервания ограничава RMSE, RRMSE може да се използва за сравняване на различни методи за измерване. Подобреният RRMSE възниква, когато вашите прогнози се окажат грешни и грешката се изразява спрямо RRMSE или като процент.

Предимство:

RRMSE може да се използва за сравняване на различни техники за измерване.

Недостатък:

RRMSE може да скрие неточността в експерименталните резултати.

12. Загуба на Хубер

Загубата на Huber е идеална комбинация от квадратични и линейни алгоритми за точкуване. Има и хиперпараметър делта. За стойности на загубите, по-малки от делта, трябва да се използва MSE; за стойности на загуба, по-големи от делта, трябва да се използва MAE. Това успешно съчетава най-добрите характеристики на двете функции за загуба.

Предимство:

Линейността над хиперпараметъра δ гарантира, че отклоненията получават подходящи тегла (не толкова екстремни, колкото при MSE). Добавянето на хиперпараметър δ позволява гъвкаво адаптиране към всяко разпределение.
Извитата форма под хиперпараметър δ гарантира, че дължината на стъпките е правилна по време на обратното разпространение

Недостатък:

Поради допълнителните условия и сравнения загубата на Huber е скъпа от изчислителна гледна точка, особено ако наборът от данни е голям.
За постигане на най-добри резултати е необходима оптимизация, което увеличава изискванията за обучение.

13. LogCosh загуба

LogCosh Изчислява логаритъма на хиперболичния косинус на грешката. Тази функция е по-плавна от квадратичната загуба. Той функционира като MSE, но е имунизиран срещу значителни грешки в прогнозата. Като се има предвид, че използва линейни и квадратични техники за точкуване, той е много близък до загубата на Huber.

Предимство:

Тъй като Logcosh изчислява логаритъма на хиперболичния косинус на грешката. Следователно, той има значително предимство пред загубата на Huber поради своята непрекъснатост и диференцируемост.
В сравнение с Huber се изискват по-малко изчисления.

Недостатък:

Той е по-малко адаптивен от Huber, защото няма хиперпараметри за настройка.
Извеждането е по-сложно от загубата на Huber и изисква повече изследвания.

14. Квантилна загуба

Функцията за загуба на квантилна регресия се използва за прогнозиране на квантили. Квантилът е стойност, която показва колко стойности в група са под или над определен праг. Той изчислява условната медиана или квантила на променливата на отговора (зависима) в стойностите на предикторните (независими) променливи. Функцията на загубата е разширение на MAE, с изключение на това, че 50-ият персентил е MAE. Той не прави предположения относно параметричното разпределение на отговора и дори предоставя интервали за прогнозиране за остатъци с непостоянна дисперсия.

Предимство:

Влиянието на отклоненията може да бъде избегнато. Това улеснява интервалното прогнозиране в сравнение с точковите оценки. Тази функция може да се използва и в невронни мрежи и дърво-базирани модели за определяне на интервали на прогнозиране.

Недостатък:

Квантилната загуба изисква много изчисления. Квантилната загуба ще бъде по-лоша, ако оценим средната стойност или използваме квадратна загуба за количествено определяне на ефективността.

Справка:

[1] https://arxiv.org/abs/2211.02989