МОДЕЛИ ARIMA И SARIMA

В бележника по-долу ще прилагаме модел за прогнозиране на времеви редове, използвайки ARIMA MODEL (Авторегресивна интегрирана подвижна средна) и SARIMA (Сезонна авторегресивна интегрирана подвижна средна)

  • Авторегресия (AR): Този компонент се отнася до използването на минали стойности на самата времева серия за прогнозиране на бъдещи стойности. С други думи, това е регресия на сериала срещу себе си.
  • Интегриран (I): Този компонент включва диференциране на серията, за да стане стационарна, което означава премахване на тенденциите и правене на статистическите свойства на серията по-последователни във времето.
  • Пълзяща средна (MA): Този компонент включва използване на минали прогнозни грешки (остатъци) за прогнозиране на бъдещи стойности. Това е като регресия на грешките в прогнозата.

ARIMA моделите обикновено се обозначават като ARIMA(p, d, q), където:

  • p: Редът на авторегресивния компонент (AR)
  • d: Степента на разлика (I)
  • q: Редът на компонента на подвижната средна (MA)

Моделът SARIMA взема предвид сезонните модели в данните.

  • Сезонни: Този компонент отчита повтарящите се модели, които се появяват на редовни интервали в данните, като например месечни, тримесечни или годишни модели.

Моделите SARIMA обикновено се обозначават като SARIMA(p, d, q)(P, D, Q, s), където главните букви представляват сезонните компоненти:

  • P: Редът на сезонния авторегресивен компонент
  • D: Степента на сезонна разлика
  • Въпрос: Редът на компонента на сезонната пълзяща средна
  • s: Продължителността на сезонния цикъл (напр. s = 12 за месечни данни с годишен цикъл)

Тези модели се използват широко при анализ на времеви редове и прогнозиране за улавяне на основните модели и тенденции в данните. В следващата статия ще разграничим ясно кога да използваме arima и sarima моделите. Ние също така ще съобразим нашия набор от данни, като използваме както ARIMA, така и SARIMA МОДЕЛИ и вижте защо използваме всеки във всяка ситуация. В кода по-долу ще преобразуваме колоната за дата и час, а също така ще премахнем всички останали колони и ще останем само с целевата колона.

След това ще разгледаме разпределението на нашия набор от данни как продажбите варират от година на година

Можем също да разгледаме и изчислим средните продажби за всяка година

Можем също да разгледаме разпределението на рамката от данни през месеците

В следния код ще изпълним, където ще начертаем подвижната средна стойност и стандартното отклонение

За кода по-долу ще определяме дали нашите данни са сезонни или канцеларски, това ще формира основата на модела, който ще използваме.

След начертаването на горните данни можем ясно да видим, че нашите данни са сезонни. След като знаем това, можем да решим кой модел да използваме дали SARIMAX ИЛИ ARIMA. Ако данните ни са сезонни, ние използваме SARIMAX, а ако са канцеларски материали, използваме ARIMA. Тъй като вече стигнахме до заключението, че нашите данни са сезонни и че ще приемем модел sarimax, тогава ще започнем да измисляме параметрите, които да използваме за изграждане на модела. имаме нужда от стойностите p,d q, за да изградим този модел (SARIMAX /ARIMA)

Ще започнем, като намерим нашата d стойност. Стойността od d е 0 или 1, ако данните са канцеларски, трябва да използваме 0 и ако данните са сезонни, трябва да използваме 1

В реда от кода по-долу ще търсим стойността на p. Стойността на p просто бихме я изразили като след кой ред виждаме, че нашата начертана линия се разширява и има най-голяма промяна в кривата. гледаме този ред и след като го видим, всъщност можем да определим стойността на p

В кода по-долу ще търсим стойността на q (пълзяща средна). В графиките по-долу намираме корелацията и защо първата начертана фигура винаги ще съвпада с 1 и по този начин, за да намерим q, гледаме къде от първата графика започваме ли да се издигаме отново и е съвсем ясно, че започваме да се издигаме от втория график, като изключим първия график и по този начин нашето q е равно на 2

Както казахме, както arima, така и sarima ще работят върху данните, но нека видим ефекта от използването на ARIMA MODEL върху тенденция за канцеларски материали (имайте предвид, че трябва да използваме sarima model) Ние ще съобразим модела arima и ще видим резултатите

Сега ще разгледаме резултатите от нашите прогнози

Съвсем ясно е, че нашият модел се представя под очакваното и по този начин използването на модела на Arima би било много неразумно, тъй като данните са сезонни

В кода по-долу сега ще използваме модела sarima и ще групираме стойностите и ще използваме PDQ и фиксираме стойностите на 1, за да приемем, че за цялата година имаме едно pq и d и то се повтаря на всеки 12 месеца

Сега можем да видим, че нашият модел е предсказан правилно и се представя много добре. Тайната е първо да разберем данните, когато разберем данните дали са сезонни или канцеларски, тогава можем да знаем кой модел да се побере и по този начин ще бъдат направени правилните прогнози. към това и по този начин правилната област на прогнозите е направена. Кодът е тук