МОДЕЛИ АРИМА И САРИМА

В приведенном ниже блокноте мы будем реализовывать модель прогнозирования временных рядов, используя МОДЕЛЬ ARIMA (интегрированное скользящее среднее авторегрессии) и SARIMA (интегрированное скользящее среднее сезонной авторегрессии).

  • Авторегрессия (AR): этот компонент относится к использованию прошлых значений самого временного ряда для прогнозирования будущих значений. Другими словами, это регрессия ряда против самого себя.
  • Интегрированный (I): этот компонент включает в себя дифференцирование ряда, чтобы сделать его стационарным, что означает удаление тенденций и повышение согласованности статистических свойств ряда с течением времени.
  • Скользящее среднее (MA): этот компонент включает использование прошлых ошибок прогноза (остатков) для прогнозирования будущих значений. Это похоже на регрессию ошибок прогноза.

Модели ARIMA обычно обозначаются как ARIMA(p, d, q), где:

  • p: Порядок авторегрессионного компонента (AR).
  • d: Степень различия (I)
  • q: Порядок компонента скользящего среднего (MA).

Модель SARIMA учитывает сезонные закономерности в данных.

  • Сезонный: этот компонент учитывает повторяющиеся закономерности, которые возникают в данных через регулярные промежутки времени, например ежемесячные, квартальные или годовые закономерности.

Модели SARIMA обычно обозначаются как SARIMA(p, d, q)(P, D, Q, s), где заглавные буквы обозначают сезонные компоненты:

  • P: Порядок сезонной авторегрессионной составляющей.
  • D: Степень сезонных различий
  • Вопрос: Порядок компонента сезонной скользящей средней.
  • s: продолжительность сезонного цикла (например, s = 12 для ежемесячных данных с годовым циклом).

Эти модели широко используются при анализе временных рядов и прогнозировании для выявления основных закономерностей и тенденций в данных. В следующей статье мы четко разграничим, когда использовать модели arima и sarima. Мы также подберем наш набор данных, используя как ARIMA, так и SARIMA. МОДЕЛИ и посмотрим, почему мы используем каждый из них в каждой ситуации. В приведенном ниже коде мы преобразуем столбец даты и времени, а также отбросим все остальные столбцы и оставим только целевой столбец.

Затем мы посмотрим на распределение нашего набора данных, как продажи меняются от года к году.

Мы также можем посмотреть и рассчитать средние продажи за каждый год.

Мы также можем посмотреть на распределение данных по месяцам.

В следующем коде мы будем выполнять график скользящего среднего и стандартного отклонения.

В приведенном ниже коде мы будем определять, являются ли наши данные сезонными или канцелярскими товарами, это ляжет в основу модели, которую мы будем использовать.

После построения приведенных выше данных мы ясно видим, что наши данные являются сезонными. Зная это, мы можем решить, какую модель использовать: SARIMAX ИЛИ ARIMA. Если наши данные сезонные, мы используем SARIMAX, а если это канцелярские данные, мы используем ARIMA. Поскольку мы уже пришли к выводу, что наши данные являются сезонными и что мы будем использовать модель саримакс, мы начнем определять параметры, которые будут использоваться для построения модели. нам нужны значения p,d q для построения этой модели (SARIMAX/ARIMA)

Мы начнем с определения значения d. Значение od d равно 0 или 1, если данные стационарные, мы должны использовать 0, а если данные сезонные, мы должны использовать 1.

В приведенной ниже строке кода мы будем искать значение p. Значение p мы бы просто назвали так: после какой строки мы видим, как наша построенная линия расширяется и имеет наибольшее изменение в кривой. мы смотрим на эту линию и после того, как увидим ее, сможем фактически определить значение p

В приведенном ниже коде мы будем искать значение q (скользящее среднее). На приведенных ниже графиках мы находим корреляцию и то, почему первая нанесенная цифра всегда будет совпадать с 1, и, таким образом, чтобы найти q, мы смотрим, откуда взят первый график. мы снова начинаем подниматься, и совершенно ясно, что мы начинаем подниматься со второго участка, исключая первый участок, и, таким образом, наше q равно 2

Как мы уже говорили, с данными будут работать и арима, и сарима, но давайте посмотрим, как использование МОДЕЛИ ARIMA повлияет на стационарный тренд (имейте в виду, что мы должны использовать модель сарима). Мы подойдем к модели арима и увидим результаты.

Теперь посмотрим на результаты наших прогнозов.

Совершенно очевидно, что наша модель работает ниже ожиданий, и поэтому использовать модель Арима было бы очень неразумно, поскольку данные являются сезонными.

В приведенном ниже коде мы теперь будем использовать модель Сарима, группируем значения, используем PDQ и фиксируем значения до 1, чтобы предположить, что в течение всего года у нас есть одни pq и d, и они повторяются каждые 12 месяцев.

Теперь мы видим, что наша модель спрогнозирована правильно и работает очень хорошо. Секрет заключается в том, чтобы сначала понять данные, когда мы понимаем, являются ли данные сезонными или стационарными, тогда мы можем знать, какая модель подойдет, и, таким образом, будут сделаны правильные прогнозы. к этому и, таким образом, сделана правильная область прогнозов. Код здесь