Сумма квадратов общей суммы, суммы квадратов регрессии и суммы квадратов ошибок.

ANOVA (Анализ дисперсии) - это структура, которая формирует основу для тестов значимости и предоставляет сведения об уровнях изменчивости в регрессионной модели. Это то же самое, что и линейная регрессия, но одно из основных отличий заключается в том, что регрессия используется для прогнозирования непрерывного результата на основе одной или нескольких переменных-предикторов. Принимая во внимание, что ANOVA используется для прогнозирования непрерывного результата на основе одной или нескольких категориальных переменных-предикторов.

При реализации линейной регрессии мы часто используем жаргон, такой как SST (сумма квадратов итогов), SSR (сумма квадратов регрессии), SSE ( Sum of Squared Error), и интересно, что они на самом деле означают? В этом посте мы рассмотрим эти темы, а также реализуем пример, чтобы лучше и лучше понять предмет.

SST (сумма квадратов итогов)

Сумма квадратов итогов - это квадраты разностей между наблюдаемой зависимой переменной и ее средним значением (средним). Здесь следует отметить одно важное замечание: мы всегда сравниваем нашу линию наилучшего соответствия линейной регрессии со средним значением (обозначенным как y) наклона зависимой переменной.

SSR (сумма квадратов регрессии)

Сумма квадратов регрессии - это сумма разностей между прогнозируемым значением и средним значением зависимой переменной.

SSE (сумма квадратов ошибок)

S квадратной ошибки - это разница между наблюдаемым значением и прогнозируемым значением.

Чтобы понять, как используется эта сумма квадратов, давайте рассмотрим пример простой линейной регрессии вручную. Предположим, Джон работает официантом в Hotel California, у него есть общий счет на физическое лицо, а также он получает чаевые в таком порядке. мы хотели бы предсказать, какие будут следующие чаевые, исходя из общей суммы полученного счета. Обозначим общий счет как (x), а сумму чаевых как (y).

y = α + βx даст прогнозируемые значения, а мы вычисляем значения α и β по приведенной выше формуле, где β - наклон, а α - точка пересечения по оси y. Цель простой линейной регрессии - создать линейную модель, которая минимизирует сумму квадратов остатков (ошибки).

Интересный факт о линейной регрессии состоит в том, что она состоит из двух статистических концепций ANOVA и Correlation.

Линейная регрессия = корреляция + ANOVA
Возвращаемся к теме…

Как связаны SST, SSR и SSE?

SST = SSR + SSE

В приведенной выше таблице мы видим, что раньше сумма квадрата ошибки составляла 120, а позже она уменьшилась до 30,075, то есть мы уменьшили значение ошибки со 120 до 30,075, используя линейную регрессию. Раньше линия наилучшего соответствия представляла собой среднее значение наклона зависимой переменной, которое позже изменялось на линию оптимального наилучшего соответствия.

120 =? + 30,075
Следовательно, значение SSR равно 89,925.

Зачем нам нужна сумма квадратов?

Ответ заключается в том, чтобы определить степень соответствия. Его можно определить с помощью коэффициента детерминации, также известного как R². R² определяет соотношение в процентах. Кроме того, R² часто путают с «r», где R² - это коэффициент детерминации, а r - коэффициент корреляции. Корреляция измеряет линейную корреляцию между двумя переменными X и Y. Она варьируется от значений от -1 до 1, где значения, близкие к 1, имеют положительную взаимосвязь, а значения, близкие к -1, имеют отрицательную взаимосвязь. Например, в приведенной выше таблице мы получаем значение r как 0,8656, которое ближе к 1 и, следовательно, отражает положительную взаимосвязь.

Последнее слово

Важно помнить о формулах: -

  • R² = SSR / SST
  • R² = 1- (SSE / SST)
  • SSE = Σ (фактический прогноз) ²
  • SST = Σ (фактическое среднее) ²
  • SSR = Σ (прогнозируемое среднее) ²

Я надеюсь, что смогу помочь вам ответить на вопросы, связанные с этой темой. Пожалуйста, не стесняйтесь узнать больше по моему контактному идентификатору: - Рахул Патхак.
Большое спасибо! :)