Линейная регрессия — популярный статистический метод моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. Он широко используется во многих дисциплинах, включая экономику, социальные науки, инженерию и бизнес. Прежде чем применять линейную регрессию, важно понять допущения, лежащие в основе этого метода. Эти допущения помогают обеспечить надежность и точность результатов анализа.

Предположения линейной регрессии можно разделить на четыре категории: мультиколлинеарность, гомоскедастичность, линейная зависимость, отсутствие автокорреляции и нормальное распределение членов ошибки.

Мультиколлинеарность:

Мультиколлинеарность возникает, когда существует высокая степень корреляции между двумя или более независимыми переменными в модели линейной регрессии. Это означает, что одна независимая переменная может быть предсказана с высокой степенью точности, используя другую независимую переменную или переменные в модели. В результате становится трудно определить независимое влияние каждой переменной на зависимую переменную.

Как мультиколлинеарность влияет на нашу модель?

  1. Нестабильные коэффициенты. Мультиколлинеарность может привести к нестабильным оценкам коэффициентов регрессии. Это означает, что величина и направление коэффициентов могут значительно измениться при использовании разных выборок. Это может привести к переоснащению.
  2. Пониженная точность.Мультиколлинеарность также может снижать точность оценок, что затрудняет определение того, какие независимые переменные действительно влияют на модель. Ошибки, вероятно, будут высокими.

Мультиколлинеарность можно проверить следующими способами:

1. Матрица корреляции: эта матрица корреляции дает нам коэффициенты корреляции каждой функции по отношению друг к другу.

Мы видим, что довольно много переменных коррелируют друг с другом. Существует одна пара независимых переменных с коэффициентом корреляции более 0,8, а именно общая площадь подвала и площадь первого этажа. Дома с большей площадью подвала, как правило, имеют большую площадь первого этажа, поэтому следует ожидать высокой корреляции.

2. Фактор инфляции дисперсии (VIF): VIF — это мера мультиколлинеарности в наборе нескольких переменных регрессии. Чем выше значение VIF, тем выше корреляция между этими переменными. Значения VIF выше 10 указывают на проблему мультиколлинеарности.

где:

Ri Square = нескорректированный коэффициент детерминации для регрессии i-й независимой переменной по остальным.

Как мы должны обращаться с мультиколлинеарностью?

1. Удаление одной из коррелирующих независимых переменных. Самый простой способ справиться с мультиколлинеарностью — удалить из модели одну из коррелирующих независимых переменных.

2. Объединение коррелированных независимых переменных.Еще один вариант — объединить коррелированные независимые переменные в одну переменную, которая представляет их обе.

3. Регуляризация: методы регуляризации, такие как регрессия Риджа и регрессия Лассо, также могут помочь справиться с мультиколлинеарностью за счет уменьшения коэффициентов коррелирующих независимых переменных.

Гомоскедастичность:

Гомоскедастичность — это статистический термин, обозначающий равную дисперсию ошибок в регрессионной модели. Когда это нарушается, это приводит к необъективным и неэффективным оценкам коэффициента регрессии и может повлиять на достоверность статистических тестов.

Как проверить гетероскедастичность?

Диаграмма рассеяния остаточных значений по сравнению с прогнозируемыми значениями — хороший способ проверить гомоскедастичность.
В случае данных временных рядов строится график зависимости остатков от времени.

В распределении не должно быть четкой закономерности, а если она есть, то данные гетероскедастичны.​

Проблемы, вызванные нарушением предположения гомоскедастичности:

Эффект гетероскедастичности заключается в придании слишком большого веса небольшому подмножеству данных (а именно, подмножеству, в котором дисперсия ошибки была наибольшей) при оценке коэффициентов, что вызывает смещение в расчете и влияет на производительность модели.

Гетероскедастичность приводит к смещенной стандартной ошибке. Стандартная ошибка играет центральную роль в проведении тестов значимости и расчете доверительных интервалов, предвзятые стандартные ошибки приводят к неверным выводам о значимости коэффициентов регрессии.

Как исправить гомоскедастичность?

Одним из наиболее распространенных методов исправления гомоскедастичности является преобразование данных. Одним из самых популярных преобразований является логарифмическое преобразование. Это может быть особенно полезно, когда зависимая переменная неотрицательна и ее дисперсия увеличивается вместе со средним значением. Другие преобразования, такие как квадратный корень или обратное преобразование, также могут быть использованы.

Линейная зависимость (линейность):

Линейная регрессия требует, чтобы связь между независимыми и зависимыми переменными была линейной. Изменение зависимой переменной пропорционально изменению независимой переменной (переменных). Также важно проверять наличие выбросов, поскольку линейная регрессия чувствительна к эффектам выбросов.
Предположение о линейности лучше всего проверить с помощью точечных диаграмм.

Предположение о линейности важно, потому что оно гарантирует, что модель способна отразить истинную связь между переменными.

Автокорреляция:

Автокорреляция возникает, когда остаточные ошибки зависят друг от друга. Наличие корреляции в терминах ошибок резко снижает точность модели. Концепция автокорреляции чаще всего обсуждается в контексте данных временных рядов, в которых наблюдения происходят в разные моменты времени.

Автокорреляцию можно проверить с помощью теста Дарбина-Ватсона. Нулевая гипотеза теста состоит в том, что серийная корреляция отсутствует. Статистика Дарбина-Ватсона представляет собой формальный тест автокорреляции, который дает числовое значение от 0 до 4, а значения, близкие к 2, указывают на отсутствие автокорреляции.

Эти переменные являются остатками обычной регрессии методом наименьших квадратов.

Нормальное распределение ошибок:

Если члены ошибок не распределены нормально, доверительные интервалы могут стать слишком широкими или узкими, т. е. нестабильными. Это не помогает при оценке коэффициентов на основе минимизации функции стоимости.

Иногда распределение ошибок «искажается» из-за наличия нескольких больших выбросов. Поскольку оценка параметров основана на минимизации квадрата ошибки, несколько экстремальных наблюдений могут оказать непропорциональное влияние на оценки параметров.

Для решения этой проблемы можно применить естественное логарифмическое преобразование переменных.

Заключение

Наконец, предположения о линейной регрессии имеют решающее значение для обеспечения надежности и точности результатов. Нарушение этих допущений может привести к необъективным или ненадежным оценкам, а также к снижению точности и достоверности коэффициентов регрессии.

Проверьте это:

https://medium.com/@kothagundlarahul