Силата на прогнозния анализ: Хипотези за линейна регресия

Линейната регресия е популярна статистическа техника за моделиране на връзката между зависима променлива и една или повече независими променливи. Той се използва широко в много дисциплини, включително икономика, социални науки, инженерство и бизнес. Преди да приложите линейна регресия, важно е да разберете предположенията, които са в основата на тази техника. Тези предположения помагат да се гарантира, че резултатите от анализа са надеждни и точни.

Предположенията на линейната регресия могат да бъдат класифицирани най-общо в четири категории: мултиколинеарност, хомоскедастичност, линейна връзка, липса на автокорелация и нормално разпределение на членовете на грешката.

Многоколинеарност:

Мултиколинеарност възниква, когато има висока степен на корелация между две или повече независими променливи в линеен регресионен модел. Това означава, че една независима променлива може да бъде предвидена с висока степен на точност, като се използва друга независима променлива или променливи в модела. В резултат на това става трудно да се определят независимите ефекти на всяка променлива върху зависимата променлива.

Как мултиколинеарността влияе върху нашия модел?

Нестабилни коефициенти: Мултиколинеарността може да доведе до нестабилни оценки на регресионните коефициенти. Това означава, че големината и посоката на коефициентите могат да се променят значително, когато се използват различни проби. Това може да доведе до претоварване.
Намалена прецизност:Мултиколинеарността може също да намали прецизността на оценките, което затруднява определянето кои независими променливи действително допринасят за модела. Вероятно грешките са големи.

Многолинейността може да се провери по следните начини:

1. Корелационна матрица:Тази корелационна матрица ни дава коефициентите на корелация на всяка характеристика една спрямо друга.

Можем да видим, че доста променливи са свързани една с друга. Има една двойка независими променливи с корелация, по-голяма от 0,8, която е общата площ на мазето и повърхността на първия етаж. Къщите с по-голяма сутеренна площ обикновено имат и по-голяма площ на първия етаж, така че трябва да се очаква висока корелация.

2. Фактор на инфлация на дисперсията (VIF): VIF е мярка за мултиколинеарност в набора от променливи за множество регресии. Колкото по-висока е стойността на VIF, толкова по-висока е корелацията между тези променливи. VIF стойности, по-високи от 10, показват, че мултиколинеарността е проблем.

където:

Ri Square = Некоригираният коефициент на определяне за регресия на i-тата независима променлива върху останалите.

Как трябва да се справим с мултиколинеарността?

1. Премахване на една от корелираните независими променливи: Най-лесният начин да се справите с мултиколинеарността е да премахнете една от корелираните независими променливи от модела.

2. Комбиниране на корелираните независими променливи:Друга опция е да комбинирате корелираните независими променливи в една променлива, която представлява и двете.

3. Регуларизация: Методите за регуляризация, като регресия на Ридж и регресия на Ласо, също могат да помогнат за справяне с мултиколинеарността чрез свиване на коефициентите на корелираните независими променливи.

Хомоскедастичност:

Хомоскедастичността е статистически термин, който се отнася до еднаква вариация на грешките в регресионен модел. Когато това е нарушено, това води до пристрастни и неефективни оценки на коефициента на регресия и може да повлияе на валидността на статистическите тестове.

Как да проверим за хетероскедастичност?

Точковата диаграма на остатъчните стойности спрямо прогнозираните стойности е добър начин за проверка за хомоскедастичност.
В случай на данни от времеви серии се изчертава диаграма на остатъците спрямо времето.

Не трябва да има ясен модел в разпределението и ако има специфичен модел, данните са хетероскедастични.

Проблеми, причинени от нарушаване на предположението за хомоскедастичност:

Хетероскедастичността води до придаване на твърде голяма тежест на малко подмножество от данни (а именно подмножеството, където дисперсията на грешката е най-голяма) при оценяване на коефициентите, което причинява пристрастност в изчислението и влияе върху производителността на модела.

Хетероскедастичността води до предубедена стандартна грешка. Стандартната грешка е централна за провеждането на тестове за значимост и изчисляването на доверителните интервали, пристрастните стандартни грешки водят до неправилни заключения относно значимостта на регресионните коефициенти.

Как да коригираме хомоскедастичността?

Един от най-разпространените методи за коригиране на хомоскедастичността е трансформирането на данните. Една от най-популярните трансформации е логаритмичната трансформация. Това може да бъде особено полезно, когато зависимата променлива е неотрицателна и дисперсията й нараства със средната стойност. Могат да се използват и други трансформации, като квадратен корен или реципрочна трансформация.

Линейна връзка (Линейност):

Линейната регресия изисква връзката между независимите и зависимите променливи да бъде линейна. Промяната в зависимата променлива е пропорционална на промяната в независимата(ите) променлива(и). Също така е важно да проверите за извънредни стойности, тъй като линейната регресия е чувствителна към извънредни ефекти.
Предположението за линейност може да се тества най-добре с диаграми на разсейване.

Предположението за линейност е важно, защото гарантира, че моделът е в състояние да улови истинската връзка между променливите.

Автокорелация:

Автокорелация възниква, когато остатъчните грешки зависят една от друга. Наличието на корелация по отношение на грешката драстично намалява точността на модела. Концепцията за автокорелация най-често се обсъжда в контекста на времеви серии от данни, в които наблюденията се случват в различни моменти от времето.

Автокорелацията може да бъде тествана с помощта на теста на Дърбин-Уотсън. Нулевата хипотеза на теста е, че няма серийна корелация. Статистиката на Дърбин-Уотсън е официален автокорелационен тест, който дава числена стойност между 0 и 4, със стойности близки до 2, показващи липса на автокорелация.

Тези променливи са остатъци от обикновена регресия на най-малките квадрати.

Нормално разпределение на термините за грешки:

Ако членовете на грешките не са разпределени нормално, доверителните интервали могат да станат твърде широки или тесни, т.е. нестабилни. Това не помага при оценката на коефициентите, базирани на минимизиране на функцията на разходите.

Понякога разпределението на грешките е „изкривено“ от наличието на няколко големи отклонения. Тъй като оценката на параметрите се основава на минимизиране на квадратната грешка, няколко екстремни наблюдения могат да окажат непропорционално влияние върху оценките на параметрите.

Естествената логаритмична трансформация към променливите може да се приложи за решаване на този проблем.

Заключение

И накрая, предположенията за линейна регресия са критични за осигуряване на надеждността и точността на резултатите. Нарушенията на тези предположения могат да доведат до пристрастни или ненадеждни оценки, както и до намаляване на прецизността и точността на регресионните коефициенти.

Вижте:

https://medium.com/@kothagundlarahul