Въведение:

Линейната регресия е широко използвана статистическа техника за прогнозиране на непрекъснати резултати въз основа на връзката между независими и зависими променливи. За да се оцени ефективността на линеен регресионен модел, се използват различни показатели за оценка. В тази публикация в блога ще проучим и обясним формулите, предимствата, недостатъците и някои общи показатели за оценка на линейната регресия.

Описание на набора от данни:

Наборът от данни за заплатите се състои от две колони: години опит и заплата. Колоната YearsExperience представлява броя на годините опит, а колоната Salary представлява съответната заплата на отделните лица.

След прилагане на линейна регресия можем да наблюдаваме най-подходяща линия, маркирана с „x“ на екранната снимка. Точките с данни, маркирани със зелени кръгове, представляват действителните стойности. Несъответствието между тези действителни стойности и съответните прогнозирани стойности от нашия модел е известно като грешка. С други думи, грешката представлява отклонението или вариацията между истинските резултати и прогнозираните стойности, генерирани от нашия модел на линейна регресия. Целта на оценяването на тези грешки е да се оцени точността и ефективността на модела при правенето на прогнози.

Например, нека видим действителните спрямо прогнозираните стойности за 3,3 години опит.

Реалната стойност е 54 446.

Прогнозната стойност е 57190.20107683.

Така че грешката е (Действително — Предвидено) при прогнозиране на стойността, която е при индекс1.

57190.20107683–54446.0

=2,744.20107683

Горната грешка е само за една точка, а общата грешка е равна на сумата от квадратите на грешките от всички точки.

Сега нека проучим различни показатели за оценка, които могат да се използват за количествено определяне и анализ на грешките в прогнозите на нашия модел на линейна регресия. Тези показатели осигуряват количествена мярка за несъответствията между действителните и прогнозираните стойности. Чрез изследване на тези показатели за оценка можем да придобием представа за точността и ефективността на модела при правенето на прогнози.

Средна квадратна грешка (MSE): Средната квадратна грешка измерва средната квадратна разлика между прогнозираните и действителните стойности. Той определя количествено общата точност на прогнозите на модела.

Предимства:

1. MSE е широко използван и лесен за тълкуване.

2. Санкционира по-големите грешки повече от по-малките грешки поради повдигането на квадрат на остатъците.

3. Гарантира, че сумата на остатъците е нула, което го прави безпристрастен оценител.

Недостатъци:

1. Показателят е чувствителен към отклонения, тъй като техните квадратни остатъци могат значително да повлияят на стойността.

2. Тъй като MSE се изчислява с помощта на единици на квадрат, може да не осигури ясно разбиране на големината на грешката.

Средна квадратна грешка (MSE), изчислена за нашия набор от данни.

Средноквадратична грешка (RMSE):

Средната квадратна грешка е корен квадратен от MSE. Той осигурява средната грешка между прогнозираните и действителните стойности в оригиналната скала на зависимата променлива.

Предимства:

1. RMSE е лесно интерпретируем, тъй като се изразява в същите единици като зависимата променлива.

2. Осигурява ясна мярка за средната величина на грешката при прогнозиране.

Недостатъци:

1. Подобно на MSE, RMSE е чувствителен към отклонения.

2. Може да не е подходящо, когато фокусът е върху процентната или пропорционалната грешка.

Средноквадратична грешка (MSE), изчислена за нашия набор от данни.

Средна абсолютна грешка (MAE):

Средната абсолютна грешка измерва средната абсолютна разлика между прогнозираните и действителните стойности. Той предоставя линейна мярка на средната грешка при прогнозиране.

Предимства:

1. MAE не е чувствителен към отклонения, тъй като използва абсолютни разлики вместо квадратни остатъци.

2. По-лесно е за тълкуване, тъй като представлява средната големина на грешките.

Недостатъци:

1. MAE третира всички грешки еднакво, независимо от тяхната големина, което може да не е желателно в определени сценарии.

Средна абсолютна грешкаизчислена за нашия набор от данни.

R-квадрат (R²):

R-квадрат е друг показател за оценка, използван в линейната регресия за оценка на съответствието на модела. За разлика от средната квадратична грешка (MSE), която се фокусира върху големината на грешките, R² измерва съотношението на дисперсията в зависимата променлива, която може да бъде обяснена от независимите променливи.

R² варира от 0 до 1, където:

· Стойност на R² от 0 показва, че моделът не обяснява никаква дисперсия в зависимата променлива, което предполага лошо съответствие.

· Стойност на R² от 1 показва перфектно съответствие, където цялата дисперсия в зависимата променлива се обяснява от независимите променливи.

Предимства:

· R² е лесен за тълкуване и разбиране, тъй като представлява процентът на дисперсията, обяснен от модела.

· Позволява директно сравнение между различни модели, като по-висок R² показва по-добро прилягане.

Недостатъци:

· R² има тенденция да се увеличава с добавянето на повече независими променливи, дори ако те нямат реална предсказваща сила. Това може да доведе до претоварване.

По-висок R² резултат предполага, че по-голяма част от дисперсията в зависимата променлива може да се обясни с независимите променливи, което показва по-добро съответствие. Обратно, по-нисък R² резултат предполага, че моделът обяснява по-малко от дисперсията и може да не е толкова ефективен при точното прогнозиране на зависимата променлива.

Важно е да се отбележи, че R² трябва да се използва заедно с други показатели за оценка, като MSE или RMSE, за да се получи цялостно разбиране на ефективността на модела и да се избегне разчитането единствено на R² за оценка на модела.

Формулата за изчисляване на R-квадрат (R²) е следната:

където:

SSR (Sum of Squared Residuals) е сумата от квадратните разлики между прогнозираните и действителните стойности.

SST (обща сума на квадратите) е сборът от квадратите на разликите между действителните стойности и средната стойност на зависимата променлива.

Числителят (SSR) представлява необяснимата вариация в зависимата променлива, докато знаменателят (SST) представлява общата вариация в зависимата променлива.

Заключение:

При оценката на моделите на линейна регресия различните показатели за оценка предлагат различни предимства и недостатъци. Изборът на подходящ показател зависи от специфичните изисквания на анализа и естеството на данните. Средната квадратна грешка (MSE) и средната квадратна грешка (RMSE) са подходящи, когато целта е минимизиране на общата грешка, докато средната абсолютна грешка (MAE) предоставя линейна мярка на средната грешка. R-квадратът помага да се оцени доброто съответствие и обяснената пропорция на дисперсията. Като разбират тези показатели, анализаторите могат ефективно да оценят ефективността на линейните регресионни модели и да вземат информирани решения.