Линейната регресия се счита за основна техника за анализ на статистически данни. Той се използва за определяне на степента на линейната връзка между зависимата променлива, както и една или повече от една независими променливи. Линейната регресия е предимно от два вида, а именно проста линейна регресия и множество линейни регресии. Следователно линейната регресия се опитва да направи връзката на модела в рамките на двете променливи, като ги свърже с линейното уравнение за наблюдение на данните. Двете променливи в рамките на линейните уравнения, едната променлива се счита за обяснителна променлива, докато другата променлива се счита за зависима променлива. Например, индивидуалното тегло се измерва спрямо неговата височина с помощта на модела на линейна регресия.

Преди опит за монтиране на линейния модел в рамките на наблюдаваните данни, лицето трябва да определи наличието на връзка между променливите, където моделът трябва да бъде монтиран. Това също не означава, че една променлива ще бъде отговорна за причиняването на другата променлива. Например, ако дадено лице има високи резултати на SAT, това не е непременно причина за високите оценки в колежа. Въпреки това ще съществува някаква съществена връзка между променливите. Точковата диаграма също може да бъде полезен инструмент за определяне на силата на връзката между двете променливи, които се разглеждат. Ако няма връзки между обяснителната променлива и зависимата променлива, която е диаграмата на разсейване, няма да покаже увеличението или намаляването на тенденциите. Следователно напасването на модела на линейната регресия няма да бъде полезно в този случай. Числената мярка на връзката между разглежданите променливи се нарича коефициент на корелация. Стойността на коефициента между -1 до 1 ще покаже силата на връзката за наблюдаваните данни между разглежданите две променливи. Линията на линейна регресия има уравнението под формата на Y=a + bX, където „X“ означава обяснителната променлива, а „Y“ означава зависимата променлива, „b“ се счита за наклон, а „a“ се счита за отсечка, която представлява стойността на Y, когато X =0.

Регресия на най-малкия квадрат

Регресията на най-малкия квадрат се счита за най-разпространения метод за напасване на линията на регресия и този метод е известен като регресия на най-малкия квадрат. Този метод се фокусира върху изчисляването на най-добрата линия на напасване за наблюдаваните данни. Това се прави чрез минимизиране на квадратната сума на вертикалното отклонение от всяка линия на точка от данни. Следователно, ако точката лежи върху напаснати линии, тогава вертикалното отклонение ще стане нула. Тъй като отклоненията първо се повдигат на квадрат и след това се сумират, следователно няма анулиране между положителните и отрицателните стойности.

Отклонения, както и влиятелни наблюдения

След като линията на регресия е изчислена с групата събрани данни, точката е далеч от линията на регресия и тази линия се нарича отклонение. Следователно тази точка ще има остатъчна стойност. Тази точка може да отразява погрешните данни и може също така да покаже неподходяща линия на регресия. Ако точката се намира далеч от други данни в хоризонтална посока, тогава точката се нарича влиятелни наблюдения. Разликата се дължи на факта, че точките оказват съществено влияние върху наклона на регресионната линия.

Остатъци

След монтирането на регресионния модел в рамките на група данни, остатъчните изследвания, които са отклоненията от линиите на напасване за наблюдаваните стойности, позволяват на индивидите да изследват предположението за валидност за съществуването на линейни зависимости. Остатъчното начертаване на оста y спрямо обяснителните променливи и на оста x разкрива възможната връзка на нелинейност. Той също така предупреждава индивида за разследване на дебнещите променливи.

Скрити променливи

Ако тенденциите на нелинейност са видими в рамките на връзката между обяснителните и зависимите променливи, тогава може да съществуват други видове влиятелни променливи за разглеждане. Съществуването на дебнещи променливи между двете променливи е от съществено значение и засяга присъствието на третата променлива, която не е включена за моделиране на усилията. Тъй като променливата е времевият фактор, например влиянието на политическите и икономическите цикли, графиката на времеви редове от данни често използва инструмента, както и идентифицира наличието на скритата променлива.

Екстраполация

Когато моделът на линейната регресия се монтира в рамките на групата данни, обхватът на данните трябва да се наблюдава внимателно. Опитът за използване на уравнението на регресията за прогнозиране на външната стойност на диапазона не е подходящ, тъй като може да даде невероятни отговори. Тази практика се нарича още екстраполация. Като се има предвид един пример, линейният модел, свързващ наддаването на тегло с височината на индивидите и приложението на този модел за възрастни, тийнейджърите ще бъдат абсурдни, тъй като връзката между височината, както и наддаването на тегло не е последователна за всяка възраст група.

Линейната регресия също така включва най-доброто намиране на линиите за напасване на двете променливи, така че един от атрибутите да може да се използва за прогнозиране на други атрибути. Линейната регресия обикновено е два вида, а именно праволинейна регресия и множествена линейна регресия.

  1. Регресия по права линия
  2. Анализът на праволинейната регресия включва променливата на отговора „y“ с единствената предикторна променлива „x“
  3. Този тип регресия се счита за най-простата форма на регресия, а моделът y се счита за линейна функция на x
  4. Линейното уравнение става y = a + bx

Тук дисперсията „y“ се приема за постоянна, „b“ се счита за коефициент на регресия, който определя Y-отсечката, както и съответно наклона. Коефициентите могат да бъдат изчислени и решени чрез използване на методите на най-малките квадрати, които помагат при оценката на най-подходящата права линия. Това също помага за минимизиране на грешката между действителните данни, както и оценката на линията. Коефициентът на регресия може също да бъде оценен чрез използването на този метод с уравнението, което е посочено по-горе.

  • Множествена линейна регресия
  • Счита се за разширение на праволинейната регресия за включване на една или повече от една стойност на предиктора.
  • Позволява променливият отговор да бъде моделиран като линейни функции за стойностите на предиктора, както и за атрибутите
  • Уравненията за множествената линейна регресия са дълги и досадни за ръчно решаване
  • Проблемите с множеството регресии се решават лесно с внедряването на софтуерни пакети в областта на статистиката. Софтуерните пакети включват SAS, S-Plus и SPSS.

Първоначално публикувано на адрес http://spsstutor434887935.wordpress.com на 11 юли 2019 г.