Да предположим, че една компания създава нов отдел за анализи и иска да го назначи с анализатори на данни. Сега да предположим, че компанията иска да реши колко да плати на тези нови анализатори. За да направят това, те разглеждат някои въпроси:

  1. Колко печелят на месец анализаторите в други компании?
  2. Кои са факторите, влияещи върху месечното им заплащане?
  3. Как тези фактори са свързани с месечното заплащане и колко силна е тази връзка?
  4. Колко точно тези фактори биха предвидили заплащането? — И така нататък.

Да предположим, че компанията би искала да използва данните, които има за анализатори в други фирми, и да предвиди колко ще трябва да плати на собствените си анализатори. Един прост начин да го направите е чрез „линейна регресия“.

Линейната регресия се опитва да предскаже стойностите на непрекъснат цифров резултат или променлива на отговор (като заплата, продажби или цена) въз основа на стойностите на един или повече предиктори или независими променливи, като същевременно приема линейна връзка между реакция и предиктор(и). Целта е да се оцени отговорът въз основа на права линия, която минава възможно най-близо до данните — т.е. разликата между действителните и прогнозираните стойности на отговора е възможно най-малка.

Тоест, ако се опитваме да предвидим отговор (да речем Y), въз основа на предиктор X, линейната регресия ще се опита да напасне линия (като зелената), за да представи връзката между двете променливи (както е показано от червените звезди).

Тоест приемаме, че връзката между X и Y е във формата:

Линейната регресия може да бъде 2 вида въз основа на броя на предикторите, използвани за оценка на отговора. Когато използваме един предиктор за оценка, наричаме процеса проста линейна регресия,а когато има повече предиктори, влияещи върху резултата, наричаме процеса множествена линейна регресия.

Повечето разлики между двете включват броя на предикторите, как изглежда уравнението на линията и математическата оценка на параметрите на модела, ако се опитваме да го направим ръчно. Що се отнася до получаването на софтуер, който да изпълнява линейна регресия вместо нас, кодът за проста и множествена линейна регресия би изглеждал подобен (или дори почти идентичен).

Предположения на линейната регресия:

  1. Отговорът Y има линейна връзка с предиктора(ите) X,където X може или да стои самостоятелно, както в случая на проста линейна регресия, или да бъде вектор с дължина 'p ', т.е. X = (X₁, X₂, …, Xₚ), когато имаме 𝑝 › 1 предиктори (т.е. множествена линейна регресия).
  2. Няма мултиколинеарност в данните:
    Мултиколинеарността се отнася до проблема, при който предикторите (X) са свързани един с друг.
    Въпреки че това изглежда като характеристика на почти всички набори от данни в реалния живот, мултиколинеарността предполага, че предикторите, които варират по подобен начин (са силно корелирани), добавят повече или по-малко същата информация към модела.
    С други думи, ако два предиктора са корелирани, наличието на втората колона добавя повече към сложността на модела, отколкото информация за резултата (променлива на отговора).
  3. Хомоскедастичност на остатъците:
    Линейната регресия приема, че „разпространението“ или дисперсията на остатъците е хомогенно/равномерно за всички прогнози в стойностите на предикторите.
  4. Остатъците са нормално разпределени,което улеснява провеждането на статистически тестове и конструирането на доверителни интервали за тях, ако е необходимо.
  5. Няма ендогенност в данните:
    Проблемът с ендогенността възниква, когато един или повече предиктори са свързани с остатъците (с други думи, остатъците не са независими от предсказателите). Това означава, че по-голяма част от променливостта в отговора би могла да бъде обяснена от предикторите, но вместо това тя беше замесена с остатъците.
    Линейната регресия предполага, че всяка вариация, която може да бъде обяснена от предикторите, се обяснява от предикторите, а остатъците покриват само това, което предикторите не могат да уловят.
    Проблемът с ендогенността в регресионните модели може да бъде решен с помощта на „инструментални променливи“ в метод, известен като регресия с инструментални променливи, но повече за това по-късно.
  6. Наблюденията са независими едно от друго:
    Тоест стойностите на променливите в даден ред не се влияят от стойностите в редовете над и под него.

Сега стигаме до математиката зад линейната регресия, която разгледах в тази публикация.