Коефициентът на корелация на Пиърсън е мярка, използвана за оценка на степента на линейна корелация между две променливи.

R Square и корелационният коефициент на Pearson са две важни матрици за описание на данни. В тази история ще разкажа връзката им.

Терминът R квадрат се отнася до специфичен критерий за оценка за оценка на съответствието на регресия. Колкото по-близо е до 1, толкова по-добре отговаря регресията.

Коефициентът на корелация на Пиърсън измерва степента на линейна корелация между две променливи. Коефициентът на корелация на Pearson включва две променливи, но не посочва изрично коефициентът на корелация на кои две променливи се отнася.

Най-вероятният сценарий обаче е, че има поредица от проби или точки от данни, означени като (xi, yi), където въпросът пита за коефициента на корелация между и, който представлява съответствието на регресията, получена от напасването на точките от данни.

За да предоставим изчерпателно обяснение, нека започнем с метода на най-малките квадрати и .

Първо, заключенията:

  1. За линейна регресия с най-малки квадрати, имаме:

Следователно коефициентът на корелация представлява силата на линейната връзка, както обикновено се посочва. Това уравнение обаче не е валидно за нелинейни зависимости.

  1. За напасване по метода на най-малките квадрати на двумерни точки от данни към всяка функция можем да получим:

Може да се види, че както линейните, така и нелинейните напасвания могат да бъдат характеризирани чрез стойността на R-квадрат, за да се покаже качеството на напасването.

  1. Линейна регресия и метод на най-малките квадрати Нека започнем с линейна регресия. Ако изразим връзката между независимата променлива и зависимата променлива с помощта на линейна регресия:

, където .

Методът на най-малките квадрати за напасване може да се изведе, както следва:

Метод на най-малките квадрати: Целта е да се минимизира сумата на квадратните остатъци (SSR).

Като вземем частични производни на SSR по отношение на параметрите и ги занулим, можем да получим оптималните параметри:

следователно

Въз основа на горното уравнение можем да изведем и междинно заключение:

  1. Коефициент на корелация Съгласно формулата за коефициента на корелация:

Където:

винаги е положителен, защото в противен случай защо да си правите труда да монтирате, ако знаците няма да съвпадат след монтирането?

  1. Коефициент на корелация Всъщност,

Където:

Доказателство:

Обърнете внимание на знака на.

  1. Коефициент на корелация Ако и представлява линейна връзка, т.е. може да се изрази като , тогава коефициентът на корелация трябва да бъде .

Доказателство:

Където:

  1. R-квадрат за квадратична регресия Ако напаснем точките от данни с квадратична връзка, т.е., като използваме метода на най-малките квадрати:

Метод на най-малките квадрати: Целта е да се минимизира сумата на квадратните остатъци (SSR),

Като вземем частични производни на SSR по отношение на параметрите и ги занулим, можем да получим оптималните параметри:

Можем да получим:

Въз основа на горното уравнение:

Според формулата за коефициента на корелация:

Където:

Може да се види, че докато извършваме напасване на най-малките квадрати с помощта на полиноми, . Освен това, въз основа на разширението на редовете на Тейлър, всички функции могат да бъдат разширени в полиномиални форми. Следователно може смело да се заключи, че за приспособяване на най-малките квадрати на двумерни точки от данни към всяка функция можем да получим .

Все пак трябва да се отбележи, че когато се извършва нелинейно напасване, както в този случай, връзката между не е линейна.

Моля, имайте предвид, че преводът може да включва устен превод и аз направих всичко възможно, за да осигуря точен превод на дадения текст.