Линейната регресия не е просто градивен елемент; това е крайъгълният камък, върху който изграждаме нашето разбиране за по-сложни модели. Това е основната техника за машинно обучение, която използва праволинейни връзки за прогнозиране на резултатите.

Разбиране на регресията: кратък преглед

Регресионният анализ е статистическа техника, която има за цел да моделира връзката между една или повече независими променливи (често наричани предиктори или характеристики) и зависима променлива (променливата на резултата или отговора). Целта е да се намери математическо уравнение, което най-добре описва тази връзка, което ни позволява да правим прогнози.

Линейната регресия е вид регресионен анализ, използван в статистиката и машинното обучение, където целта е да се моделира връзката между една или повече независими променливи и зависима променлива чрез монтиране на линейно уравнение към данните, което позволява да правим прогнози и да разбираме силата и посоката на връзката между променливите. Най-общо има два вида линейна регресия:

Проста линейна регресия: Използва една независима променлива за прогнозиране на зависимата променлива.

Множествена линейна регресия: Използва повече от една независима променлива за прогнозиране на зависимата променлива.

Опростена линейна регресия

Оста X представлява стойностите на независимата променлива, подобно на оста Y представлява зависимата променлива. Както можете да видите на графиката, зелените точки съответстват на действителната зависима променлива y за независимата променлива x. Сега нашата цел е да напаснем линия в линейната регресия, която може да минава през или да минава близо до нашите зелени точки.

т.е. основната цел е да се намери най-подходяща линия със съответния наклон и стойности за пресичане, която може да доведе до минимална остатъчна грешка, така че прогнозите да са много по-близо до действителните стойности.

Както можете да видите, има няколко зелени точки, които не попадат на червената ни линия на предиктора. В този случай възниква грешка. Тези грешки се сумират, за да повлияят на точността на модела.

По този начин, колкото по-голяма е връзката между зависимата и независимата променлива, толкова по-голяма е точността на линейния модел. т.е. колкото по-близо са точките до линията, толкова по-добра е точността.

Както можете да видите във формулата, действителната стойност на зависимата променлива се изчислява чрез линейното уравнение, добавено с остатъчната грешка. Ако искаме да намерим прогнозираната зависима променлива (т.е. y_predicted), формулата е същата, но без добавяне на термина за грешка към нея.

При проста линейна регресия е по-лесно да се намери наклонът. Тъй като има само една зависима променлива, следователно има само един наклон, който е необходим за изчисляване. Формулата за наклона се дава чрез умножаване на корелацията на зависимите и независимите променливи по съотношението на нейното стандартно отклонение.

Просто като разменим уравнението, като приведем пресечната точка към L.H.S., ще можем да намерим пресечната точка.

Множествена линейна регресия

Както можете да видите, има много независими променливи (x1, x2, … xn), за да намерите една зависима променлива y. Където beta_1, beta_2…, beta_n са съответните стойности на наклона.

В следващите ни блогове ще разгледаме градиентно спускане, функция на разходите, показатели за оценка и много други.