Най-малки квадрати: Подход за прогнозиране за линейни модели

Като разработчици на машинно обучение (с изключение на професионални разработчици и включително студенти, които се втурват да разработват ml модели), всички ние създаваме различни стабилни модели като XGBoost, Catboost и т.н. Все пак трябва да знаем математиката зад тези модели. Така че се опитвам да науча и да споделя математиката зад тях и да започна от нулата. Човекът непрекъснато се учи на Reinforcemet, така че може да направя грешки в обясненията, така че е необходима вашата помощ, за да се коригирам, така че повече статии да достигнат до входящата ви кутия. Приятно учене 😀....

Нотации:Преди да се потопите, трябва да знаем някои означения, за да продължим: Обикновено ще обозначим входна променлива (функция или характеристики) със символа X. Ако X е вектор, неговите компоненти могат да бъдат достъпен чрез индекси Xj. Количествените резултати (предсказване на продукцията) ще бъдат обозначени с Y., а качествените резултати с G (за групата). Ние използваме главни букви като X, Y или G, когато говорим за общите аспекти на променлива. Матриците са представени с удебелени главни букви; например, набор от N входни p-вектора xi, i = 1,…, N ще бъде представен от N ×p матрицата X. X — T обозначава транспонирането на X

Забележка: Обозначенията са много важни за разбирането на математическите форми по-долу, които са обяснени по-долу.

В тази статия разработваме прост метод за прогнозиране, който изглежда мощен 🙌

Ще се опитам да обясня един от методите за прогнозиране на резултата (т.е. качествен или количествен), като използвам основите на диференциацията и други теми. Линейният модел прави огромни предположения за структурата и дава стабилни, но вероятно неточни прогнози

Линейните модели са в индустрията на статистиката и машинното обучение от 3 десетилетия и остават един от нашите най-важни инструменти за моделиране. нека оставим разказа настрана и преминем към темата.

Даден вектор от входове XT = (X1, X2,…, XP), прогнозираме изхода Y чрез модела.

Терминът βˆ0 е пресечната точка, известна също като отклонение в машинното обучение. Често е удобно да включите постоянната променлива 1 в X, да включите βˆ0 във вектора на коефициентите βˆ и след това да запишете линейния модел във векторна форма като вътрешен продукт.

където X — T означава транспониране на вектор или матрица (X е вектор-колона). Тук моделираме единичен изход, така че Yˆ е скалар. ако разглеждаме Y като многомаркирано, тогава Y ще стане вектор на форма (K). в който случай β ще бъде p × K матрица от коефициенти.

В (p + 1)-мерното входно-изходно пространство (X, Yˆ ) представлява хиперравнина. Отсега нататък приемаме, че пресечната точка е включена в β

Разгледана като функция върху p-измерното входно пространство, f(X) = X — T β е линеен и градиентът f’(x)= β е вектор във входното пространство, който сочи в най-стръмната посока нагоре.

Как да напаснем линейния модел към набор от данни за обучение?

Има много различни методи, но най-популярният е методът на най-малките квадрати. При този подход ние избираме коефициентите β, за да минимизираме остатъчната сума на квадратите.

RSS(β) е квадратична функция на параметрите и следователно нейният минимум винаги съществува, но може да не е уникален. Решението е най-лесно за характеризиране в матрична нотация. Можем да напишем уравнението по-долу

където X е N × p матрица с всеки ред входен вектор, а y е N-вектор на изходите в набора за обучение. Разграничаване w.r.t. β получаваме нормалните уравнения

Ако X — T X е неособено, тогава уникалното решение се дава от

Ще обясня този подход с пример в следващия блог и имам нужда от вашата подкрепа под формата на споделяне на вашите мисли относно писането и обясненията ми. Имам няколко въпроса относно този блог, надявайки се читателите да отговорят на въпросите. Споменах за изграждането на това съдържание от една от моите книги и наистина имам някои съмнения

Моите въпроси и мисли

Защо трябва да включим константата (1) във вектор X?
Включването на тази константа промени размерите на пространството (т.е. (p+1))?
Може ли някой да направи визуализации на връзката между X,y и β, така че обикновено да е лесно да се гледа визуално?

Щастлив съм да помогна на всички читатели, с които можете да се свържете с мен в Linkedin.

Най-малки квадрати: Подход за прогнозиране за линейни модели

Подобни въпроси