Прогнозиране на непрекъснати целеви променливи с регресионен анализ с помощта на линейна регресия:

В предишната ни статия предоставихме общ преглед на подкатегориите контролирано обучение. Сега ще се съсредоточим върху конкретен тип контролирано обучение, наречено регресионен анализ, по-специално линейна регресия.

Въпреки че регресионните модели могат да загубят много от своите статистически свойства, те все още са мощен и ефективен алгоритъм за прогнозиране на стойности и класове. Неговата простота и лекота на разбиране го правят популярен избор за практикуващите машинно обучение. Линейната и логистичната регресия са особено предпочитани поради тяхната бързина на обучение, лекота на обяснение на нетехнически лица и възможност за прилагане на всеки език за програмиране. Линейната и логистичната регресия често са предпочитаните алгоритми за машинно обучение за изграждане на модели и сравняването им с по-сложни решения. Освен това те често се използват за идентифициране на важни функции в проблем и получаване на ценна информация за създаване на функции.

1 — Представяне на линейна регресия

Целта на линейната регресия е да се моделира връзката между една или множество характеристики и непрекъсната целева променлива.

В предстоящите раздели ще започнем с основната форма на линейна регресия, известна като проста линейна регресия, и след това ще преминем към по-изчерпателната версия на модела, която включва множество функции, известна също като многовариантна линейна регресия.

2 — Проста линейна регресия

При проста (едномерна) линейна регресия целта е да се създаде модел, който описва връзката между единична характеристика (обяснителна променлива, x) и цел с непрекъсната стойност (променлива на отговора, y).

Линейният модел с една обяснителна променлива може да бъде представен чрез уравнението: 𝙮 = 𝑾₀ + 𝑾₁ 𝙭

𝑾₀ : Пресечната точка на оста y, наричана също като отклонение.

𝑾₁ : Коефициентът на тежест на обяснителната променлива.

𝙮 : Променлива за отговор.

𝙭 : Обяснителна променлива.

Отклонението в модел на машинно обучение представлява базовата линия на прогнозиране, когато всички характеристики имат стойности нула. С други думи, отклонението е постоянният член в уравнението на модела и показва очаквания резултат, когато всички входни характеристики липсват или са равни на нула. Следователно е от съществено значение внимателно да се обмисли терминът на отклонение и да се отчетат липсващите функции, за да се гарантира точността и надеждността на модела.

Стойностите на отговора са представени като вектор от числови стойности, означени като 𝙮.

Пример:

В случай на прогнозиране на цените на жилищата в даден град или продажбите на продукт, векторът на отговора ще бъдат цените или данните за продажбите за всяко наблюдение в набора от данни.

От друга страна, входната характеристика, използвана за прогнозиране на вектора на отговор, е представена от символа 𝙭, който е числова стойност, която представлява характеристиката, използвана за обучение на модела.

В обобщение, 𝙮 е променливата на изхода или отговора, а 𝙭 е входната характеристика, използвана за прогнозиране на стойностите на 𝙮. Заедно 𝙭 и 𝙮 се използват за обучение на модел за машинно обучение, за да прави прогнози за нови данни.

Целта е да се определят стойностите на 𝑾 и 𝑾₁, които най-добре описват връзката между обяснителната променлива 𝙭 и целевата променлива 𝙮. След това тези стойности могат да се използват за правене на прогнози за нови обяснителни променливи, които не присъстват в набора от данни за обучение.

Линейната регресия може да се разглежда като намиране на най-подходящата права линия чрез примерите за обучение. Този ред представлява връзката между обяснителната променлива и целевата променлива и може да се използва за правене на прогнози за нови данни.

На следващата фигура даваме пример за връзката между входната характеристика 𝙭 и променливата на отговора 𝙮 на проста линейна регресия:

Линията на регресия е линията, която най-добре отговаря на примерите за обучение в проста линейна регресия. Това е линията, която минимизира сумата от квадратните остатъци (вертикалните разстояния между действителните точки от данни и прогнозираните стойности на линията). Остатъците, наричани също отмествания, представляват грешките в нашата прогноза и са вертикалните линии, начертани от регресионната линия до действителните точки от данни.

С други думи, регресионната линия е линията, която представлява най-доброто линейно приближение на връзката между обяснителната променлива и целевата променлива, а остатъците представляват разстоянието между действителните точки от данни и тази линия. Колкото по-малки са остатъците, толкова по-добро е съответствието на регресионната линия с данните за обучение.

За да обучите модел на линейна регресия, трябва да намерите стойността на w, която минимизира остатъка (грешка), ще говорим как да го направите в предстоящите заглавия.

3 — Множествена линейна регресия:

В предишното заглавие обсъдихме проста линейна регресия, която е вид модел на линейна регресия само с една обяснителна променлива. Въпреки това е възможно да се разшири този модел, за да се включат множество обяснителни променливи, което е известно като множествена линейна регресия.

Когато се работи с множество характеристики в линеен регресионен модел, една проста 𝙭-𝙮 координатна равнина вече не е достатъчна. Вместо това пространството става многоизмерно, като всяко измерение представлява различна характеристика.

Регресионната формула става по-сложна, включвайки множество 𝙭 стойности, всяка претеглена със собствен 𝑾 коефициент.

Пример: Ако има четири характеристики, регресионната формула може да бъде изразена в матрична форма като:

𝙮 = 𝙭𝑾+ 𝙭𝑾+ 𝙭𝑾+ 𝙭𝑾 + 𝑾

Общата формула е:

𝑾 : пресича ли ос Y с 𝙭 = 1.

Това уравнение съществува в многомерно пространство и представлява равнина, а не проста линия, като броят на измеренията съответства на броя на характеристиките в режима, наречен хиперравнина.

Следващата фигура показва как може да изглежда двумерната, монтирана хиперравнина на модел на множествена линейна регресия с две характеристики:

Пример:

Да предположим, че искате да изградите модел за прогнозиране на продажби въз основа на разходите за реклама, броя на магазините, разпространяващи продукта, и цената на продукта. Регресионен модел може да бъде създаден, както следва:

Продажби = Реклама * 𝑾реклама + Магазини * 𝑾магазин+ Цена * 𝑾 Цена + 𝑾

В това уравнение продажбите се прогнозират въз основа на стойностите на рекламата, магазините и цената, всяка от които е изразена в различна скала (рекламата е голяма сума пари, цената е достъпна стойност, а магазините е положително число) . Стойността на всяка характеристика се претегля със съответния й коефициент 𝑾, който представлява числова стойност, която представлява въздействието на тази характеристика върху променливата на резултата.

Моделът също така включва член на отклонение 𝑾, който действа като отправна точка за прогнозата. Чрез разбиването на компонентите на уравнението става по-лесно да се разбере как работи линейната регресия и как прогнозира резултатите въз основа на входните характеристики.

Коефициент на тегло:

В линеен регресионен модел коефициентът 𝑾 на всяка характеристика показва нейното въздействие върху променливата на прогнозирания резултат. Когато коефициентът 𝑾 е близо до нула, това предполага, че ефектът от тази характеристика върху отговора е слаб или незначителен.

Въпреки това, ако коефициентът 𝑾 е значително различен от нула, положително или отрицателно, това показва, че ефектът от тази характеристика е силен и тази характеристика е важна за прогнозиране на променливата на резултата.

Ако коефициентът 𝑾 е положителен, това предполага, че увеличаването на стойността на съответната характеристика ще увеличи променливата на прогнозирания отговор. Обратно, намаляването на стойността на характеристиката ще намали променливата на прогнозирания отговор. От друга страна, ако коефициентът 𝑾 е отрицателен, увеличаването на стойността на характеристиката ще намали променливата на прогнозирания отговор, докато намаляването на стойността на характеристиката ще увеличи променливата на прогнозирания отговор. По този начин знакът на коефициента 𝑾 показва посоката на връзката между характеристиката и променливата на резултата.

3 — Намиране на правилните 𝑾ᵢ стойности :

Както в простата, така и в сложната линейна регресия, нашата цел е да намерим подходящи стойности на теглото, които минимизират функция на разходите, наречена също остатъчна или грешка, дадена от квадратната разлика между прогнозите и реалните стойности:

n : Брой наблюдения.

𝒘 : Векторът на коефициентите на линейния модел.

J : Функция на разходите

𝑿𝒘 : Прогнозирани стойности.

𝙮 : Стойности на отговора.

Както казахме преди, целта на алгоритъма за линейна регресия е да минимизира разликата между действителните целеви стойности и прогнозираните стойности, генерирани от линейния модел. Алгоритъмът постига това, като намира стойностите на коефициентите 𝑾, които водят до възможно най-малката сума от квадратни разлики между действителните и прогнозираните стойности.

Качеството на линейния регресионен модел може да бъде визуално представено чрез вертикалните разстояния между точките с данни и регресионната линия. Колкото по-малки са тези разстояния, толкова по-добре регресионната линия представя променливата на отговора.

Изчисляването на правилната регресионна линия включва намиране на стойностите на 𝑾коефициентите, които минимизират сумата от квадратите на разстоянията между точките с данни и регресионната линия. Гарантирано е, че тази сума е минимална, когато коефициентите 𝑾 са изчислени правилно, което означава, че никоя друга комбинация от коефициенти 𝑾 не може да доведе до по-малка грешка.

3–1 — Изчислете правилните тегла с помощта на оптимизация на градиентно спускане:

Има два метода, използвани за постигане на тази задача, единият от тях използва матрично смятане, което не винаги е възможно и може да бъде бавно, когато входната матрица е голяма. Като алтернатива, в машинното обучение може да се използва оптимизация на градиентно спускане за получаване на същите резултати, което е по-ефективно за по-големи количества данни и може да оцени решение от всяка входна матрица.

Градиентното спускане е алгоритъм за оптимизация, използван в линейната регресия за систематично и итеративно коригиране на коефициентите 𝑾 с цел минимизиране на функцията на разходите. Алгоритъмът актуализира коефициентите 𝑾, като предприема стъпки, пропорционални на отрицателната стойност на градиента (или производната) на функцията на разходите по отношение на коефициентите 𝑾. Формулата за актуализиране, използвана при градиентно спускане, се основава на този градиент и алгоритъмът продължава да актуализира коефициентите, докато достигне минимална точка, където функцията на разходите е на най-ниската възможна стойност.

n : Брой примери

𝞪 : Фактор за обучение, който определя въздействието на разликата в полученото ново 𝑾j

Забележка: Малка алфа версия намалява ефекта на актуализиране.

𝑾j: Тегло, свързано с функцията J

𝑿𝒘 — 𝙮 : Разликата между прогнозата от модела и стойността за прогнозиране.

Забележка: Изчислявайки тази разлика, вие казвате на алгоритъма размера на грешката при прогнозиране.

𝙭j : Стойността на функцията J

Умножаването на грешката по стойността на характеристиката налага корекция на коефициента на характеристиката, пропорционална на стойността на самата характеристика.

Когато работите с характеристики от различни мащаби, формулата за градиентно спускане може да не работи ефективно, тъй като характеристиките с по-голям мащаб могат да доминират в сумирането.

Пример:

Смесването на характеристики, изразени в километри и сантиметри, може да доведе до този проблем. За да избегнете този проблем, е важно да трансформирате характеристиките чрез стандартизация, преди да ги използвате в градиентно спускане.

4 — Корелация:

Корелационната матрица е квадратна матрица, която показва коефициента на корелация продукт-момент на Pearson (обикновено наричан r на Pearson) за двойки характеристики, показващи линейната връзка между две променливи, когато са начертани заедно и варира от -1 до 1. Перфектна положителна корелация между две характеристики се представя с r = 1, докато r = 0 показва липса на корелация, а r = -1 означава перфектна отрицателна корелация, както е показано на фигурата по-долу.

Изчисляването на коефициента на корелация на Pearson включва разделяне на ковариацията между две характеристики (числител) на произведението на стандартните им отклонения (знаменател):

𝜇 : Означава средната стойност на съответната характеристика

𝜎𝑥𝑦 : Ковариацията между характеристиките x и y

𝜎𝑥 , 𝜎𝑦 : Стандартните отклонения на функциите ли са

Когато коефициентът на корелация е близо до 1, това означава, че има силна положителна корелация.

Пример:Средната стойност на къщата има тенденция да се покачва, когато средният доход се покачва.

Когато коефициентът е близо до –1, това означава, че има силна отрицателна корелация.

Пример:Можете да видите малка отрицателна корелация между географската ширина и средната стойност на къщата (т.е. цените имат лека тенденция да се понижават, когато тръгнете на север).

И накрая, коефициенти близки до нула означават, че няма линейна корелация.

Коефициентът на корелация измерва само линейните корелации, ако 𝙭 се повишава, тогава 𝙮 обикновено се повишава/намалява. Може напълно да пропусне нелинейни връзки, ако 𝙭 е близо до нула, тогава 𝙮 обикновено се повишава.

Забележка: Всички диаграми на долния ред на предишната фигура имат коефициент на корелация, равен на нула, въпреки факта, че техните оси очевидно не са независими, това са примери за нелинейни отношения.

4–1 — Целта на корелацията:

Целта на корелационната матрица в линейната регресия е да идентифицира променливите, които имат силна линейна връзка със зависимата променлива. Това е полезно, защото при линейната регресия целта е да се моделира връзката между зависимата променлива и независимите променливи, които имат значително влияние върху зависимата променлива.

Както можете да видите на получената фигура, корелационната матрица ни предоставя друга полезна обобщена графика, която може да ни помогне да изберем характеристики въз основа на съответните им линейни корелации:

Да предположим, че нашата целева променлива е MEDV; За да се вместим в линеен регресионен модел, ние се интересуваме от тези характеристики, които имат висока корелация с нашата целева променлива.

Разглеждайки предишната корелационна матрица, можем да видим, че нашата целева променлива, MEDV, показва най-голямата корелация с променливата LSTAT (-0,74). От друга страна, корелацията между RM и MEDV също е относително висока (0,70).

Ние избираме да работим с променливата, която има линейна връзка с нашата целева променлива MEDV.

Заключение:

Въпреки разликите между простата и множествената линейна регресия, и двата модела се основават на едни и същи основни концепции и техники за оценка. И двата модела имат за цел да създадат линейна връзка между променливата на отговора и една или повече входни характеристики.

Освен това кодовите реализации, използвани за проста линейна регресия, често са директно съвместими с множествената линейна регресия. Например, повечето езици за програмиране предоставят библиотеки и функции, които могат да се използват за прилагане на модели на линейна регресия и тези функции често поддържат както проста, така и множествена линейна регресия.

Разликите между моделите се състоят главно в броя на използваните входни характеристики и сложността на полученото моделно уравнение.

Благодаря ви, че прочетохте!