Машинно обучение 101: Класификационните модели трябва да се познават

Най-добрият алгоритъм за класификация за конкретен проблем зависи от няколко фактора, като размера и типа на данните, броя на класовете и желаната точност. Някои от най-често използваните алгоритми за класификация включват:

Логистична регресия
Дървета на решенията
Случайни гори
Поддържайте векторни машини (SVM)
K-най-близки съседи (KNN)
Наивен Бейс
Невронни мрежи

Всеки от тези алгоритми има своите силни и слаби страни и кой е най-добрият за определен проблем ще зависи от специфичните характеристики на данните и целите на задачата за класификация. Някои от ключовите фактори, които трябва да имате предвид при избора на алгоритъм за класификация, включват:

Броят на класовете: За проблеми с голям брой класове, алгоритми като произволни гори и невронни мрежи обикновено се представят добре. За проблеми само с няколко класа може да са по-подходящи по-прости алгоритми като логистична регресия и дървета на решенията.
Размерът на набора от данни: За много големи набори от данни алгоритмите, които се мащабират добре с броя на примерите, като случайни гори и SVM, обикновено са по-ефективни. За по-малки набори от данни може да са по-подходящи алгоритми, които могат да обработват по-голям брой функции, като KNN и дървета на решенията.
Типът данни: За набори от данни с голям брой непрекъснати функции, алгоритми като SVM и невронни мрежи обикновено работят добре. За набори от данни с голям брой категориални характеристики, алгоритми като дървета на решения и произволни гори може да са по-ефективни.

В тази статия ще прегледаме тези модели за класификация, които трябва да знаете.

ЛОГИСТИЧНА РЕГРЕСИЯ

Логистичната регресия е популярен алгоритъм за машинно обучение, използван за двоична класификация. Това е алгоритъм за контролирано обучение, което означава, че се обучава върху етикетирани данни и може да се използва за прогнозиране на класа нови, невиждани данни.

Логистичната регресия е популярен алгоритъм за машинно обучение, използван за двоична класификация. Това е алгоритъм за контролирано обучение, което означава, че се обучава върху етикетирани данни и може да се използва за прогнозиране на класа нови, невиждани данни.

Логистичната регресия работи, като намира връзката между зависима променлива и една или повече независими променливи. Зависимата променлива е променливата, която се опитваме да предвидим, и обикновено е двоична (т.е. може да приема само две стойности, като „положителна“ или „отрицателна“). Независимите променливи са променливите, които използваме, за да предвидим стойността на зависимата променлива.

Логистичната регресия е линеен модел, което означава, че предполага, че връзката между зависимите и независимите променливи е линейна. Това означава, че прогнозираната вероятност на зависимата променлива може да бъде изразена като линейна комбинация от независимите променливи.

Има обаче начини за използване на логистична регресия за нелинейни връзки. Един общ подход е да се използват нелинейни трансформации на независимите променливи, като полиномни или сплайн трансформации, за да се създадат нови, производни променливи, които имат линейна връзка със зависимата променлива.

Например, ако имате независима променлива X и зависима променлива Y и смятате, че връзката между X и Y не е линейно, можете да създадете нова променлива X^2 (т.е. квадрат на X) и да използвате логистична регресия, за да моделирате връзката между Y и X^2 . Това ще ви позволи да заснемете нелинейната връзка между X и Y с помощта на линеен модел.

Друг подход е да се използва обобщен линеен модел (GLM), който е вид регресионен модел, който може да се използва за зависими променливи, които не са нормално разпределени. GLM могат да се използват за моделиране на нелинейни връзки и могат да бъдат разширени, за да се справят със задачи за двоична класификация (т.е. задачи, при които зависимата променлива може да приеме само две стойности), като се използва функция за връзка logit.

Като цяло, докато логистичната регресия не е предназначена за нелинейни връзки, има начини да се адаптира за използване с нелинейни данни. Въпреки това, други алгоритми за машинно обучение, като дървета на решения или невронни мрежи, може да са по-подходящи за моделиране на нелинейни връзки.

Една от ключовите силни страни на логистичната регресия е, че е много ефективна както по отношение на количеството данни за обучение, което изисква, така и по отношение на времето, необходимо за обучение на модела. Освен това е лесен за тълкуване, което го прави популярен избор за много приложения.

Логистичната регресия има някои ограничения. Той е подходящ само за задачи за двоична класификация и предполага, че връзката между зависимите и независимите променливи е линейна, което не винаги е така. В допълнение, той е чувствителен към отклонения и може да бъде повлиян неблагоприятно от корелирани предиктори.

Като цяло логистичната регресия е мощен и широко използван алгоритъм за машинно обучение, който може да се приложи към широк набор от задачи за двоична класификация.

ДЪРВЕТА НА РЕШЕНИЯТА

Дърветата на решенията са популярен алгоритъм за машинно обучение, използван както за задачи за класификация, така и за регресия. Те са вид алгоритъм за контролирано обучение, което означава, че са обучени върху етикетирани данни и могат да се използват за правене на прогнози за нови, невиждани данни.

Дърветата на решенията се наричат „дървета“, защото имат разклонена структура, с поредица от решения (или „възли“), водещи до крайна прогноза (или „лист“). Всяко решение се основава на стойността на една или повече входни характеристики и получената прогноза се прави чрез следване на пътя през дървото, което съответства на стойностите на входните характеристики.

Една от ключовите силни страни на дърветата на решенията е, че те са лесни за тълкуване и разбиране.

Тъй като решенията и прогнозите се правят въз основа на стойностите на входните характеристики, лесно е да се види как дървото на решенията стига до конкретна прогноза. Това прави дърветата на решенията популярен избор за много приложения, като откриване на измами и сегментиране на клиенти.

Както всички модели, дърветата на решенията имат някои ограничения. Те са склонни към пренастройване, което означава, че могат да станат твърде сложни и да пасват твърде близо на данните за обучение, което води до лошо представяне на нови, невиждани данни. Те също така не са подходящи за набори от данни с голям брой непрекъснати характеристики, тъй като е трудно да се намерят подходящи граници на решение за непрекъснати данни.

СЛУЧАЙНА ГОРА

Случайните гори са популярен алгоритъм за обучение на ансамбъл, използван както за задачи за класификация, така и за регресия. Те са вид алгоритъм за контролирано обучение, което означава, че са обучени върху етикетирани данни и могат да се използват за правене на прогнози за нови, невиждани данни.

Случайните гори се наричат „гори“, защото са съставени от голям брой дървета на решения. Всяко дърво на решенията се обучава на различно подмножество от данни и крайната прогноза се прави чрез комбиниране на прогнозите на всички отделни дървета. Този процес на обучение на множество модели и комбиниране на техните прогнози е известен като „ансамбълно обучение“.

Една от ключовите силни страни на произволните гори е, че те са много ефективни за намаляване на пренастройването, което е често срещан проблем с дърветата на решенията. Тъй като всяко дърво на решенията се обучава на различно подмножество от данни, е по-малко вероятно отделните дървета да преувеличат данните за обучение и крайните прогнози са по-точни. Това прави произволните гори популярен избор за много приложения, като кредитен рейтинг и медицинска диагностика.

Случайните гори могат да бъдат изчислително скъпи за обучение, особено за големи набори от данни и може да не са толкова интерпретируеми, колкото индивидуалните дървета на решенията. Те също така не са подходящи за набори от данни с много големи размери, тъй като броят на дърветата в гората може да расте експоненциално с броя на измеренията.

ПОДДЪРЖАЩИ ВЕКТОРНИ МАШИНИ (SVM)

Машините за поддържащи вектори (SVM) са популярен алгоритъм за машинно обучение, използван както за задачи за класификация, така и за регресия. Те са вид алгоритъм за контролирано обучение, което означава, че са обучени върху етикетирани данни и могат да се използват за правене на прогнози за нови, невиждани данни.

SVM се наричат „машини“, защото се основават на математическата концепция за „опорен вектор“, който е линия (или хиперравнина), която разделя различни класове данни. По време на обучение SVM намира линията (или хиперравнината), която максимизира границата между различните класове данни. Получената линия (или хиперравнина) се нарича "граница на решение".

Една от ключовите силни страни на SVM е, че те могат да обработват набори от данни с много големи размери, което е често срещан проблем в много приложения за машинно обучение. Това е така, защото SVM намират границата на решението чрез оптимизиране на математическа функция, вместо да търсят най-доброто разделяне на данните, както се прави в дърветата на решенията. Това прави SVM популярен избор за много приложения, като класификация на текст и разпознаване на изображения.

SVM могат да бъдат трудни за интерпретиране, тъй като границата на решението се определя от математическа функция, а не от стойностите на входните характеристики. Те също са чувствителни към мащаба на входните характеристики и може да изискват предварителна обработка, за да се гарантира, че данните са правилно нормализирани.

Като цяло SVM са мощен и широко използван алгоритъм за машинно обучение, който може да се приложи към много различни видове проблеми.

K-НАЙ-БЛИЗКИ СЪСЕДИ (KNN)

K-най-близките съседи (KNN) е популярен алгоритъм за машинно обучение, използван както за задачи за класификация, така и за регресия. Това е вид алгоритъм за контролирано обучение, което означава, че се обучава върху етикетирани данни и може да се използва за правене на прогнози за нови, невиждани данни.

KNN се нарича „най-близки съседи“, защото прави прогнози въз основа на „най-близките“ примери за обучение в пространството на функциите. При даден нов, невиждан пример, KNN намира k примерите за обучение, които са най-близки до новия пример в пространството на функциите, и след това използва етикетите на тези k примери за обучение, за да направи прогноза.

Една от ключовите силни страни на KNN е, че е прост и лесен за изпълнение. Тъй като прави прогнози въз основа на примерите за обучение, няма нужда да се обучава сложен модел, както се прави в много други алгоритми за машинно обучение. Това прави KNN популярен избор за много приложения, като системи за препоръки и откриване на аномалии.

KNN може да бъде скъпо от изчислителна гледна точка за намиране на най-близките съседи, особено за големи набори от данни, и може да не е ефективно за набори от данни с голяма размерност, тъй като проклятието на размерността може да затрудни намирането на значими най-близки съседи. Освен това е чувствителен към избора на параметъра k, който определя броя на най-близките съседи, които да се използват за правене на прогнози.

НАИВЕН БЕЙС

Naive Bayes е популярен алгоритъм за машинно обучение, използван както за задачи за класификация, така и за регресия. Това е вид алгоритъм за контролирано обучение, което означава, че се обучава върху етикетирани данни и може да се използва за правене на прогнози за нови, невиждани данни.

Наивният Bayes се нарича „наивен“, защото прави силно предположение за независимостта на входните характеристики. По-конкретно, той предполага, че стойността на всяка входна характеристика е независима от стойностите на всички други входни характеристики, като се има предвид етикетът на класа. Това предположение често не е вярно в масивите от данни в реалния свят, но въпреки това Naive Bayes все още може да работи добре в много приложения.

Една от ключовите силни страни на Naive Bayes е, че е лесен и ефективен за изпълнение. Тъй като прави прогнози въз основа на вероятности, а не на сложен математически модел, той може да бъде обучен и използван много бързо. Това прави Naive Bayes популярен избор за много приложения, като филтриране на спам и класификация на текст.

Naive Bayes приема, че входните характеристики са независими, така че може да не е ефективно за набори от данни, където характеристиките са силно корелирани. Освен това е чувствителен към наличието на неподходящи функции, които могат да повлияят негативно на работата на модела.

НЕВРОННИ МРЕЖИ

Невронните мрежи са популярен алгоритъм за машинно обучение, използван както за задачи за класификация, така и за регресия. Те са вид алгоритъм за контролирано обучение, което означава, че са обучени върху етикетирани данни и могат да се използват за правене на прогнози за нови, невиждани данни.

Невронните мрежи се наричат „мрежи“, защото са съставени от множество взаимосвързани „неврони“, които обработват и предават информация. Всеки неврон получава входни данни от други неврони, обработва тези входни данни с помощта на набор от тегла и след това предава изходните данни на други неврони. Този процес се повтаря многократно, което води до сложна мрежа от взаимосвързани неврони, които могат да се научат да правят прогнози въз основа на входните данни.

Една от ключовите силни страни на невронните мрежи е, че те могат да научат сложни, нелинейни връзки между входните и изходните променливи. Това е така, защото те са в състояние да научат множество слоеве на представяния, всеки от които улавя различен аспект на данните. Това прави невронните мрежи популярен избор за много приложения, като обработка на естествен език и компютърно зрение.

Невронните мрежи обаче могат да бъдат трудни за обучение, особено за големи и сложни масиви от данни, и могат да бъдат чувствителни към избора на хиперпараметри, като скоростта на обучение и броя на скритите слоеве. Те също така не са подходящи за задачи, които изискват интерпретируемост, тъй като вътрешната работа на мрежата е трудна за разбиране.

Като цяло, изборът на най-добрия алгоритъм за класификация за определен проблем изисква задълбочено разбиране на данните и целите на задачата за класификация. Опитни специалисти по данни и практици по машинно обучение могат да използват знанията и опита си, за да изберат най-подходящия алгоритъм за даден проблем.

Ако ви е харесала тази статия, можете да почерпите кафе или да я споделите с приятелите си.