Разбиране на наивния алгоритъм на Бейс

Naive Bayes е модел за машинно обучение, използван за класификация. Техниката на Naive Bayes се основава на вероятности. Вероятността дадено събитие да се случи или да не се случи може да се изчисли с помощта на исторически данни.

Нека анализираме значението на Naive Bayes.

Нарича се Наивен, защото се основава на Наивното предположение, че всяка входна променлива е независима или просто казано, наличието на характеристика в клас не е свързано с наличието на друга характеристика в същия клас.
След това се използва теоремата на Байс, за да се създаде наивен алгоритъм на Бейс. Предпоставката на наивния алгоритъм на Байс гласи, че колкото повече информация събираме за даденосъбитие, толкова по-добре можем да направим вероятност за него.

Обяснение 1

Ако искаме да предвидим средната температура за следващата седмица, използвайки текущата средна температура, това може да бъде доста трудно. Но ако използваме температурата за данни за последните 300 седмици, можем да предвидим по-добре средната температура.

Обяснение 2

Ако ви кажа да познаете цвят, за който си мисля, шансовете да познаете този цвят правилно са много ниски. Но ако ви кажа, че цветът е част от цветовете на дъгата, тогава шансовете ви да познаете правилния цвят се увеличават.

Така че с теоремата на Байс, колкото повече информация ви давам, толкова по-близо до точността се приближаваме.

NB: Нарича се Bayes's, защото е кръстен на Томас Байс,който излезе с теоремата на Bayes.

Сега към спецификите:

Терминологии и понятия в теоремата на Бай:

Преди — Това е вероятността за събитие, преди да бъдат събрани нови данни. Когато се случи събитие, получаваме повече информация и с повече информация се доближаваме много повече до точното прогнозиране на вероятността.

Пример: Ако имам три кутии, A, B и C и има само една с подарък, тогава вероятността да намеря подаръка в трите кутии е 0,333. Но ако избера кутия A и се окаже, че няма подарък, тогава вероятността подаръкът да е в кутия B и C е 0,5

Събитие Нещо, което се случва, което ни дава информация — Избрахме кутия, но вътре нямаше подарък.
Постериорна Това е крайната вероятност, която изчисляваме, използвайки предишната вероятност и събитието — Вероятността подаръкът да е в кутията

Въпросът, на който отговаря теоремата на Бейс:

„Каква е вероятността дадено b да се е случило?“P(A|B). Това е известно като условна вероятност

В света на машинното обучение това би билонапример каква е вероятността един имейл да е спам, като се имат предвид някои характеристикии това в машинното обучение е проблем с класификацията.

Пример: Модел за класификация на нежелана поща

Проблем с класификацията: Искаме да класифицираме имейли, които са или спам (нежелана поща, или хам (не нежелана поща), използвайки модела на Naive Bayes.

Вероятността един имейл да бъде спам зависи от съдържанието на имейла с характеристики като използваните думи, размера и т.н. Пример КУПИ!, СПЕЧЕЛИ! , ОФЕРТА ОФЕРТА!, ПОБЕДИТЕЛ и т.на

За начало ще:

Намерете предишното —Вероятността някой имейл да е спам. Ако имате 100 имейла и откриете, че 80 от тях са шунка, а 20 са спам, тогава вероятността нов имейл да е спам е 0,2. Това е предварителната вероятност. (Това е единствената информация, която имаме в началото)
Намерете задната част —Вероятността имейлът да е спам, като знаете, че съдържа конкретна дума (събитие).

Нека използваме пример от нашите спам думи, да кажем „ПОБЕДИТЕЛ!“ .Истината е, че „ПОБЕДИТЕЛ!“ може да се появи както в спам, така и в имейли с хам в зависимост от контекста. От нашия предишен период имаме 20 спам имейла. От тези 20, 15 са установени като действително спам и съдържат думата победител, а 5 не са спам и не съдържат думата победител. Следователно външният заден става 15/20 или 0,75.

Нека сега визуализираме всичко това с помощта на дърво.

В корена започваме с две разклонения. Един имейл е спам или не. 20/100(1/5) са спам, а 80/100(4/5) не са спам.

След това добавяме още информация от двата клона. Вероятността както спам, така и хам имейли да съдържат спам думата „победител“.

От 20 спам думи,15 съдържат думата победител и 5 нямат думата победител.

От 80-те хам думи,5 са с думата победител, а 75 нямат думата победител.

От дървото по-горе вече можем да изчислим вероятността имейл да е спампри положение, че съдържа думата „Победител“. Това означава, че търсим клонове, които имат думата победител, и всеки клон, чиито имейли не съдържат думата „Победител, ще бъде премахнат.

В резултат получаваме, че вероятността имейл да е спампри положение, че съдържа думата „Победител“ ще бъде намерена от горните клонове само, които включват както Спам, така и Хам имейли.

Спам и „победител“ — 1/5 * 3/4 = 3/20

Шунка и „победител“ - 4/5* 1/16 = 1/20

Теорема на Бейс

Дървото ни помогна да визуализираме вероятностите, но имаме формула, която може да ни помогне с това, и за да бъдем по-конкретни, формулата на наивната теорема на Бейс по-долу

Където:

P(A)=P(Спам)— Вероятност даден имейл да е спам 20/100 или 1/5.

P(B)= P(‘winner’|spam).P(spam)+ P(‘winner’|ham).P(ham) —Вероятност имейлът да има думата победител. И от Спам(1/5*3/4)=3/20, и от Хам(4/5*1/16)=1/20.

P(B|A)= P(‘winner’|spam)— Вероятност спам имейл да има думата победител. От изображението по-горе това е 15/20 или 3/4.

P(A|B) =P(spam|’winner’)— Каква е вероятносттаy имейл, който съдържа думата победител, да е спам? Това е, което искаме да отговорим. Ако след изчислението стойността на P(A|B) е висока, тогава има голяма вероятност имейлът ни да е спам. Ако тази стойност е ниска, тогава има малка вероятност това да е спам.

Като заместим всичко това в нашето уравнение, получаваме:

Следователно има вероятност от0,75 имейл, който съдържа думата победител, да е спам, което отговаря на нашето P(A|B)в уравнението.

Предимства на наивния алгоритъм на Бейс

Необходими са по-малко данни за обучение за обучение на модела
Това е прост модел, който работи забележително добре.
Той е бърз и може да доведе до резултати за много кратко време.

Недостатъци на наивния алгоритъм на Бейс

Необходим е по-голям набор от данни, за да се направят много по-надеждни прогнози.
При малки набори от данни прецизността е по-малка.