Здравейте всички, днес дойдох с някои от забавните и скрити теми и терминология, които са широко използвани в ежедневната ни работа, но са по-малко популярни в сравнение с други популярни думи в статистиката. Искам да кажа, че тези теми също заслужават известно уважение 💩, известно време, когато седя и мисля за подобни неща, наистина ме вълнува и ме мотивира да науча малко повече за тези факти. Да започнем, без да отлагаме повече.

  1. Средни -

Е, това е много лесно нещо, нали? ще си помислите защо тези момчета ми говорят за Average. Всеки ученик от 3-ти или 4-ти клас ще ви каже средно за дадените числа, нали? т.е. средното (средно) се дава като обща сума от дадено число, разделена на общото дадено число.

Но изчакайте, нека помислим за секунда, ако искам да попитам какво означава това число? вероятно бихте казали, че средно или средно е едно и също, което е средно = средно. но това е половината истина „Средно“ е просто термин, не го тълкувайте погрешно с Mсредно. Средната стойност, медианата и режимът се наричат ​​различни видове средни стойности. За повече информация следвайте тази книга, глава 2. Така че, когато казвате средно, обърнете специално внимание на това какъв вид средно имате предвид.

2. Нормално разпределение и Стандартно нормално разпределение -

Като цяло, когато четем в статии или книги, неговите винаги записани данни са нормално разпределени, следват нормалното, но много по-малко относно стандартното нормално разпределение. когато казваме нормално разпределение, хората приемат извита графика във формата на камбана.

Да, точно тази горна снимка. Но ако забележите, че средната стойност и дисперсията не са последователни, въпреки че всички са в нормално разпределение. не мислите ли, че пропускаме нещо или нещо странно в това? да кажем, че клас от 50 ученици и всички имат различни атрибути и се измерват по една и съща скала, като се има предвид, че всички следват нормалността?

Отново това не се случва точно и там срещнахме термина „Стандартно нормално разпределение“. той казва, че ако данните следват нормалността, те трябва да имат средно (/u) = 0 и дисперсията (сигма) е 1. ако данните следват това условие, тогава само данните имат стандартна нормалност или истинска нормалност.

Сега ми идва въпросът дали моите данни не следват горното условие, така че това означава, че не следват истинската нормалност. Не, това отново не е напълно вярно и за това нашият учен е открил начини и е открил термин, наречен Стандартен резултат.

3. Стандартен резултат-

Стандартният резултат е известен също като „Z-резултат“, който основно показва, че нашите нормално разпределени данни са колко отклонение (+ve или -ve) от истинското нормално разпределение или стандартното нормално разпределение. ако забележите над „стандартна графика“, 34% от площта попада под Z-резултат 1и същите 68% от площта попада под Z- резултат 2. така че нека приемем, че вашата графика с данни е между 0 и 1, което на практика означава, че е необходимо много стандартно изместване на резултата, за да се върне обратно към първоначалната скала 0, така че да следва стандартното разпределение.

Пример: както обсъждахме атрибутите на учениците, да предположим, че 150 см е стандартна височина на ученик и един ученик има прибл. 145 см височина, тогава колко повече е необходимо в проценти от всяка скала, която вземете, за да достигнете до 150 см. след като изчислите Z-резултата, проверете стойността в Z-таблица (вече получена) може да получи стойност и да я използва в различни изчисления.

Z-резултатът или стандартният резултат имат диапазон от максимален -3 до +3, тъй като почти покриват 99,99% площ.

4. Разпределение на Бернули и биномно разпределение-

Това е много разпространена и широко използвана техника за разпространение, но много от тях не успяват да използват правилно и двете разпределения.

И двете разпределения на Бернули и биномите попадат под дискретна вероятност и следват PMF (функция на вероятностната маса). И двете разпределения се използват за двоични и независими събития.

Пример: Хвърлете зар два пъти или изберете две карти от тестето карти и т.н.

Разпределението на Бернули е дискретното вероятностно разпределение на случайна променлива, което приема двоичен изход: 1 с вероятност p и 0 с вероятност (1-p). така че във всеки случай ще постигнете успех или провал.

но чакайте, има уловка, ако трябва да правим едно и също нещо отново и отново, тогава трябва ли да правим същото изчисление произволен брой пъти? Мисля, че това не би било възможно в реалния свят.

Чакай, идва нашият спасител „Биномиал“, така че биномиалказва „Това разпределение описва поведението на изходите от n произволни експеримента, всеки от които има разпределение на Бернули с вероятност p.''

Ако трябва да хвърляте монета отново и отново много пъти и да изчислявате вероятността, в този случай няма нужда да продължавате с Бернули вместо това да използвате бином.

Така че основно искам да кажа, че и двете са еднакви, просто случаите на употреба са различни. И когато по-малък брой опити отидете с друг мъдър бином на Бернули. За повече по тази тема красива статия вижте „това“.

5. Лог и експоненциална функция-

Логаритмите и експоненциалната функция са много важни и широко използвани функции в статистиките и машинното обучение.

Функция за регистриране -

Log е монолитна функция, което на практика означава, че се променя много бавно спрямо природата. Спомнете си състезанието със заек и костенурка. Дневникът е костенурка, която бавно се увеличава или намалява (в случай на обратно).

Дневникът има много типове, което означава различни основи, така че ако кажем основа 2, това означава, че ще вземе мощност от 2 към RHS стойност. подобно за дървена основа 10. Има още 1 специален вид, който е основа отe или естествен дървен материал. използва се най-вече в статистика и предварително дефинирани изчисления.

Тъй като Log има свойството на бавност, той основно намалява термина като -умножение до събиране, така че ако имаме

x1 * x2 * x3 ….. Xn би било трудно да се изчисли, вместо да се приложи log on, тогава ще изглежда като Log(x1*x2*x3….Xn) = log(x1)+log(x2)+log( x3)….log(xn).

така че ще преобразува допълнително, което е много по-лесно в сравнение с умножението. същото може да важи за правилото за разделяне и власт. Log се използва по същество в машинното обучение за оптимизация (Запомнете функцията за загуба на линейна регресия) или където и да използваме градиент, продължаваме с Log.

6. Параметричен и непараметричен модел-

В машинното обучение ние работим с много алгоритми за решаване на всеки проблем като линейна регресия, логистична регресия или произволна гора. Но изчакайте, ако клиентът поиска да интерпретира резултатите от модела, мислили ли сме колко модела са интерпретируеми (имах предвид правилно обясними)

Там се натъкваме на значението на параметричния и непараметричния модел. Параметричните модели са тези, които могат да бъдат обяснени математически и можете да видите как всеки и всеки компонент се държи с данните.

Пример: В линейната регресия формираме уравнение като: Y = mx + c. където m представлява наклон (бета коефициент в терминологията на ML) и въз основа на тази стойност „m“ определяме дали регресорът „x“ влияе +ve или -ve. Така че този модел е параметричен модел, където получаваме математическо уравнение.

Непараметричен модел -

Това е модел на черна кутия и не разкрива никакво математическо уравнение. Например произволната гора е подход, базиран на правила, при който решението се взема въз основа на метода Да или Не. Освен това тези модели не можем да обясним в реалния свят (чрез имаме някакъв подход като lime, shap и т.н.), но всички те също са метод на приближение и не са действителни

Ето, че стигнахме до края на този блог, въпреки че той все още не е завършен и аз непрекъснато ще го актуализирам, когато имам време. Моля, маркирайте това за бъдещи промени. Освен това, ако имате нещо, което мога да добавя, моля, уведомете ме в коментар, ще се радвам да актуализирам същото.

Много честита нова година и наздраве :)