Публикации по темата statistics

Свързани публикации 'statistics'

Вашият модел най-добрият ли е или най-щастливият?

Как да не бъдете подведени от случайността, когато избирате най-добрия модел Свикнали сме да виждаме предизвикателства в науката за данните в Kaggle, където вариация от 0,1% в ROC резултата може да направи разликата между спечелването на 100 000 $ или нищо. Вземете за пример предизвикателството Data Science Bowl 2017 . Наградите бяха 500 000 $ за 1-во място, 200 000 за 2-ро място, 100 000 за 3-то място и т.н. Избраният показател за оценка беше логаритмична загуба. Това беше..

Отвъд точковата оценка: разкриване на силата на доверителните интервали

Помислете за пример за изборите. Да предположим, че има двама кандидати за гласуване, А и Б. Да речем, кандидат А иска да знае каква част от избирателите биха искали да гласуват за него. След това специалистът по данни на партията на кандидата провежда проучване в региона и пита на случаен принцип малък брой хора за кой кандидат биха обмислили да гласуват по време на изборите. Отговорите на хората, участвали в проучването, са извадката, която можем да използваме, за да разберем..

Грешка при машинно обучение и генерализация — Veni, Vidi, VC

В предишната „статия“ видяхме как неравенството на Хьофдинг, с леки модификации, може да се използва в контекста на оценка на това колко добре една хипотеза ще се обобщи върху невиждани данни. Същността на проблема беше, че трябваше да направим крачка далеч от проверката на старата школа на жизнеспособността на една хипотеза, за да намерим оптималната хипотеза от набор от хипотези вместо това. Проблемът беше, че не можехме сляпо да приложим неравенството на Хьофдинг към този сценарий —..

Разбиране на разпределението на вероятностите

Разбиране на разпределението на вероятностите Какво е разпределение на вероятностите? Какви са различните типове вероятностни разпределения? Как ще помогне при формулирането на решения за наука за данни?. Нека се опитам да го обясня с много прости думи Определение:- Вероятностното разпределение е математическата функция, която дава вероятностите за поява на различни възможни резултати за експеримент. Хвърлянето на зарове ми дава набор от резултати, разпределени по определен..

Статистика за Data Science

Преди да предприема стъпки, нека ви кажа, че това е първият ми блог в интернет. И така, аз съм развълнуван, както и доста нервен очевидно :). През последните няколко месеца се зарових много и проучвах в интернет и намерих различни блогове и публикации, които ми помогнаха много, както и ме вдъхновиха и исках да споделя знанията си с онези, които искаха да започнат кариерата си в Data Science като мен . Идеята зад написването на този блог, т.е. „ Статистика за наука за данни “, който..

Знаете ли в какъв контекст се използват термините адитивно и мултипликативно в контекста на времето...

В контекста на сезонното разлагане. Сезонното разлагане е полезна статистическа техника за разлагане на времеви редове на основните му компоненти: тенденция, сезонност и остатъци. Чрез разбиването на времевия ред на неговите съставни части, сезонните...

Най-малки квадрати: Подход за прогнозиране за линейни модели

Като разработчици на машинно обучение (с изключение на професионални разработчици и включително студенти, които се втурват да разработват ml модели), всички ние създаваме различни стабилни модели като XGBoost, Catboost и т.н. Все пак трябва да знаем математиката зад тези модели. Така че се опитвам да науча и да споделя математиката зад тях и да започна от нулата. Човекът непрекъснато се учи на Reinforcemet, така че може да направя грешки в обясненията, така че е необходима вашата помощ,..