Свързани публикации 'statistics'


Описателна статистика за наука за данни.
Въведение: Статистиката е градивният елемент за науката за данни и е важно за специалиста по данни да я владее. Ученето и оставането на ниво е досадна задача и е нещо, с което учените по данни се борят. Тази статия е предназначена за хора, които се запознават с науката за данните и се нуждаят от преглед. За други това може да бъде опресняване на основите. Чувствайте се свободни да маркирате тази връзка и да се връщате към нея, когато е необходимо, ако я намерите за полезна. Нека..

Отговаряне на пъзел Монти Хол с Монте Карло
Отговаряне на пъзел Монти Хол с Монте Карло Монте Карло е концептуално проста, но мощна техника, която се използва широко. Той използва случайността, за да отговаря на въпроси. В тази публикация ще обясня как да реша проблема на Монти Хол с помощта на метода на Монте Карло . Изпълнението е на python, език за програмиране, чието име само по себе си е знак на почит към British Comedy Group — Monty Python . Проблем с Монти Хол Първият път, когато се запознах с проблема Монти..

Приблизителни подобрения на заявките: 12 неща, които разработчиците ще харесат в Oracle Database 12c издание 2...
Ако правите анализ на данни, често трябва да отговаряте на въпроси като: Колко клиенти са посетили нашия уебсайт вчера? Колко различни продукта продадохме миналия месец? Колко уникални SQL оператора е изпълнила базата данни миналата седмица? Добре, може би последният съм само аз ;) Във всеки случай често тези въпроси са просто отправна точка за по-нататъшен анализ. Така че просто искате бърза оценка. Отговорът на тези въпроси обикновено изисква преброяване, различно по..

Топ 10 на грешките в статистиката, направени от специалистите по данни
Учен по данни е „човек, който е по-добър в статистиката от всеки софтуерен инженер и по-добър в софтуерното инженерство от всеки статистик“. В „10-те най-големи грешки при кодирането, допуснати от специалисти по данни“ обсъдихме как статистиците могат да станат по-добри програмисти. Тук обсъждаме как програмистите могат да станат по-добри статистици. Подробен изход и код за всеки от примерите е достъпен в github и в интерактивен бележник . Кодът използва библиотека за управление на..

Не се отказвай, или ще те запаля
Проект за прогнозиране на оттеглянето на клиенти с PySpark Преглед Проектът е част от Capstone Project на Udacity Data Scientist Nanodegree . Един от най-често срещаните бизнес проблеми, прогнозирането на оттеглянето на клиенти е важна част от ролята на Data Scientist в бизнес и продуктова среда. Този проект попада в областта на музикалната индустрия и една от най-важните части на днешния свят на стрийминг е поддържането на клиентите привързани към бизнеса чрез предотвратяване на..

Грешката при обработката на данни в изявен набор от данни за справедливо машинно обучение (кратка версия)
Резултатът на ProPublica COMPAS и данните за рецидивизма В едно скорошно изследване хартия и блог post преразглеждам скора за риск от рецидивизъм COMPAS и криминална история данни, събрани от ProPublica за нейната новаторска 2016 статия за алгоритмичната справедливост в съдебната система. Намирам , че ProPublica допусна грешка при обработката на данни при конструирането на ключови под набори от данни използвани в анализа за тази статия. Грешката в данните, която..

Изграждане и оценка на вашия байесов статистически модел
Дори за хора, които не се занимават с данни, терминът байесова статистика е популярен. Може да сте научили по време на дните си в университета като един от задължителните часове, които да вземете, без да осъзнавате колко важна е статистиката на Байес. Всъщност байесовската статистика не е просто конкретен метод или дори клас от методи; това е напълно различна парадигма за извършване на статистически анализ. Защо байесова статистика? Бейсовата статистика ви предоставя инструментите..