Достаточно статистики для науки о данных

Прежде чем начать, позвольте мне сказать вам, что я провалился на курсе статистики бакалавриата, что может означать, а может и не указывать, что мой преподаватель совсем не любил меня, но, конечно, мне не нравился сам предмет. Итак, если это заставляет кого-то чувствовать себя менее расстроенным из-за скучного пути, который вы должны пройти, чтобы стать специалистом по данным, я предлагаю вам продолжить чтение всего моего письма.

Так что же такое статистика? Это призрак? Это миф? Или это неудачная попытка кого-то, пытающегося казаться крутым, говоря: «Я статистик!» в конце 90-х!

В основном это изучение фактов и событий. Да, это действительно так!!! Это позволяет вам предсказывать, классифицировать или пытаться найти взаимосвязи/паттерны между событиями на основе некоторых очень сложных математических процессов или того, что известно как «алгоритмы» в компьютерных науках.

Когда вы хотите узнать что-то новое, вы обычно задаетесь вопросом, какие существуют ресурсы, сколько времени они займут? Когда начать? Ну, так как я неудачник, я многому научился. Но в конце концов это помогло, потому что ничему нельзя научиться достаточно хорошо, если за этим не стоит сильная мотивация. Причина, по которой я начал изучать статистику самостоятельно, — наука о данных. Некоторые из вас могут не согласиться, но наука о данных — это действительно современная статистика. Возможно, это не традиционная статистика, но она в значительной степени несет в себе концепции и идеи для решения реальных жизненных проблем. Я могу рассказать вам темы, которые мне пришлось изучить, чтобы начать работу с наукой о данных и машинным обучением. Изучение этого может быть недостаточным для всей вашей карьеры, но это не демотивирует вас в вашем путешествии по науке о данных.

Регрессия

Я начал изучать машинное обучение более полутора лет назад, и первой темой, которая меня поразила, была линейная регрессия. Речь идет о прогнозировании некоторых числовых значений на основе заданных значений. Я начал с Задачи ценообразования на жилье, где вам нужно предсказать цену дома на основе его площади в квадратных футах. Было много данных о ценах на жилье в зависимости от района, которые вы должны проанализировать, а затем спрогнозировать. Часть кода была для меня чертовски загадкой, так как я понятия не имел о том, что происходит внутри. Поэтому мне пришлось просмотреть часовое видео по линейной регрессии, множественной линейной регрессии, полиномиальной регрессии. Это было до того, как я понял, что это чистая тема статистики. Видите, это было совсем не сложно!!!

Изучая линейную регрессию, убедитесь, что вы очень хорошо понимаете концепцию «P-Value», чтобы оптимизировать свою модель, отдавая приоритет важным полям и игнорируя второстепенные. Это не только связано с регрессией, но, безусловно, это очень важный термин, который нужно знать.

Классификация

В этих типах задач вы должны ответить Да или Нет, Хорошо или Плохо, Высокий или Низкий. Не всегда может быть два варианта на выбор, например, вас могут спросить о том, является ли продукт хорошим, честным или менее честным. , или плохо, или очень плохо. В отличие от задач регрессии, где вам нужно было предсказать числовые значения, здесь вам нужно просто предсказать вариант и, следовательно, классифицировать.

Вам следует пройти через логистическую регрессию, которая представляет собой подход к прогнозной классификации. По названию может быть не понятно, что это классификационный подход, но на выходе получается переменная, содержащая два возможных ответа.

Существуют Ближайшие соседи, Машины опорных векторов, Классификация дерева решений, которые также необходимо изучить, чтобы решать проблемы классификации.

Классификация против кластеризации

Это может быть не тема статистики, но я думаю, что вы все должны знать, в чем разница между ними на самом деле. Но знаете ли вы, что означает ярлык? Метка — это то, что просят сделать или указывает ответ. Если вам дадут тысячу изображений животных и попросят классифицировать кошек и собак на этих картинках, то «Кошки и собаки» — это два ярлыка. Задачи, которые несут конечное число меток, можно назвать проблемой классификации. Итак, есть ли проблемы, которые не имеют никаких ярлыков? Предположим, вам нужно классифицировать отчеты о погоде по температуре, влажности и площади. Человек, назначивший вас, ничего не сказал о хорошей погоде, плохой погоде или каком-либо подходе, основанном на ярлыках. Все, что вам нужно сделать, это сгруппировать дни с похожей погодой. Эти типы проблем известны как проблемы кластеризации. Обычно они несут визуализации, чтобы иметь правильное представление о создаваемых кластерах или группах.

Теорема Байеса

Хотя вероятность кажется такой простой в изучении, учитывая, что вероятность события — это событие, деленное на количество всех возможных событий, все не так просто. Вероятность некоторого события может быть нарушена фактами. Байесовская статистика констатирует эти случаи и обрабатывает их, используя его теорию. Обязательно внимательно посмотрите на его объяснения.

Распределение вероятностей!!!

Вероятность может быть определена как число от 0 до 1, где 0 означает отсутствие вероятности, а 1 означает 100% вероятность. Что-то между 0 и 1 (например, 0,5) говорит о вероятности возникновения события. Распределения вероятностей — это функции, которые генерируют вероятность после определенных экспериментов. Важно, чтобы вы имели представление и понимали математику, лежащую в основе некоторых популярных распределений вероятностей, таких как — нормальное распределение, распределение Пуассона, экспоненциальное распределение и т. д.

Ресурсы

Когда начать? Где учиться? Интернет — лучший ресурс, который только может быть. Существует множество веб-сайтов и блогов, посвященных этим темам. Я не могу определенно предложить конкретный, потому что я сам не следовал только одному концу. Вместо этого я продолжал плавать грубой силой, чтобы учиться. Один сайт кажется сложным, перейдите на другой. Пока вы сосредоточены на изучении этой темы, вы обязательно найдете то, что лучше всего подходит для вас. Удачи!!!