Публикации по теме 'data-mining'
№ 0. Обзор CRISP-DM: межотраслевой стандартный процесс интеллектуального анализа данных
Интеллектуальный анализ данных является важным процессом во многих отраслях, от финансов до здравоохранения, а CRISP-DM (межотраслевой стандартный процесс интеллектуального анализа данных) является широко признанной методологией для выполнения проектов интеллектуального анализа данных. В этом эссе мы предоставим обзор CRISP-DM, включая его историю, шесть этапов и преимущества, а также конкретные примеры для каждого этапа.
История CRISP-DM
CRISP-DM был разработан в 1990-х годах как..
Что такое интеллектуальный анализ данных? | от Лилавати
Междисциплинарная область фокусируется на поиске закономерностей, тенденций, скрытых идей и другой полезной информации из огромного количества исторических данных.
Интеллектуальный анализ данных черпает идеи из различных областей, таких как статистика, искусственный интеллект, машинное обучение, распознавание образов, технологии баз данных, а также параллельные и распределенные вычисления.
Он также известен как «Обнаружение знаний в данных» или KDD.
Отбор: определение и..
Уроки, извлеченные на конкурсе машинного обучения CIKM AnalytiCup 2017 г.
Чтобы расширить исследования и понять передовые алгоритмы и технологии, я принял участие в международном конкурсе интеллектуального анализа данных 2017 CIKM AnalytiCup . Конференция по управлению информацией и знаниями (CIKM) — это ежегодная научно-исследовательская конференция в области компьютерных наук, которая проводится с 1992 года.
Это соревнование было моей первой простой попыткой; В свободное время с июля по август я пытался создать простую структуру изучения естественного языка...
Работа с PDF-файлами в Python
Использование библиотеки PyPDF2
Гибкость и интерактивность Python заключаются в том, что мы можем использовать любую форму данных. Из JSON, таблиц Excel, текстовых файлов, API или даже PDF-файлов Python позволяет нам играть с любыми формами данных.
PDF или Portable Document Format - один из наиболее распространенных форматов обмена документами. В файле могут быть разные элементы, такие как текст, изображения, таблицы или формы. Поскольку в одном файле много всего происходит,..
Корреляция не есть причинно-следственная связь: но почему?
Мы слишком много раз слышали, что корреляция != причинно-следственная связь, но, похоже, никто не удосужился спросить, почему, услышав это. В человеческой природе мы склонны предполагать, что: только если А вызывает Б, тогда Б изменяется, когда изменяется А. Давайте посмотрим, почему это предположение неверно, на примере ниже: травля в школе.
Пример школьного буллинга
Студент X издевался над студентом Y.
Студент Y впал в депрессию.
Студент Y покончил жизнь самоубийством...
Классификация XGBoost в R
XGBoost — один из наиболее часто используемых алгоритмов машинного обучения в настоящее время. Это эволюция Gradient Boost Machines, и она более устойчива к чрезмерной подгонке. Он широко использовался в соревнованиях Kaggle для структурированных и табличных данных.
У нас есть реализация этого алгоритма в R. Давайте посмотрим, как он работает для классификации. В первую очередь нам надо загрузить набор данных и библиотеки. Давайте воспользуемся хорошо известным набором данных Iris:..
Достаточно ли хороша логистическая регрессия?
Логистическая регрессия – это пример контролируемого обучения. В этой статье мы отправим вас в увлекательное путешествие в мир логистической регрессии, где вы узнаете, что это такое, изучите ее основные типы, сравните ее с линейной регрессией, сбалансируете ее преимущества и недостатки и узнаете о ее преимуществах. реальные приложения. Приготовьтесь раскрыть всю мощь логистической регрессии и отправиться в захватывающее путешествие за знаниями, основанными на данных!»
Что такое..