Публикации по тематике data-mining

Публикации по теме 'data-mining'

№ 0. Обзор CRISP-DM: межотраслевой стандартный процесс интеллектуального анализа данных

Интеллектуальный анализ данных является важным процессом во многих отраслях, от финансов до здравоохранения, а CRISP-DM (межотраслевой стандартный процесс интеллектуального анализа данных) является широко признанной методологией для выполнения проектов интеллектуального анализа данных. В этом эссе мы предоставим обзор CRISP-DM, включая его историю, шесть этапов и преимущества, а также конкретные примеры для каждого этапа. История CRISP-DM CRISP-DM был разработан в 1990-х годах как..

Что такое интеллектуальный анализ данных? | от Лилавати

Междисциплинарная область фокусируется на поиске закономерностей, тенденций, скрытых идей и другой полезной информации из огромного количества исторических данных. Интеллектуальный анализ данных черпает идеи из различных областей, таких как статистика, искусственный интеллект, машинное обучение, распознавание образов, технологии баз данных, а также параллельные и распределенные вычисления. Он также известен как «Обнаружение знаний в данных» или KDD. Отбор: определение и..

Уроки, извлеченные на конкурсе машинного обучения CIKM AnalytiCup 2017 г.

Чтобы расширить исследования и понять передовые алгоритмы и технологии, я принял участие в международном конкурсе интеллектуального анализа данных 2017 CIKM AnalytiCup . Конференция по управлению информацией и знаниями (CIKM) — это ежегодная научно-исследовательская конференция в области компьютерных наук, которая проводится с 1992 года. Это соревнование было моей первой простой попыткой; В свободное время с июля по август я пытался создать простую структуру изучения естественного языка...

Работа с PDF-файлами в Python

Использование библиотеки PyPDF2 Гибкость и интерактивность Python заключаются в том, что мы можем использовать любую форму данных. Из JSON, таблиц Excel, текстовых файлов, API или даже PDF-файлов Python позволяет нам играть с любыми формами данных. PDF или Portable Document Format - один из наиболее распространенных форматов обмена документами. В файле могут быть разные элементы, такие как текст, изображения, таблицы или формы. Поскольку в одном файле много всего происходит,..

Корреляция не есть причинно-следственная связь: но почему?

Мы слишком много раз слышали, что корреляция != причинно-следственная связь, но, похоже, никто не удосужился спросить, почему, услышав это. В человеческой природе мы склонны предполагать, что: только если А вызывает Б, тогда Б изменяется, когда изменяется А. Давайте посмотрим, почему это предположение неверно, на примере ниже: травля в школе. Пример школьного буллинга Студент X издевался над студентом Y. Студент Y впал в депрессию. Студент Y покончил жизнь самоубийством...

Классификация XGBoost в R

XGBoost — один из наиболее часто используемых алгоритмов машинного обучения в настоящее время. Это эволюция Gradient Boost Machines, и она более устойчива к чрезмерной подгонке. Он широко использовался в соревнованиях Kaggle для структурированных и табличных данных. У нас есть реализация этого алгоритма в R. Давайте посмотрим, как он работает для классификации. В первую очередь нам надо загрузить набор данных и библиотеки. Давайте воспользуемся хорошо известным набором данных Iris:..

Достаточно ли хороша логистическая регрессия?

Логистическая регрессия – это пример контролируемого обучения. В этой статье мы отправим вас в увлекательное путешествие в мир логистической регрессии, где вы узнаете, что это такое, изучите ее основные типы, сравните ее с линейной регрессией, сбалансируете ее преимущества и недостатки и узнаете о ее преимуществах. реальные приложения. Приготовьтесь раскрыть всю мощь логистической регрессии и отправиться в захватывающее путешествие за знаниями, основанными на данных!» Что такое..