Шагните в мир машинного обучения вместе с историей Шантини! Сегодня я собираюсь поделиться последними тенденциями, историями и идеями из набора данных Iris. Погрузитесь со мной в увлекательный мир и исследуйте его бесконечные мысли.

Шаги:

  1. Сбор данных
  2. Очистка данных
  3. Предварительная обработка данных
  4. визуализировать

Здесь я не собираюсь строить модель, просто визуализирую вам шаблоны. Давайте углубимся в это.

Сначала загрузите набор данных из любого репозитория. Здесь я использовал набор данных от Kaggle. А затем импортировать необходимые библиотеки, которые требуются. Здесь я импортировал NumPy, Pandas, Matplotlib, Seaborn. NumPy используется для работы с числовыми значениями в наборе данных. Панды будут полезны при работе с табличными данными, такими как данные со строками и столбцами. Matplotlib используется для визуализации, как и Seaborn, но Seaborn — это немного продвинутая версия Matplotlib. Затем мы можем проверить версию этих импортированных библиотек. Код для того же будет добавлен.

Затем давайте загрузим набор данных и прочитаем набор данных. Существует два способа загрузки набора данных. Один из способов заключается в том, что мы можем загрузить набор данных, а затем загрузить его с помощью файлов или Google Диска, который загружает набор данных извне. Другой способ — загрузить его прямо из библиотеки Seaborn. Реализация обоих будет добавлена ​​ниже.

Затем нам нужно будет добавить имена столбцов в случае загрузки и загрузки набора данных извне.

И мы должны выполнить исследовательский анализ данных (EDA). 1) df.info() — здесь df — это переменная, в которую загружается и читается набор данных. Функция info () извлекает информацию, такую ​​как класс переменной, имена столбцов, нулевые значения или нет, количество, тип данных столбцов и использование памяти.

df.describe () — функция описания сообщает нам количество, среднее значение, стандартное отклонение, минимальное значение, максимальное значение, значения квартилей 25%, 50%, 75% каждого столбца в наборе данных. С их помощью мы узнаем, сколько значений в столбце, есть ли выбросы, насколько значения отклоняются от среднего и т. д.

Давайте погрузимся в часть визуализации.

sns.pairplot(df, hue="Class", height=3, aspect=1) — расскажет нам, как распределяются значения, представляющие каждый класс в них. С помощью парного графика мы узнаем взаимосвязь между столбцами в наборе данных. Это создаст матрицу точечных диаграмм, где точечная диаграмма представляет взаимосвязь между двумя столбцами, а диагональная ось представляет взаимосвязь каждого отдельного столбца. Это помогло бы нам сделать вывод о корреляции столбцов, силе ассоциации, выбросах, распределении и мультиколлинеарности. Есть много других функций, которые можно добавить в функцию парного графика.

df.hist(edgecolor="black", linewidth=1, figsize=(12,8)) — с помощью истории мы можем построить гистограмму, и мы узнаем, как данные распределяются в одном столбце. Распределение набора данных, среднее значение, медиана, мода, разброс данных, изменчивость, асимметрия и выбросы в наборе данных.

sns.violinplot(x=’species’,y=’sepal_width’,data=iris) — сочетает в себе функции boxplot и kde plot. Он обычно используется для отображения и сравнения распределения непрерывной переменной или числовых данных по различным категориям или группам. Некоторые конкретные цели включают сравнение распределения, обнаружение выбросов, асимметрию, симметрию, медиану, квартили, мультимодальное распределение, ковариативный анализ.

iris.boxplot(by='species',figsize=(12,8)) — Коробчатая диаграмма, также известная как диаграмма с усами, представляет собой широко используемый метод визуализации данных для обобщения распределения непрерывной переменной или числовые данные. Он обеспечивает визуальное представление медианы, квартилей и потенциальных выбросов в наборе данных. Блочные диаграммы полезны для сравнения нескольких групп или категорий и понимания центральной тенденции, разброса и асимметрии данных. Они дают представление о центральной тенденции, разбросе, асимметрии и выбросах, что делает их ценным инструментом для исследовательского анализа данных, групповых сравнений и выявления потенциальных аномалий данных.

Когда мы завершаем обсуждение набора данных Iris, я призываю вас взять то, что вы узнали, и применить это в своих собственных начинаниях. Итак, давайте использовать возможности, сотрудничать с другими и вместе вносить свой вклад в будущее, которое определяется инновациями, пониманием и неустанным стремлением к совершенству. Для получения дополнительной информации и деталей взгляните на соответствующий код. Пожалуйста, поделитесь своими мыслями в комментариях. Хорошего дня:)