Кластерный анализ — это неконтролируемая задача обучения, в которой собираются однородные кластеры записей, чтобы получить представление о данных. Другими словами, мы делим все данные на несколько групп на основе шаблонов в наборе данных. При кластеризации нам не нужно предсказывать цель.
Свойства кластеров –
1. Все точки данных в кластере должны быть одинаковыми.
2. Точки данных из кластеров должны максимально различаться.
Приложения. Кластерный анализ можно использовать в различных приложениях реального времени, таких как механизмы рекомендаций для розничной торговли, кредитный скоринг для банков, кластеризация документов для сегментации изображений и сегментация клиентов в электронной коммерции, спорте и т. д. телеком.
Подготовка данных. Подготовка данных — утомительный процесс. На это уходит от 60% до 70% времени аналитика данных. Сбор правильного количества данных имеет решающее значение для получения лучшего результата. Перед подготовкой данных нам необходимо проверить следующие моменты:
1. Строки — это наблюдения (индивидуумы), а столбцы — это переменные.
2. Любое отсутствующее значение в данных должно быть удалено или оценено.
3. Данные должны быть стандартизированы (т. е. масштабированы), чтобы сделать переменные сопоставимыми. Напомним, что стандартизация включает преобразование переменных со средним значением, равным нулю, и стандартным отклонением, равным единице. (Кассамбара. 2018).
Кластеризация измеряется с использованием внутрикластерного и межкластерного расстояния.
1. Внутрикластерное расстояние — это расстояние между точками данных внутри кластера. Если присутствует сильный эффект кластеризации, он должен быть небольшим (более однородным).
2. Межкластерное расстояние — это расстояние между точками данных в разных кластерах. Там, где существует устойчивая кластеризация, они должны быть большими (более разнородными).
Евклидово расстояние, Манхэттенское расстояние, корреляционное расстояние Пирсона, корреляционное расстояние Спирмена и корреляционное расстояние Кендалла — это методы, используемые для измерения расстояний между точками, которые влияют на кластеры. (Кластерный анализ K-средних).
Связь между кластерами относится к тому, насколько разные или похожи два кластера друг на друга. (Что такое кластерный анализ?.2022).
Как использовать кластерный анализ в продуктовых/розничных магазинах?
Кластерный анализ широко используется для повышения эффективности продаж продуктовых и розничных магазинов. Каждый день клиенты разных демографических, образовательных и возрастных групп посещают магазин, чтобы купить свои повседневные потребности. Предпочтения в еде могут быть разными для каждого клиента. Например, обычный день не включает такие продукты, как фрукты, овощи, молоко, хлопья, арахисовое масло и хлеб. Таким образом, модель покупки этих продуктов питания этими клиентами может быть различной. Однако, если мы сгруппируем их, мы можем получить закономерность в покупательских привычках. Используя этот шаблон, команда аналитиков розничной компании может создать кластер и провести дополнительный анализ покупательской привычки, что поможет определить надлежащий инвентарь, предпочтения этих клиентов и размещение этих продуктов питания. Правильное предложение по этим пунктам поможет улучшить продажи магазина и повысить прибыльность.
Ссылки:
- Кластерный анализ K-средних. (без даты).https://uc-r.github.io/kmeans_clustering#fnref:scale
- Кассамбара, А. (2018). Пакеты подготовки данных и R для кластерного анализа. https://www.datanovia.com/en/lessons/data-preparation-and-r-packages-for-cluster-analysis/
- Что такое кластерный анализ?.(2022). Когда вам следует использовать его для результатов опроса? https://www.qualtrics.com/experience-management/research/cluster-analysis/
- https://www.google.com/imgres?imgurl=https%3A%2F%2Fwww.theactuary.com%2Fsites%2Fdefault%2Ffiles%2F2020-07%2Fweb_p32_mainimage.jpg&imgrefurl=https%3A%2F%2Fwww.theactuary .com%2Ffeatures%2F2020%2F07%2F08%2Прогнозирование-кластерный-анализ-претензий по финансированию&tbnid=ONN2Y20jqhqIiM&vet=10CHsQMyieAWoXChMI6OWm_6q7-QIVAAAAAB0AAAAAEAI..i&docid=yY7OwqiZU039mM&w=8 00&h=500&q=cluster%20analysis&ved=0CHsQMyieAWoXChMI6OWm_6q7-QIVAAAAAB0AAAAAEAI