Кластерный анализ — это неконтролируемая задача обучения, в которой собираются однородные кластеры записей, чтобы получить представление о данных. Другими словами, мы делим все данные на несколько групп на основе шаблонов в наборе данных. При кластеризации нам не нужно предсказывать цель.

Свойства кластеров

1. Все точки данных в кластере должны быть одинаковыми.

2. Точки данных из кластеров должны максимально различаться.

Приложения. Кластерный анализ можно использовать в различных приложениях реального времени, таких как механизмы рекомендаций для розничной торговли, кредитный скоринг для банков, кластеризация документов для сегментации изображений и сегментация клиентов в электронной коммерции, спорте и т. д. телеком.

Подготовка данных. Подготовка данных — утомительный процесс. На это уходит от 60% до 70% времени аналитика данных. Сбор правильного количества данных имеет решающее значение для получения лучшего результата. Перед подготовкой данных нам необходимо проверить следующие моменты:

1. Строки — это наблюдения (индивидуумы), а столбцы — это переменные.

2. Любое отсутствующее значение в данных должно быть удалено или оценено.

3. Данные должны быть стандартизированы (т. е. масштабированы), чтобы сделать переменные сопоставимыми. Напомним, что стандартизация включает преобразование переменных со средним значением, равным нулю, и стандартным отклонением, равным единице. (Кассамбара. 2018).

Кластеризация измеряется с использованием внутрикластерного и межкластерного расстояния.

1. Внутрикластерное расстояние — это расстояние между точками данных внутри кластера. Если присутствует сильный эффект кластеризации, он должен быть небольшим (более однородным).

2. Межкластерное расстояние — это расстояние между точками данных в разных кластерах. Там, где существует устойчивая кластеризация, они должны быть большими (более разнородными).

Евклидово расстояние, Манхэттенское расстояние, корреляционное расстояние Пирсона, корреляционное расстояние Спирмена и корреляционное расстояние Кендалла — это методы, используемые для измерения расстояний между точками, которые влияют на кластеры. (Кластерный анализ K-средних).

Связь между кластерами относится к тому, насколько разные или похожи два кластера друг на друга. (Что такое кластерный анализ?.2022).

Как использовать кластерный анализ в продуктовых/розничных магазинах?

Кластерный анализ широко используется для повышения эффективности продаж продуктовых и розничных магазинов. Каждый день клиенты разных демографических, образовательных и возрастных групп посещают магазин, чтобы купить свои повседневные потребности. Предпочтения в еде могут быть разными для каждого клиента. Например, обычный день не включает такие продукты, как фрукты, овощи, молоко, хлопья, арахисовое масло и хлеб. Таким образом, модель покупки этих продуктов питания этими клиентами может быть различной. Однако, если мы сгруппируем их, мы можем получить закономерность в покупательских привычках. Используя этот шаблон, команда аналитиков розничной компании может создать кластер и провести дополнительный анализ покупательской привычки, что поможет определить надлежащий инвентарь, предпочтения этих клиентов и размещение этих продуктов питания. Правильное предложение по этим пунктам поможет улучшить продажи магазина и повысить прибыльность.

Ссылки: