Клъстерният анализ е неконтролиран учебен проблем, при който са събрани хомогенни клъстери от записи, за да се получи представа за данните. С други думи, ние разделяме всички данни на множество групи въз основа на моделите в набора от данни. При клъстерирането не е нужно да предвиждаме целта.

Свойства на клъстерите -

1. Всички точки от данни в клъстер трябва да са подобни.

2. Точките от данни от клъстерите трябва да са възможно най-различни.

Приложения— Клъстерният анализ може да се използва в различни приложения в реално време, като — механизми за препоръки за търговия на дребно, кредитен рейтинг за банкиране, клъстериране на документи към сегментиране на изображения и сегментиране на клиенти в електронна търговия, спорт и телеком.

Подготовка на данни — Подготовката на данните е досаден процес. Той отнема от 60% до 70% от времето на анализатора на данни. Събирането на правилното количество данни е от решаващо значение за постигане на по-добър резултат. Трябва да проверим следните точки преди подготовката на данните -

1. Редовете са наблюдения (индивиди), а колоните са променливи.

2. Всяка липсваща стойност в данните трябва да бъде премахната или оценена.

3. Данните трябва да бъдат стандартизирани (т.е. мащабирани), за да направят променливите сравними. Спомнете си, че стандартизацията включва трансформиране на променливите със средна нула и стандартно отклонение единица. (Касамбара. 2018).

Клъстерирането се измерва с помощта на вътреклъстерно и междуклъстерно разстояние.

1. Вътрешно клъстерно разстояние е разстоянието между точките от данни вътре в клъстера. Ако има силен ефект на групиране, той трябва да е малък (по-хомогенен).

2. Междуклъстерно разстояние е разстоянието между точките от данни в различни клъстери. Когато съществува стабилно групиране, те трябва да са големи (по-разнородни).

Евклидовото разстояние, разстоянието Манхатън, разстоянието на корелация на Пиърсън, разстоянието на корелация на Спирман и разстоянието на корелация на Кендъл са методите, използвани за измерване на разстоянията на точките, които влияят на клъстерите. (K-означава клъстерен анализ).

Връзката между клъстерите се отнася до това колко различни или подобни са два клъстера един спрямо друг. (Какво е клъстерен анализ?.2022).

Как да използвате клъстерен анализ в хранителни магазини/магазини за търговия на дребно?

Клъстерният анализ се използва широко за подобряване на ефективността на продажбите на магазини за хранителни стоки и дребно. Всеки ден множество клиенти с демографски произход, образование и възрастови групи посещават магазин, за да купят ежедневните си нужди. Хранителните предпочитания могат да бъдат различни за всеки клиент. Например, един типичен ден не е пълен с храни като - плодове, зеленчуци, мляко, зърнени храни, фъстъчено масло и хляб. Следователно моделът на закупуване на тези хранителни продукти от тези клиенти може да е различен. Въпреки това, ако ги групираме, може да получим модел в навиците за пазаруване. Използвайки този модел, аналитичният екип на компанията за търговия на дребно може да създаде клъстер и да направи повече анализи на навика за купуване, което ще помогне да се идентифицира правилният инвентар, предпочитанията на тези клиенти и разположението на тези хранителни продукти. Правилното предложение по тези точки ще бъде полезно за подобряване на продажбите на магазина и по-добра рентабилност.

Референции: