Кластеризация методом K-средних — один из самых простых и популярных алгоритмов машинного обучения без учителя.

Неконтролируемое обучение

Обучение без учителя – это метод машинного обучения, в котором для обучающих данных нет меток. Алгоритм машинного обучения пытается изучить основные шаблоны или распределения, управляющие данными.

Кластеризация

Кластеризация — один из наиболее распространенных методов исследовательского анализа данных, используемых для получения интуитивного представления о структуре данных. Его можно определить как задачу идентификации подгрупп в данных таким образом, чтобы точки данных в одной и той же подгруппе (кластере) были очень похожи, а точки данных в разных кластерах сильно различались.

Типы кластеризации

Кластеризация — это тип обучения без учителя, при котором точки данных группируются в разные наборы в зависимости от степени их сходства.

Различные типы кластеризации:

  • Иерархическая кластеризация
  • Кластеризация разделов

Иерархическая кластеризация подразделяется на:

  • Агломерационная кластеризация
  • Разделительная кластеризация

Разделение кластеризации далее подразделяется на:

  • Кластеризация K-средних
  • Нечеткая кластеризация C-средних

Кластеризация K-средних

Кластеризация K-средних — это тип обучения без учителя, который используется, когда у вас есть немаркированные данные (т. е. данные без определенных категорий или групп). Цель этого алгоритма — найти группы в данных, при этом количество групп представлено переменной K. Точки данных группируются на основе сходства признаков.

Где используется алгоритм кластеризации k-средних?

Алгоритм кластеризации k-средних используется в моделях машинного обучения, где нам приходится выполнять обучение без учителя с неправильными историческими данными, поэтому в этом случае мы используем алгоритм кластеризации k-средних.

Каковы основные шаги для кластеризации K-средних?

  • Шаг 1. Выберите количество кластеров k.
  • Шаг 2. Выберите k случайных точек из данных в качестве центроидов.
  • Шаг 3. Назначьте все точки центроиду ближайшего кластера.
  • Шаг 4. Повторно вычислите центроиды недавно сформированных кластеров.
  • Шаг 5. Повторите шаги 3 и 4.

Приложения кластеризации K-средних

Кластеризация K-средних используется в различных примерах или бизнес-кейсах из реальной жизни, например:

  • Успеваемость
  • Диагностические системы
  • Поисковые системы
  • Беспроводные сенсорные сети

Как работает кластеризация K-средних?

На блок-схеме ниже показано, как работает кластеризация k-средних:

Ограничения кластеризации K-средних

Иногда довольно сложно предсказать количество кластеров или значение k.

  1. На результат сильно влияют исходные данные, например количество кластеров.
  2. Массив данных существенно влияет на итоговые результаты.
  3. В некоторых случаях кластеры отображают сложные пространственные представления, тогда выполнение кластеризации не является хорошим выбором.
  4. Кроме того, масштабирование иногда происходит осознанно, его нельзя выполнить путем нормализации или стандартизации точек данных, выходные данные полностью меняются.

Варианты использования K-средних в области безопасности

  1. Выявление мест совершения преступлений-

Имея данные о преступлениях, доступных в определенных районах города, категория преступления, район совершения преступления и связь между ними могут дать качественное представление о районах, подверженных преступности, в городе или населенном пункте.

2. Детальный анализ записи звонков-

Детальная запись вызова (cdr) — это информация, полученная телекоммуникационными компаниями во время звонка, смс и интернет-активности клиента. Эта информация дает более полное представление о потребностях клиента при использовании с демографическими данными клиентов. Мы можем кластеризовать действия клиентов в течение 24 часов, используя неконтролируемый алгоритм кластеризации k-средних. Он используется для понимания сегментов клиентов в отношении их использования по часам.

3. Автоматическая кластеризация предупреждений-

Компоненты ИТ-инфраструктуры крупного предприятия, такие как сеть, хранилище или база данных, генерируют большие объемы предупреждающих сообщений. Поскольку предупреждающие сообщения потенциально указывают на операционные проблемы, их необходимо проверять вручную для установления приоритетов для последующих процессов. Кластеризация данных может дать представление о категориях предупреждений и среднем времени ремонта, а также помочь в прогнозировании сбоев.

4. Классификация документов о преступлении-

Кластеризуйте документы по нескольким категориям на основе тегов, тем и содержимого документа. Это очень стандартная задача классификации, и алгоритм k-средних очень подходит для этой цели. Начальная обработка документов необходима для представления каждого документа в виде вектора и использования частоты терминов для определения часто используемых терминов, которые помогают классифицировать документ. Затем векторы документов группируются, чтобы помочь определить сходство в группах документов.

5. Киберпрофилирование преступников

Киберпрофилирование — это процесс сбора данных от отдельных лиц и групп для выявления существенных корреляций. Идея киберпрофилирования основана на криминальных профилях, которые предоставляют информацию о следственном отделе для классификации типов преступников, которые находились на месте преступления.

6. Анализ данных о совместных поездках

общедоступный набор данных с информацией о поездках на Uber содержит большое количество ценных данных о трафике, времени в пути, пиковых местах посадки и многом другом. Анализ этих данных полезен не только в контексте Uber, но и для понимания моделей городского движения и помогает нам планировать города будущего.

Спасибо..!!