Неделя # 6 - Интеллектуальная система

В этом блоге мы обсудим один из методов машинного обучения, при котором машина учится на основе наблюдения за данными.

Если вы хотите узнать больше о типах машинного обучения, вы можете посетить этот пост:
https://medium.com/hengky-sanjaya-blog/supervised-vs-unsupervised-learning-aae0eb8c4878

Техника кластеризации

Метод кластеризации применяется тогда, когда нет класса, который нужно предсказать, а скорее тогда, когда экземпляры должны быть разделены на естественные группы.

Этот метод в основном представляет собой метод обучения без учителя.

Примеры:

  • Маркетинг: характеризуйте и выявляйте сегменты клиентов для маркетинговых целей.
  • Биология: Классификация различных видов растений и животных.
  • Библиотеки: группирование разных книг по тематике и информации.
  • Планирование города. Создавайте группы домов и изучите их ценность с учетом их географического положения и других факторов.

В методе кластеризации мы в идеале используем семантическое сходство для поиска и извлечения связанных вещей из данных.

Мы вычисляем расстояние, чтобы измерить расстояние сходства.

Измерение расстояния определит, как рассчитывается схожесть двух элементов, и повлияет на форму кластеров.

  • Евклидово расстояние:
    Источник этой формулы находится в теореме Пифагора.
  • Расстояние Манхэттен:
    вычисляет расстояние, которое нужно пройти, чтобы добраться от одной точки данных до другой, если следовать сетке пути.

В методике кластеризации есть 2 алгоритма:

  • Алгоритмы разделения:
    Создайте различные разделы, а затем оцените их по какому-либо критерию.
    - Обычно начинают со случайного (частичного) разделения
    - Итеративно уточняйте его (K означает кластеризацию, кластеризацию на основе модели)
  • Иерархические алгоритмы:
    Создайте иерархическую декомпозицию набора объектов с использованием некоторого критерия.

Алгоритм K-средних

K = количество кластеров и центроида для создания.

Итак, в этом алгоритме мы выберем K данных в качестве центроида. И продолжайте переназначать центроид, используя среднее значение той же точки данных группы.

Этот процесс остановится, когда:

  • Центроиды стабилизировались - их значения не изменились, поскольку кластеризация прошла успешно.
  • Точки остаются в том же кластере.
  • Достигнуто определенное количество итераций.

Чтобы смоделировать процесс кластеризации K-средних, вы можете перейти по этой ссылке, чтобы увидеть демонстрацию
http://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/

Спасибо…