Неделя # 6 - Интеллектуальная система
В этом блоге мы обсудим один из методов машинного обучения, при котором машина учится на основе наблюдения за данными.
Если вы хотите узнать больше о типах машинного обучения, вы можете посетить этот пост:
https://medium.com/hengky-sanjaya-blog/supervised-vs-unsupervised-learning-aae0eb8c4878
Техника кластеризации
Метод кластеризации применяется тогда, когда нет класса, который нужно предсказать, а скорее тогда, когда экземпляры должны быть разделены на естественные группы.
Этот метод в основном представляет собой метод обучения без учителя.
Примеры:
- Маркетинг: характеризуйте и выявляйте сегменты клиентов для маркетинговых целей.
- Биология: Классификация различных видов растений и животных.
- Библиотеки: группирование разных книг по тематике и информации.
- Планирование города. Создавайте группы домов и изучите их ценность с учетом их географического положения и других факторов.
В методе кластеризации мы в идеале используем семантическое сходство для поиска и извлечения связанных вещей из данных.
Мы вычисляем расстояние, чтобы измерить расстояние сходства.
Измерение расстояния определит, как рассчитывается схожесть двух элементов, и повлияет на форму кластеров.
- Евклидово расстояние:
Источник этой формулы находится в теореме Пифагора. - Расстояние Манхэттен:
вычисляет расстояние, которое нужно пройти, чтобы добраться от одной точки данных до другой, если следовать сетке пути.
В методике кластеризации есть 2 алгоритма:
- Алгоритмы разделения:
Создайте различные разделы, а затем оцените их по какому-либо критерию.
- Обычно начинают со случайного (частичного) разделения
- Итеративно уточняйте его (K означает кластеризацию, кластеризацию на основе модели) - Иерархические алгоритмы:
Создайте иерархическую декомпозицию набора объектов с использованием некоторого критерия.
Алгоритм K-средних
K = количество кластеров и центроида для создания.
Итак, в этом алгоритме мы выберем K данных в качестве центроида. И продолжайте переназначать центроид, используя среднее значение той же точки данных группы.
Этот процесс остановится, когда:
- Центроиды стабилизировались - их значения не изменились, поскольку кластеризация прошла успешно.
- Точки остаются в том же кластере.
- Достигнуто определенное количество итераций.
Чтобы смоделировать процесс кластеризации K-средних, вы можете перейти по этой ссылке, чтобы увидеть демонстрацию
http://user.ceng.metu.edu.tr/~akifakkus/courses/ceng574/k-means/
Спасибо…