Неконтролируемое обучение

Неконтролируемый и кластерный?

Данные не всегда помечены в реальной жизни. Методы, которые мы используем для поиска закономерностей в этих данных, называются «обучение без учителя». Кластеризация — это хорошо известный метод обучения без учителя. Он группирует похожие данные, чтобы мы могли найти шаблон/структуру данных.

К-значит?

«K» — это количество кластеров, в которые мы хотим сгруппировать данные. «Среднее» — это среднее расстояние между примерами (точками данных) и центром кластера. Назовем центр кластера «Центроид».

K-средний процесс

  1. Назначьте k центроидов в наборе данных.
  2. Назначьте примеры данных ближайшему кластеру.
  3. Вычислите среднее расположение примеров в кластерах и назначьте (переместите) центроиды для каждого кластера.
  4. Повторяйте 2–3, пока центроиды не останутся неподвижными.

Под «ближайшим» во втором процессе мы подразумеваем евклидово расстояние между примерами данных и центроидами.

Сколько К?

Алгоритм k-средних пытается минимизировать искажение, которое определяется как сумма квадратов расстояний между каждым вектором примера данных и его доминирующим центроидом. Эта сумма может быть высокой или низкой, и мы можем нарисовать график, который фиксирует изменения искажения.

Это называется «метод локтя».

Если мы найдем подходящее значение k, искажение будет уменьшаться очень медленно. По этому правилу мы можем найти подходящее k.

Также есть еще один метод, который называется «анализ силуэта».

Анализ силуэта можно использовать для изучения расстояния между полученными кластерами. График силуэта отображает меру того, насколько близко каждая точка в одном кластере находится к точкам в соседних кластерах, и, таким образом, дает возможность визуально оценить такие параметры, как количество кластеров. Эта мера имеет диапазон [-1, 1].

Коэффициенты силуэта (как называются эти значения) около +1 указывают на то, что образец находится далеко от соседних кластеров. Значение 0 указывает, что выборка находится на границе решения между двумя соседними кластерами или очень близка к ней, а отрицательные значения указывают на то, что эти выборки могли быть отнесены к неправильному кластеру.

Для кода визуализации алгоритма k-средних вы можете посетить мой github. Хотя это написано на корейском языке, я надеюсь, что коды могут помочь.

Кстати, это конец моей серии ML. В следующий раз вернусь с новой серией. Спасибо за чтение!