Публикации по теме 'k-means'
Наиболее полное руководство по кластеризации K-средних, которое вам когда-либо понадобится
Я люблю работать с двигателями рекомендаций . Всякий раз, когда я сталкиваюсь с какой-либо системой рекомендаций на веб-сайте, мне не терпится разобрать ее и понять, как она работает. Это одна из многих замечательных сторон работы специалиста по данным!
Что меня по-настоящему увлекает в этих системах, так это то, как мы можем группировать похожие предметы, продукты и пользователей вместе. Эта группировка или сегментирование работает во всех отраслях. Именно поэтому концепция..
Как использовать кластеризацию K-средних для решения реальных проблем
Как использовать кластеризацию K-средних для решения реальных проблем
Кластеризация K-средних — один из самых простых и наиболее широко используемых алгоритмов машинного обучения без учителя. Основная цель — разделить набор точек на разные группы в зависимости от их особенностей. Представьте, что вы градостроитель, пытающийся понять районы, или маркетолог, сегментирующий клиентов; K-средства могут стать вашим незаменимым инструментом.
Как работают K-средства?
Алгоритм работает..
Кластерный анализ: теория и реализация неконтролируемых алгоритмов
Включая плюсы и минусы k-средних, иерархических и DBSCAN
Проще говоря, кластеризация - это не что иное, как разделение наблюдений на основе определенных свойств. Говоря более техническим языком, кластеризация - это алгоритм машинного обучения без учителя, процесс, с помощью которого наблюдения (данные) группируются таким образом, что похожие наблюдения помещаются ближе друг к другу. Это «неконтролируемый» алгоритм, потому что в отличие от контролируемых алгоритмов (например, случайный..
ML-K означает кластеризацию
Неконтролируемое обучение
Неконтролируемый и кластерный?
Данные не всегда помечены в реальной жизни. Методы, которые мы используем для поиска закономерностей в этих данных, называются «обучение без учителя». Кластеризация — это хорошо известный метод обучения без учителя. Он группирует похожие данные, чтобы мы могли найти шаблон/структуру данных.
К-значит?
«K» — это количество кластеров, в которые мы хотим сгруппировать данные. «Среднее» — это среднее расстояние между примерами..
Расширенные K-средние: контроль размеров групп и выбор функций
Несколько полезных настроек для K-средних
При использовании K-средних мы можем столкнуться с двумя проблемами:
В итоге мы получаем кластеры очень разных размеров , одни из которых содержат тысячи наблюдений, а другие - всего несколько В нашем наборе данных слишком много переменных , и алгоритм K-средних изо всех сил пытается определить оптимальный набор кластеров.
Ограниченные K-средние: контроль размера группы
Алгоритм основан на статье Bradley et al. и был реализован..
«Алгоритмы кластеризации, говорите вы? Я должен опоздать на вечеринку.
Объяснение алгоритмов частичной кластеризации и кластеризации на основе плотности
Кластеризация - это процесс группировки похожих точек данных путем поиска сходства и определения закономерностей в немаркированных и невидимых данных. Алгоритмы кластеризации широко используются в сегментации рынка, поисковых системах, системах рекомендаций и диагностических системах.
Возможно, если вы столкнетесь с набором данных без помеченной целевой переменной, есть способ получить некоторое..
Сжатие изображений с K-средней кластеризацией
Первая реакция на К означает: «Все? Это намного проще, чем я ожидал!»
По сути, это два шага.
Назначить точки данных ближайшему центроиду Переместите центроид в середину точек данных.
И повторить. Элегантно просто!
В материалах курса (Stanford/Coursera Machine Learning) мы применяем K-средства в качестве метода сжатия изображений. В частности, чтобы сгруппировать цвета в группы K (в результате в изображении используется только K цветов). Я решил сделать это с изображением..