Как мы можем сказать, что мера качества кластеризации хороша?

Есть несколько хорошо известных показателей, таких как ширина силуэта (SW), индекс Дэвиса-Булдина (DB), индекс Калински-Харабаса (CH) и индекс Данна. Как мы можем сказать, что мера качества кластеризации является хорошей?
Существует ли какая-то метрика, по которой мера качества кластеризации считается хорошей?

Также ,

алгоритмы, которые создают кластеры с высоким индексом Данна, более желательны - Википедия

Объекты с высоким значением силуэта считаются хорошо сгруппированными — Википедия.

алгоритм кластеризации, который создает набор кластеров с наименьшим индексом Дэвиса-Булдина, считается лучшим алгоритмом - Википедия

Насколько высокими или низкими должны быть эти значения? Есть ли метрический номер?

Может ли кто-нибудь предоставить мне небольшой пример, используя показатель качества кластеризации в наборе данных или наборе данных IRIS, чтобы сказать, что конкретный показатель качества кластеризации хорош?


person Ramseyl    schedule 02.03.2015    source источник


Ответы (1)


Может быть, простой отправной точкой будет:

«Являются ли элементы внутри кластера одинаковыми и отличаются ли они от элементов в другом кластере».

Очевидно, существует множество показателей для количественной оценки сходства и различия, а также такие соображения, как плотность и расстояние.

Стэнфордский проект НЛП содержит полезную доступную ссылку: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html

person WestCoastProjects    schedule 03.03.2015
comment
Я имею в виду, как вы можете сказать, что конкретная мера качества кластеризации [CQM] ширина силуэта / индекс Дэвиса-Булдина / индекс Калински-Харабаса / индекс Данна лучше, чем остальные? - person Ramseyl; 03.03.2015