Как можем да кажем, че мярката за качество на клъстерирането е добра?

Има няколко добре известни мерки като ширина на силуета (SW), индекс на Davies-Bouldin (DB), индекс Calinski-Harabasz (CH) и индекс на Dunn. Как можем да кажем, че мярката за качество на клъстерирането е добра?
Има ли някаква метрика, за да бъде мярката за качество на клъстерирането добра?

Също ,

алгоритмите, които произвеждат клъстери с висок индекс на Dunn, са по-желани - Wikipedia

Обекти с висока стойност на силуета се считат за добре групирани - Уикипедия

алгоритъмът за клъстериране, който създава колекция от клъстери с най-малък индекс на Дейвис-Боулдин, се счита за най-добрият алгоритъм - Wikipedia

Колко високи или ниски трябва да бъдат тези стойности? Има ли метричен номер?

Може ли някой да ми даде малък пример с използване на мярка за качество на клъстериране върху набор от данни или IRIS набор от данни, за да кажа, че конкретната мярка за качество на клъстериране е добра?


person Ramseyl    schedule 02.03.2015    source източник


Отговори (1)


Може би една проста отправна точка би била:

„Подобни ли са елементите в един клъстер и различни ли са от елементите в различен клъстер“.

Очевидно има различни показатели за количествено определяне на сходство спрямо разлика - както и съображения като плътност срещу разстояние.

НЛП проектът на Станфорд има полезна справка, която е достъпна: http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html

person WestCoastProjects    schedule 03.03.2015
comment
Искам да кажа, как можете да кажете, че конкретната мярка за качество на групиране [CQM] ширина на силуета / индекс на Davies-Bouldin / индекс на Calinski-Harabasz / индекс на Dunn е по-добра от останалите? - person Ramseyl; 03.03.2015