Имам проблеми с намирането на подходяща мярка за сходство за групиране. Имам около 3000 масива от набори, където всеки набор съдържа характеристики на определен домейн (напр. число, цвят, дни, азбуки и т.н.). Ще обясня проблема си с пример.
Да приемем, че имам само 2 масива (a1 & a2) и искам да намеря приликата между тях. всеки масив съдържа 4 набора (в моя действителен проблем има 250 набора (домейни) на масив) и набор може да бъде празен.
a1: {a,b}, {1,4,6}, {mon, tue, wed}, {red, blue,green}
a2: {b,c}, {2,4,6}, {}, {blue, black}
Дойдох с мярка за сходство, използвайки Jaccard индекс (означен като J):
sim(a1,a2) = [J(a1[0], a2[0]) + J(a1[1], a2[1]) + ... + J(a1[3], a2[3])]/4
забележка: разделям на общия брой комплекти (в горния пример 4), за да запазя приликата между 0 и 1.
Is this a proper similarity measure and are there any flaws in this approach
. Прилагам индекс на Jaccard за всеки набор поотделно, защото искам да сравня сходството между свързани домейни (т.е. цвят с цвят и т.н.)
Не знам за друга подходяща мярка за сходство за моя проблем. Освен това, can I use this similarity measure for clustering purpose?