У меня проблемы с поиском правильной меры сходства для кластеризации. У меня есть около 3000 массивов наборов, где каждый набор содержит функции определенного домена (например, число, цвет, дни, алфавиты и т. д.). Я объясню свою проблему на примере.
Предположим, у меня есть только 2 массива (a1 и a2), и я хочу найти сходство между ними. каждый массив содержит 4 набора (в моей реальной задаче 250 наборов (доменов) на массив), и набор может быть пустым.
a1: {a,b}, {1,4,6}, {mon, tue, wed}, {red, blue,green}
a2: {b,c}, {2,4,6}, {}, {blue, black}
Я пришел с мерой сходства, используя индекс Jaccard (обозначается как J):
sim(a1,a2) = [J(a1[0], a2[0]) + J(a1[1], a2[1]) + ... + J(a1[3], a2[3])]/4
примечание: я делю на общее количество наборов (в приведенном выше примере 4), чтобы сохранить сходство между 0 и 1.
Is this a proper similarity measure and are there any flaws in this approach
. Я применяю индекс Жаккара для каждого набора отдельно, потому что хочу сравнить сходство между связанными доменами (т.е. цвет с цветом и т. д.)
Я не знаю какой-либо другой надлежащей меры сходства для моей проблемы. Далее, can I use this similarity measure for clustering purpose?