Бележки относно спектралното групиране

Досега изследвах спектралното групиране и това може да е последната публикация за тази тема. Накратко казано, спектралното групиране е алгоритъм за класифициране на данни в групи, като се вземе предвид структурата на графиката, за да се представи свързаността. След изграждането на матрица на Лаплас за графиката се изчисляват собствените стойности и собствените вектори за матрицата на Лаплас. След това се прилага групиране на K-средни стойности за получените собствени вектори.

Въпреки че спектралното групиране има предимства, то все още има ограничения. Един от тях е за определяне на броя на групирането. За произволни данни потребителят може да не знае броя на клъстерите, но много алгоритми за клъстериране изискват потребителят да въведе номера на клъстера, преди да изпълни алгоритъма за клъстериране. Евристиката на Eigengap е най-простата и лесна за прилагане. От факта, че броят на клъстерите е еквивалентен на множествеността на нулевата собствена стойност за матрицата на Лаплас, е изобретен евристичният метод. Въпреки това, прагът за eigengap трябва да се определи от потребителя, а eigengap става двусмислен при данни с висока размерност. Също така изучавах статистически методи за определяне на броя на клъстерите, но този подход споделяше същия проблем във високо измерение. От друга страна, в този блог беше въведен и метод за оптимизация. След дефиниране на индекс, наречен Silhouette index, оптимизацията беше приложена. За съжаление, този метод също има проблем. Това е изчислително скъпо и изисква много входни параметри преди използването на приложения. В резултат на това, доколкото ми е известно, определянето на броя на клъстерите не е лесна задача и наистина е във високо измерение.

Друг голям проблем за спектралното групиране може да бъде изчислителната цена. Когато размерът на набора от данни се увеличи, изчислителните разходи нарастват драстично. Следователно алгоритъмът става непрактичен в приложенията. За да се разреши този проблем, бяха изследвани алгоритми за приблизителни спектрални клъстери и аз публикувах един от тях в този блог. В зависимост от набора от данни неговата точност варира, но точността обикновено е между 85 и 95 процента. По отношение на времето, приблизителното спектрално групиране превъзхожда първоначалното. Следователно можете да разгледате приблизителния алгоритъм за големи набори от данни. Като инженер често разглеждам няколко милиона мрежи, за да представя 3D геометрия, и мрежите трябва да бъдат групирани в зависимост от приложенията. В тези приложения спектралното групиране за големи набори от данни може да бъде полезно.

Чрез поредица от публикации мога също да науча много неща за спектралното групиране. Следващите нови бележки може да са свързани с невронни мрежи за решаване на частични диференциални уравнения.

Бележки относно спектралното групиране

Подобни въпроси