Йерархичното клъстериране (наричано още йерархичен клъстерен анализ или HCA) е метод на клъстерен анализ, който се стреми да изгради йерархия от клъстери. Стратегиите за йерархично групиране обикновено се делят на два типа:
- Агломеративен: Това е подход „„отдолу нагоре““: всяко наблюдение започва в свой собствен клъстер и двойки клъстери се обединяват, докато човек се придвижва нагоре в йерархията.
- Дизвиращо: Това е подход „„отгоре надолу““: всички наблюдения започват в един клъстер и разделянето се извършва рекурсивно, докато човек се придвижва надолу по йерархията.
Как работи:
Стъпка 1: Първо присвояваме всички точки на отделен клъстер
Стъпка 2: След това ще разгледаме най-малкото разстояние в матрицата на близост и ще обединим точките с най-малкото разстояние. След това актуализираме матрицата на близост:
Тук най-малкото разстояние е 3 и следователно ще обединим точка 1 и 2:
Повтарящи се:
Казус:
Използвайте функцията linkage()
, за да получите йерархично групиране на зърнените проби, и използвайте dendrogram()
, за да визуализирате резултата. Проба от измерванията на зърното е предоставена в масива samples
, докато сортът на всяка проба на зърното е даден от списъка varieties
.
Случай 2:
използвайте функцията fcluster()
, за да извлечете етикетите на клъстера за това междинно групиране и сравнете етикетите със сортовете зърно, като използвате кръстосана таблица.
Йерархичното групиране вече е извършено и mergings
е резултат от функцията linkage()
. Списъкът varieties
дава сорта на всяка зърнена проба.
t-SNE
t-Разпределено стохастично вграждане на съседи
Използва се за намаляване на размерността, същото като PCA.
PCA е линеен метод за намаляване на размерността, но ако корелацията между характеристиките е нелинейна, използването на PCA може да доведе до недостатъчно монтиране.
t-SNE също е метод за намаляване на размерността, но използва по-сложна формула за изразяване на връзката между високи и ниски измерения. t-SNE основно апроксимира високоразмерните данни с функцията за плътност на вероятността на разпределението на Гаус, докато нискоразмерните данни се апроксимират чрез t метода на разпределение и използва KL разстоянието за изчисляване на сходството и накрая използва градиентното спускане (или стохастичен градиент). капка), за да намерите най-доброто решение.
- t-SNE не е линейно намаляване на размерността и ще отнеме много повече време за изпълнение от PCA
- Разстоянието между групите може да е безсмислено
- Какво не означава размерът на клъстера в t-SNE диаграма
- Алгоритъмът t-SNE е случаен и множество експерименти могат да дадат различни резултати, докато общият PCA е детерминистичен и резултатът след всяко изчисление е един и същ.
Ако харесвате съдържанието ми, моля, пляскайте за мен и ме последвайте, благодаря :)
Ще има повече статии и повече съдържание, свързани с Data Science. Надявам се да ти хареса!
Справка:
ОБУЧЕНИЕ БЕЗ НАДЗОР В PYTHON/datacamp/Бенджамин Уилсън