Йерархичното клъстериране (наричано още йерархичен клъстерен анализ или HCA) е метод на клъстерен анализ, който се стреми да изгради йерархия от клъстери. Стратегиите за йерархично групиране обикновено се делят на два типа:

  • Агломеративен: Това е подход „„отдолу нагоре““: всяко наблюдение започва в свой собствен клъстер и двойки клъстери се обединяват, докато човек се придвижва нагоре в йерархията.
  • Дизвиращо: Това е подход „„отгоре надолу““: всички наблюдения започват в един клъстер и разделянето се извършва рекурсивно, докато човек се придвижва надолу по йерархията.

Как работи:

Стъпка 1: Първо присвояваме всички точки на отделен клъстер

Стъпка 2: След това ще разгледаме най-малкото разстояние в матрицата на близост и ще обединим точките с най-малкото разстояние. След това актуализираме матрицата на близост:

Тук най-малкото разстояние е 3 и следователно ще обединим точка 1 и 2:

Повтарящи се:



Казус:

Използвайте функцията linkage(), за да получите йерархично групиране на зърнените проби, и използвайте dendrogram(), за да визуализирате резултата. Проба от измерванията на зърното е предоставена в масива samples, докато сортът на всяка проба на зърното е даден от списъка varieties.

Случай 2:

използвайте функцията fcluster(), за да извлечете етикетите на клъстера за това междинно групиране и сравнете етикетите със сортовете зърно, като използвате кръстосана таблица.

Йерархичното групиране вече е извършено и mergings е резултат от функцията linkage(). Списъкът varieties дава сорта на всяка зърнена проба.

t-SNE

t-Разпределено стохастично вграждане на съседи

Използва се за намаляване на размерността, същото като PCA.

PCA е линеен метод за намаляване на размерността, но ако корелацията между характеристиките е нелинейна, използването на PCA може да доведе до недостатъчно монтиране.

t-SNE също е метод за намаляване на размерността, но използва по-сложна формула за изразяване на връзката между високи и ниски измерения. t-SNE основно апроксимира високоразмерните данни с функцията за плътност на вероятността на разпределението на Гаус, докато нискоразмерните данни се апроксимират чрез t метода на разпределение и използва KL разстоянието за изчисляване на сходството и накрая използва градиентното спускане (или стохастичен градиент). капка), за да намерите най-доброто решение.



  • t-SNE не е линейно намаляване на размерността и ще отнеме много повече време за изпълнение от PCA
  • Разстоянието между групите може да е безсмислено
  • Какво не означава размерът на клъстера в t-SNE диаграма
  • Алгоритъмът t-SNE е случаен и множество експерименти могат да дадат различни резултати, докато общият PCA е детерминистичен и резултатът след всяко изчисление е един и същ.

Ако харесвате съдържанието ми, моля, пляскайте за мен и ме последвайте, благодаря :)

Ще има повече статии и повече съдържание, свързани с Data Science. Надявам се да ти хареса!

Справка:

ОБУЧЕНИЕ БЕЗ НАДЗОР В PYTHON/datacamp/Бенджамин Уилсън





https://mortis.tech/2019/11/program_note/664/