Привет всем, Ребята, вы не понимаете, что это за PCA? Хотите узнать больше об этом? Давайте узнаем о PCA в этой статье.

Прежде чем мы начнем с PCA, давайте узнаем о машинном обучении.

Машинное обучение:

Машинное обучение — это область искусственного интеллекта (ИИ) и компьютерных наук, которая использует данные и алгоритмы для имитации того, как люди учатся, постепенно повышая свою точность.

То есть это метод анализа данных, который автоматизирует построение аналитической модели.

Для анализа данных доступно множество алгоритмов, один из которых мы используем — PCA (анализ основных компонентов).

PCA (анализ основных компонентов)

→ Анализ основных компонентов — это алгоритм обучения без учителя, используемый в машинном обучении для уменьшения размерности.

→Это статистический метод, использующийортогональное преобразованиедля преобразования данных наблюдений коррелирующих признаков в набор линейно некоррелированных признаков. Эти недавно преобразованные функции являются основными компонентами.

→ Используя эти основные компоненты, мы проводим анализ данного набора данных.

ШАГИ ДЛЯ ПРОВЕДЕНИЯ PCA?

  1. Убедитесь, что диапазон непрерывных начальных переменных является однородным.
  2. Чтобы идентифицировать корреляции, вычислите ковариационную матрицу.
  3. Чтобы идентифицировать главные компоненты, вычислите собственные векторы и собственные значения ковариационной матрицы.
  4. Создайте вектор признаков, чтобы определить, какие основные компоненты следует сохранить.
  5. Переопределил данные по осям главных компонент.

Таким образом, математические концепции, которые мы используем в этом алгоритме, следующие:

→ Дисперсия и ковариация

→ Собственные значения и собственные факторы

ШАГ 1: СТАНДАРТИЗАЦИЯ

Целью этого шага является стандартизация диапазона непрерывных исходных переменных, чтобы все они в равной степени влияли на анализ.

Когда во время анализа существуют большие различия между диапазонами исходных переменных, данные с большим диапазоном будут преобладать над данными с меньшим диапазоном, что приведет к смещению результата. Чтобы избежать этих ошибок и получить объективный результат, мы должны стандартизировать.

Математически, используя приведенную выше формулу, мы можем выполнить этот шаг.

ШАГ 2: ВЫЧИСЛЕНИЕ КОВАРИАЦИОННОЙ МАТРИЦЫ

Этот шаг используется, чтобы увидеть, существует ли связь (т. е. корреляция) между входными данными. Потому что переменные иногда настолько сильно коррелированы, что содержат избыточную информацию. Итак, чтобы найти эти корреляции, мы вычисляем ковариационную матрицу.

— «Здесь мы назовем матрицу X.
Чтобы вычислить ковариацию X, мы возьмем матрицу X и транспонируем ее. После транспонирования мы умножим его на X. Выходная матрица будет ковариационной матрицей X.

ШАГ 3: ВЫЧИСЛИТЕ СОБСТВЕННЫЕ ВЕКТОРЫ И СОБСТВЕННЫЕ ЗНАЧЕНИЯ КОВАРИАЦИОННОЙ МАТРИЦЫ ДЛЯ ИДЕНТИФИКАЦИИ ОСНОВНЫХ КОМПОНЕНТОВ

Как мы обсуждали ранее, главный компонент представляет собой комбинацию исходных переменных, которые не коррелированы. Собственные векторы или ковариационная матрица являются информационными направлениями осей. Собственные значения определяются как коэффициенты этих собственных векторов. Большая часть информации в начальных переменных сжимается или сжимается в первые компоненты.

Идея состоит в том, что 10-мерные данные дают вам 10 основных компонентов, но PCA пытается поместить максимально возможную информацию в первый компонент, затем максимально оставшуюся информацию во второй и так далее….

Основные компоненты в виде новых осей, которые обеспечивают лучший угол для просмотра и оценки данных, делая различия между наблюдениями более заметными.

Таким образом, на этом шаге мы делаем:

  1. Вычисление собственных значений и собственных векторов
    Теперь необходимо вычислить собственные значения и собственные векторы результирующей ковариационной матрицы X. Собственные векторы или ковариационная матрица являются информационными направлениями осей. Собственные значения определяются как коэффициенты этих собственных векторов.
  2. Сортировка собственных векторов
    На этом шаге мы возьмем все собственные значения и отсортируем их в порядке убывания, от наибольшего к наименьшему. И соответственно отсортировать собственные векторы в матрице P собственных значений. P* будет именем результирующей матрицы.
  3. Расчет новых функций или основных компонентов
    Здесь мы будем вычислять новые функции. Для этого мы умножим матрицу P* на X. Каждое наблюдение в результирующей матрице X* представляет собой линейную комбинацию исходных признаков. Каждый столбец матрицы X* отличается от других.

ШАГ 4: ВЕКТОР ПРИЗНАКОВ

На этом шаге мы решаем, сохранить ли каждый из этих компонентов или отбросить менее значимые (низкие собственные значения), а затем объединить оставшиеся, чтобы сформировать матрицу векторов, известную как вектор признаков.

ШАГ 5: ПЕРЕСТРОЙТЕ ДАННЫЕ ПО ОСЯМ ОСНОВНЫХ КОМПОНЕНТОВ

Цель состоит в том, чтобы использовать вектор признаков, образованный собственными векторами ковариационной матрицы, для преобразования осей исходных данных в те, которые представлены основными компонентами. Это достигается путем умножения транспонирования исходного набора данных на транспонирование вектора признаков.

  • Первая матрица, которую мы берем, — это матрица, содержащая K компонентов принципов, которые мы выбрали, и мы транспонируем эту матрицу.
  • Вторая матрица, которую мы берем, является исходной матрицей, и мы транспонируем ее.
  • На этом этапе мы выполняем матричное умножение между этими двумя матрицами.
  • После того, как мы выполним умножение матриц, мы транспонируем результирующую матрицу.

Преимущества анализа главных компонентов

  1. Удаляет коррелированные функции
  2. Улучшает производительность алгоритма
  3. Уменьшает переоснащение
  4. Улучшает визуализацию

Недостатки анализа главных компонентов

  1. Независимые переменные становятся менее интерпретируемыми
  2. Стандартизация данных обязательна перед PCA
  3. Потеря информации

Приложения:

  1. Анализ главных компонентов можно использовать при сжатии изображений. Размер изображения может быть изменен в соответствии с требованиями, и могут быть определены шаблоны.
  2. Анализ основных компонентов помогает в профилировании клиентов на основе демографических данных, а также их интеллекта при совершении покупки.
  3. PCA — это метод, который широко используется исследователями пищевой науки.
  4. Его также можно использовать в Банковском деле во многих областях, например, при подаче заявок на кредиты, кредитные карты и т. д.
  5. Отношение клиентов к брендам.
  6. Его также можно использовать в области финансов для количественного анализа акций, прогнозирования доходности портфеля, а также для имплантации процентной ставки.
  7. PCA также применяется в отраслях здравоохранения в различных областях, таких как данные о страховании пациентов, где есть несколько источников данных и с огромным количеством переменных, которые коррелируют друг с другом. Источники — это больницы, аптеки и т. д.

Вот и все, друзья! Надеюсь, вы, ребята, хорошо разобрались в алгоритме PCA. Позвольте мне застать вас всех в моем следующем блоге с еще одной интересной темой.

Пока-пока…

Берселин С Р

Ресурсы:



https://www.aionlinecourse.com/tutorial/machine-learning/kernel-pca-in-python

https://www.javatpoint.com/principal-component-analysis