Вместо того, чтобы сразу вдаваться в технические подробности, давайте сначала попробуем проанализировать термин «нормализация мин-макс» и предсказать, что он может означать. «Минимум» и «Максимум» являются очевидными краткими формами «Минимум» и «Максимум».

Переходим к «Нормализации». Как вы думаете, что это значит? Если вы угадали что-то близкое к «сделать что-то нормальное», яблочко! Это именно то, что это означает. Это может показаться чрезмерным упрощением, но это то, что это означает в основе. Это метод нормализации данных на основе минимального и максимального значений.

Чтобы дать вам более подходящее определение в терминах непрофессионала, Мин-Макс Нормализация или Мин-Макс Масштабирование — это процесс преобразования данных в соответствующие значения в фиксированной границе, обычно [0,1].

(В этой статье я буду использовать термины «нормализация мин-макс» и «масштабирование мин-макс» как синонимы, потому что они означают одно и то же).

Это метод масштабирования, который широко используется в моделировании машинного обучения. Набор данных масштабируется с использованием такого метода масштабирования перед передачей его в модель. Но зачем нам это нужно?

Мотивация и цель:

Позвольте мне объяснить, как приведенная выше картина относится к нашей теме, используя аналогию.

Предположим, что левая половина изображения представляет данные до нормализации минимального и максимального значений, а правая половина — после нормализации минимального и максимального значений. Здесь, как видите, трем мальчикам даны ящики одинаковой высоты. Это несправедливо, потому что каждый из них разного роста (или масштаба).

Чтобы было справедливо, в правой половине изображения мальчикам даются ящики, на которые они должны стоять в зависимости от их роста, чтобы убедиться, что все трое имеют одинаковую эффективную высоту. Это то, что делает нормализация Min-Max.

Мальчики аналогичны столбцам данных. А ящики аналогичны их масштабированию в зависимости от их требований, чтобы в конце все оказались на одинаковой высоте от земли.

Это делается для того, чтобы избежать смещения данных. Когда данные передаются в модель, мы должны убедиться, что все данные имеют одинаковый вес.

Например. Рассмотрим набор данных с двумя столбцами, представляющими оценки двух групп учащихся — группы A и группы B. Группа A получает оценки из 10, а группа B — оценки из 100.

Если мы передадим эти данные в модель без преобразования, модель предположит, что учащиеся в группе B показали лучшие результаты, чем учащиеся в группе A, просто потому, что группа B имеет более высокое числовое значение.

Это связано с тем, что модель не знает системы оценок или, проще говоря, она не знает, каковы «минимум» и «максимум» возможных значений в группах A и B. Чтобы избежать этой пристрастности, данные обычно масштабируются до их эквивалентных значений в фиксированном диапазоне.

Поскольку универсальной системы масштабирования не существует, значения по умолчанию преобразуются в соответствующие им и эквивалентные значения в диапазоне [0,1].

Как вы можете видеть, приведенные выше данные преобразуются в фиксированный диапазон между [0,1], и теперь модель может понять, что обе отметки в обеих группах эквивалентны друг другу.

Математика:

Приведенная выше формула используется для преобразования значения в его «нормализованное» значение между [0,1]. Здесь,

X = значение для нормализации

X’ = нормализованное значение X между [0,1]

Min(X) = Минимальное значение группы, к которой принадлежит X

Max(X) = Максимальное значение группы, к которой принадлежит X

Диапазон [0,1] используется по умолчанию и не является обязательным. Этот диапазон можно изменить на любой диапазон по вашему выбору, изменив приведенную выше формулу следующим образом:

(V такой же, как X в приведенном выше сценарии)

NewMax = новый максимум диапазона, в который вы хотите преобразовать данные.

NewMin = новый минимум диапазона, в который вы хотите преобразовать данные.

Почему на данные не влияет нормализация минимума и максимума:

Проще говоря, преобразование данных не влияет на производительность модели, потому что мы преобразуем каждую точку данных на одинаковую величину. В более техническом смысле мы изменяем абсолютные значения данных, сохраняя при этом относительную разницу между данными.

На рисунке выше показана диаграмма рассеяния между группой A и группой B до масштабирования Min-Max. Обратите внимание, что масштаб по оси X равен [0,10], а по оси Y — [0,100].

Теперь на этом изображении выше показана диаграмма рассеяния группы A и группы B после масштабирования Min-Max. Здесь ось x и шкала оси y равны [0,1]. Несмотря на это изменение, положение точек относительно друг друга не изменилось до и после нормализации, и, следовательно, это преобразование никак не влияет на данные.

Недостатки нормализации минимум-максимум:

Одним из основных ограничений этого метода масштабирования является наличие выбросов. Выброс — это любая точка данных, характеристики которой значительно отличаются от остальных точек данных. Выброс может возникнуть из-за человеческой ошибки или просчетов, приводящих к записи ошибки. Из-за этого ложного ввода существует вероятность того, что минимальное или максимальное значение данных может быть ошибочно идентифицировано как выброс, что приведет к неправильному масштабированию данных.

На левом рисунке в группе B оценки учащегося 7 указаны как 700, что явно является выбросом, поскольку максимально возможная оценка равна 100. Этот выброс приводит к ошибочно масштабированным значениям в группе B на рисунке справа. Это произошло потому, что модель приняла максимальную оценку в группе B равной 700 и присвоила ей значение 1. Остальные значения были присвоены с этим неверным предположением.

Таким образом, очень важно выполнить удаление выбросов перед выполнением нормализации минимального и максимального значений.

Другие методы нормализации:

Нормализация Z-оценки — это еще один тип метода нормализации, широко используемый в машинном обучении. Он используется, когда мы знаем, что данные являются нормально распределенными или следуют распределению Гаусса. Данные называются нормально распределенными, когда их график напоминает кривую нормального распределения. Если вы хотите понять, что такое нормальное распределение и почему кривая нормального распределения, вы можете обратиться к сайту: https://www.ml-concepts.com/3-z-score-normalization/ (Полное раскрытие информации, I являюсь членом команды ml-concepts)

В отличие от нормализации Min-Max, здесь нет фиксированной границы. Z-Score преобразует заданные данные таким образом, чтобы преобразованные данные имели среднее или среднее значение 0 и стандартное отклонение 1, используя формулу

Здесь x — значение до нормализации, а Z — значение после нормализации.

Вывод:

Мин-макс нормализация — один из самых простых методов масштабирования данных. Он используется в различных областях машинного обучения и глубокого обучения для масштабирования и нормализации данных, что делает их совместимыми с моделью. Единственная проблема с идеальной во всем остальном техникой — это наличие выбросов. Поэтому убедитесь, что вы устранили выбросы, прежде чем применять эту технику в своих проектах. До следующего раза, счастливого обучения!