Масштабирование - важный процесс проектирования функций.

С помощью масштабирования мы стараемся привести наши данные в один и тот же диапазон.

Некоторые типы методов масштабирования:

· Шкала мин-макс: (от 0 до 1)

X = (X-мин. Из X) / Диапазон

· Стандартизация: (диапазон -3 и 3)

Z = (X-среднее X) / (Стандартное отклонение X)

· Десятичное масштабирование (от -1 до 1)

X = X /(10^d)

d = количество цифр

то есть для значения, скажем, 4997, d = 4

поэтому X / (10⁴) = 0,4

Примечание. Мы можем использовать любой метод масштабирования, но рекомендуется избегать масштабирования минимального и максимального значений при наличии выбросов и использовать Стандартизацию.

В случае категориальной переменной, такой как пол, после одного горячего кодирования, рекомендуется использовать масштабирование min-max для оставшейся переменной.

Часть 1:

Влияние масштабирования на алгоритм дистанционного машинного обучения.

В приведенном выше примере значение заработной платы очень велико по сравнению со значением возраста. Итак, зарплата будет преобладать над возрастом ...

Как и в случае с K-NN, когда мы находим расстояние между возрастом и зарплатой, то расстояние сильно зависит от заработной платы.

Часть 2:

Влияние масштабирования на алгоритм машинного обучения на основе градиентного спуска.

Масштабирование также требуется, когда в изображение входит градиентный спуск. Если у нас есть переменная с другим масштабом, градиентный спуск выберет скорость обучения (альфа), которая применима к функции наименьшего масштаба.

Без масштабирования:

Одно значение скорости обучения не применимо для обеих переменных. Если скорость обучения выбрана в соответствии с возрастной переменной, а затем такая же скорость обучения применяется к переменной заработной платы, то потребуется время, чтобы сойтись.

После масштабирования:

Здесь для обеих переменных выбрана одинаковая скорость обучения.

Таким образом, градиентный спуск не займет время, чтобы сойтись.

Обычно мы обучаем нашу модель машинного обучения в автономном режиме, но если нам нужно обучить нашу модель онлайн, время обучения очень важно.

Итак, мы можем сказать, что цель масштабирования - сократить время обучения и не оказывает значительного влияния на точность.