Масштабирование - важный процесс проектирования функций.
С помощью масштабирования мы стараемся привести наши данные в один и тот же диапазон.
Некоторые типы методов масштабирования:
· Шкала мин-макс: (от 0 до 1)
X = (X-мин. Из X) / Диапазон
· Стандартизация: (диапазон -3 и 3)
Z = (X-среднее X) / (Стандартное отклонение X)
· Десятичное масштабирование (от -1 до 1)
X = X /(10^d)
d = количество цифр
то есть для значения, скажем, 4997, d = 4
поэтому X / (10⁴) = 0,4
Примечание. Мы можем использовать любой метод масштабирования, но рекомендуется избегать масштабирования минимального и максимального значений при наличии выбросов и использовать Стандартизацию.
В случае категориальной переменной, такой как пол, после одного горячего кодирования, рекомендуется использовать масштабирование min-max для оставшейся переменной.
Часть 1:
Влияние масштабирования на алгоритм дистанционного машинного обучения.
В приведенном выше примере значение заработной платы очень велико по сравнению со значением возраста. Итак, зарплата будет преобладать над возрастом ...
Как и в случае с K-NN, когда мы находим расстояние между возрастом и зарплатой, то расстояние сильно зависит от заработной платы.
Часть 2:
Влияние масштабирования на алгоритм машинного обучения на основе градиентного спуска.
Масштабирование также требуется, когда в изображение входит градиентный спуск. Если у нас есть переменная с другим масштабом, градиентный спуск выберет скорость обучения (альфа), которая применима к функции наименьшего масштаба.
Без масштабирования:
Одно значение скорости обучения не применимо для обеих переменных. Если скорость обучения выбрана в соответствии с возрастной переменной, а затем такая же скорость обучения применяется к переменной заработной платы, то потребуется время, чтобы сойтись.
После масштабирования:
Здесь для обеих переменных выбрана одинаковая скорость обучения.
Таким образом, градиентный спуск не займет время, чтобы сойтись.
Обычно мы обучаем нашу модель машинного обучения в автономном режиме, но если нам нужно обучить нашу модель онлайн, время обучения очень важно.
Итак, мы можем сказать, что цель масштабирования - сократить время обучения и не оказывает значительного влияния на точность.