Стандартизация срещу нормализация

Разлика между стандартизация и нормализация, формула, кога да се използва.

Въведение:

И стандартизацията, и нормализирането са техники за мащабиране на функции, които се използват за преобразуване на данните в съкратен обхват, за да се постигне по-бързо сближаване и да се подобри точността на базираните на разстоянието алгоритми като KNN, SVM и т.н., тъй като характеристиките могат да имат огромна числена разлика между тях.

Например: Възрасттана дадено лице и неговатазаплатаще имат значителна числена разлика, която може да повлияе на ефективността на нашия модел. За да разрешим този проблем, можем да извършим мащабиране на функции.

Стандартизация:

Стандартизацията е техника на линейна трансформация, която ни позволява да трансформираме данните по единен начин, като правим:

Средна стойност на характеристиката = 0 и стандартно отклонение = 1

Известен е още като Z-Score

Стандартизацията може да бъде приложена чрез използване на библиотеката sklearn като: от sklearn.preprocessing import StandardScaler

Кога да използвате стандартизация:

Можем да използваме стандартизация, когато нашите данни следват нормално или гаусово разпределение. С други думи, графиката на характеристиките прави камбановидна крива.

Едно нещо, което трябва да запомните тук е, че стандартизацията НЕ прави разпределението нормално или Гаусово разпределение.

Нормализация:

Нормализирането е техника за мащабиране, която се използва за поставяне на всички точки от данни в обхвата от 0 до 1.

Нормализирането може да бъде приложено чрез използване на библиотеката sklearn като: от sklearn.preprocessing import MinMaxScaler

Кога да използвате нормализиране:

Нормализацията може да се използва, когато нашите данни не следват гаусово или нормално разпределение, вместо това графиката има форма като:

Едно нещо, което трябва да запомните тук е, че нормализацията е силно повлияна от отклоненията в данните. Следователно данните трябва да бъдат третирани за отклонения преди извършване на нормализация.