Стандартизация срещу нормализация
Разлика между стандартизация и нормализация, формула, кога да се използва.
Въведение:
И стандартизацията, и нормализирането са техники за мащабиране на функции, които се използват за преобразуване на данните в съкратен обхват, за да се постигне по-бързо сближаване и да се подобри точността на базираните на разстоянието алгоритми като KNN, SVM и т.н., тъй като характеристиките могат да имат огромна числена разлика между тях.
Например: Възрасттана дадено лице и неговатазаплатаще имат значителна числена разлика, която може да повлияе на ефективността на нашия модел. За да разрешим този проблем, можем да извършим мащабиране на функции.
Стандартизация:
Стандартизацията е техника на линейна трансформация, която ни позволява да трансформираме данните по единен начин, като правим:
Средна стойност на характеристиката = 0 и стандартно отклонение = 1
Известен е още като Z-Score
Стандартизацията може да бъде приложена чрез използване на библиотеката sklearn като: от sklearn.preprocessing import StandardScaler
Кога да използвате стандартизация:
Можем да използваме стандартизация, когато нашите данни следват нормално или гаусово разпределение. С други думи, графиката на характеристиките прави камбановидна крива.
Едно нещо, което трябва да запомните тук е, че стандартизацията НЕ прави разпределението нормално или Гаусово разпределение.
Нормализация:
Нормализирането е техника за мащабиране, която се използва за поставяне на всички точки от данни в обхвата от 0 до 1.
Нормализирането може да бъде приложено чрез използване на библиотеката sklearn като: от sklearn.preprocessing import MinMaxScaler
Кога да използвате нормализиране:
Нормализацията може да се използва, когато нашите данни не следват гаусово или нормално разпределение, вместо това графиката има форма като:
Едно нещо, което трябва да запомните тук е, че нормализацията е силно повлияна от отклоненията в данните. Следователно данните трябва да бъдат третирани за отклонения преди извършване на нормализация.