В статистиката отклонението е точка от данни, която се различава значително от други наблюдения. Отклонението може да се дължи на променливост в измерването или може да показва експериментална грешка; последните понякога се изключват от набора от данни. Отклонението може да причини сериозни проблеми при статистическите анализи. По-долу е дадена техниката за откриване на отклонения и как да ги премахнете с помощта на Z-Score. Кодът е написан на Python и Google Colab се използва като IDE.

Необходими библиотеки:

Монтиране на устройството:

трябва да монтираме устройството, за да импортираме файл с данни.

Филтриране на данни:

Сега филтрираме данните, за да получим полета или редове, съдържащи определен тип информация. След това върху тази информация или нови данни ще приложим линейна регресия.

Да предположим, че Coulmn1 съдържа String данни и трябва да филтрираме coulmn1, за да получим конкретен тип информация и да съхраним тази информация в нова рамка с данни. тогава ще приложим линейна регресия върху колона2 и колона3 на тази нова рамка с данни. Колона 2 и колона 3 съдържат само числови данни.

Откриване на отклонения с помощта на BoxPlot:

Можете да откриете отклонения от всяка колона с помощта на Boxplot. Също така графиката на регресия може да бъде много полезна за определяне на връзката между колоните с данни и отклоненията.

Премахване на извънредни стойности с помощта на Z-резултат:

Първо трябва да преброим отклоненията в данните.

След преброяването трябва да премахнем тези отклонения и да проверим отново преброяването. Този Zscore просто ще преброи онези редове с праг, по-голям или по-малък от 3, и ще премахне тези редове от набора от данни.

Сега можете да проверите дали отклоненията са премахнати с помощта на boxplot отново или df.shape също може да ви каже колко реда са премахнати поради премахването на отклоненията.

Линейна регресия:

Оценка на линейна регресия:

Има 3 основни показателя за оценка на модела в регресията:

  • R квадрат/коригиран R квадрат.
  • Средна квадратична грешка (MSE)/Средна квадратична грешка (RMSE)
  • Средна абсолютна грешка (MAE)