Тази публикация е насочена към амбициозни учени в областта на данните и учащи и практици в машинно обучение (ML).

Тази публикация не е предназначена за опитни статистици. Това е насочено към специалисти по данни и учащи и практици в областта на машинното обучение (ML), които като мен не произхождат от статистическа среда.

За човек, който е от нестатистически произход, най-объркващият аспект на статистиката са основните статистически тестове и кога кой тест да се използва?. Тази публикация е опит да се маркира разликата между най-често срещаните тестове и съответните ключови допускания.

Съдържание

  1. Терминологии: (ОСНОВНИ ТЕРМИНОЛОГИИ ЗА ТАЗИ ПУБЛИКАЦИЯ)
  2. Статистически тест (тестване на хипотези)
  3. Статистически предположения
  4. Параметрични тестове
  5. Диаграма на параметричен тест
  6. Справяне с ненормални разпределения (непараметрични тестове)

1) ТЕРМИНОЛОГИИ:

ЗАВИСИМИ И НЕЗАВИСИМИ ПРОМЕНЛИВИ

Независима променлива, често наричана „предсказваща променлива“, е променлива, която се манипулира, за да се наблюдава ефектът върху зависима променлива, понякога наричана променлива резултат/изход.

  • Независима(и) променлива(и)-› Прогнозна(и) променлива(и)
  • Зависима променлива(и) -› Променлива(и) резултат/изход

ВИДОВЕ ПРОМЕНЛИВИ

Важно е да се прави разлика между типа променливи, защото това играе ключова роля при определянето на правилния тип статистически тест, който да се приеме. Има две основни категории:

  • КОЛИЧЕСТВЕНО:изразете количествата неща (напр. броя на цигарите в кутия). Двата различни вида количествени променливи са:
  1. НЕПРЕКЪСНА (известен още като Съотношение): използва се за описание на мерки и обикновено може да бъде разделен на единици, по-малки от единица (напр. 1,50 kg).
  2. ДИСКРЕТЕН (известен още като Интервал): използва се за описание на броя и обикновено не може да бъде разделен на единици, по-малки от едно (напр. 1 цигара).
  • КАТЕГОРИЧНО:експресно групиране на неща (напр. различните видове плодове). Трите различни типа категориални променливи са:
  1. ORDINAL: представя данни с ред (напр. класиране).
  2. НОМИНАЛНО: представлява имена на групи (напр. имена на марки или видове).
  3. БИНАРНО: представя данни с резултат да/не или 1/0 (напр. НАЛЯВО или НАДЯСНО).

2) СТАТИСТИЧЕСКИ ТЕСТОВЕ

Статистиката е свързана изцяло с данни. Данните сами по себе си не са интересни. Тълкуването на данните е това, което ни интересува.

В статистиката едно много важно нещо е статистическото тестване, ако статистиката „е интерпретация на данните“, статистическото тестване може да се разглежда като „официална процедура за изследване на нашите представи за света“.

С други думи, когато искаме да направим претенции относно разпространението на данни или дали един набор от резултати е различен от друг набор от резултати, специалистите по данни трябва да разчитат на тестване на хипотези.

ТЕСТВАНЕ НА ХИПОТЕЗИ

Използвайки Тестване на хипотези, ние се опитваме да тълкуваме или да направим заключения за съвкупността, използвайки извадкови данни, като оценяваме две взаимно изключващи се твърдения за популация, за да определим кое твърдение е най-добре подкрепено от извадковите данни.

ИМА ПЕТ ОСНОВНИ СТЪПКИ ПРИ ТЕСТВАНЕТО НА ХИПОТЕЗИ:

Стъпка 1) Изложете хипотезата си като нулева (Ho) и алтернативна (Ha) хипотеза.

Стъпка 2) Изберете ниво на значимост (наричано още алфа или α).

Стъпка 3)Събирайте данни по начин, предназначен да тества хипотезата.

Стъпка 4) Извършете подходящ статистически тест: изчислете p-стойността и сравнете от теста с нивото на значимост.

Стъпка 5)Решете дали да „ ОТХВЪРЛИТЕ ” нулевата хипотеза (Ho) или „НЕ УСПЯТЕ ДА ОТХВЪРЛИТЕ” нулевата хипотеза (Ho).

Забележка: Въпреки че конкретните подробности може да варират, процедурата, която ще използвате при тестване на хипотеза, винаги ще следва някаква версия на тези стъпки.

Ако искате да разберете по-добре тестването на хипотези, горещо бих препоръчал тези две страхотни публикации за тестване на хипотези.





3) СТАТИСТИЧЕСКИ ПРЕДПОЛОЖЕНИЯ

Статистическите тестове правят някои общи предположения относно тестваните данни (Ако тези предположения са нарушени, тогава тестът може да не е валиден: напр. получената p-стойност може да не е правилна)

  1. Независимост на наблюденията: наблюденията/променливите, които включвате във вашия тест, не трябва да са свързани (напр. няколко теста от един и същ субект на теста не са независими, докато няколко теста от множество различни субекти на тест са независими)
  2. Хомогенност на дисперсията: „дисперсията“ във всяка група, която се сравнява, трябва да бъде подобна на останалата част от дисперсията на групата. Ако дадена група има по-голяма дисперсия от другата(ите), това ще ограничи ефективността на теста.
  3. Нормалност на данните: данните следват нормално разпределение, нормалността означава, че разпределението на теста е нормално разпределено (или камбановидно) със средно 0, с 1 стандартно отклонение и симетрична камбановидна крива .

4) ПАРАМЕТРИЧНИ ТЕСТОВЕ

Параметричните тестове са тези, които могат да се изпълняват само с данни, които се придържат към „трите статистически предположения“, споменати по-горе. Най-често срещаните видове параметрични тестове са разделени на три категории.

Регресионни тестове:

Тези тестове се използват за тестване на причинно-следствени връзки,ако промяната в една или повече непрекъснати променливи предвижда промяна в друга променлива.

  • Обикновена линейна регресия: тества как промяна в променливата за прогнозиране прогнозира нивото на промяна в променливата за резултата.
  • Множествена линейна регресия: тества как промените в комбинацията от две или повече предикторни променливи предсказват нивото на промяна в крайната променлива
  • Логистична регресия:се използва за описание на данни и за обяснение на връзката между една зависима (двоична) променлива и една или повече номинални, ординални, интервални или независими променливи на ниво съотношение.

Сравнителни тестове:

Тези тестове търсят разликата между средните стойности на променливите: Сравнение на средните стойности.

  • Т-тестовете се използват, когато се сравняват средните стойности на точно две групи (напр. средните ръстове на мъжете и жените).
  • Независим t-тест: Тества разликата между една и съща променлива от различни популации (напр. сравняване на кучета с котки)
  • Тестовете ANOVA и MANOVA се използват за сравняване на средните стойности на повече от две групи или повече (напр. средните тегла на деца, тийнейджъри и възрастни).

Корелационни тестове:

Тези тестове търсят връзка между променливи, като проверяват дали две променливи са свързани.

  • Корелация на Пиърсън:Тестове за силата на връзката между две непрекъснати променливи.
  • Корелация на Spearman:Тестове за силата на връзката между две редни променливи (не разчита на предположението за нормално разпределени данни)
  • Хи-квадрат тест:Тестове за силата на връзката между две категорични променливи.

5) БЛОК-СХЕМА: ИЗБОР НА ПАРАМЕТРИЧЕН ТЕСТ

Тази блок-схема ще ви помогне да изберете между описаните по-горе параметрични тестове. За непараметрични алтернативи проверете следния раздел.

6) РАБОТА С НЕНОРМАЛНИ РАЗПРЕДЕЛЕНИЯ

Въпреки че нормалното разпределение заема централно място в статистиката, много процеси следват ненормални разпределения. Много набори от данни естествено отговарят на ненормален модел:

-Броят на произшествията има тенденция да отговаря на „разпределението на Поасон“

- Животът на продуктите обикновено отговаря на „разпределението на Weibull“.

Пример за ненормални разпределения

  1. Бета разпространение.
  2. Експоненциално разпределение.
  3. Гама разпределение.
  4. Обратно гама разпределение.
  5. Лог-нормално разпределение.
  6. Логистична дистрибуция.
  7. Разпределение на Максуел-Болцман.
  8. Разпределение на Поасон.
  9. Изкривено разпределение.
  10. Симетрично разпределение.
  11. Равномерно разпределение.
  12. Унимодално разпределение.
  13. Разпределение на Weibull.

Добре тогава, как да се справим с не-нормалните разпределения?

Когато вашите данни трябва да отговарят на нормално разпределение, но не го правят, можем да направим няколко неща, за да се справим с тях:

  • Все пак може да сме в състояние да проведем параметрични тестове, ако размерът на вашата извадка е достатъчно голям (обикновено над 20 елемента) и да се опитаме да интерпретираме резултатите по съответния начин.
  • Можем да изберем да трансформираме данните с различни статистически техники, принуждавайки ги да отговарят на нормално разпределение.
  • Ако размерът на извадката е малък, изкривен или ако представлява друг тип разпределение, може да изпълните непараметричен тест.

Непараметрични тестове

Непараметричните тестове (фигурата по-долу) не правят толкова много допускания относно данните и са полезни, когато едно или повече от трите статистически допускания са нарушени.

Имайте предвид, че: Изводите, които правят непараметричните тестове, не са толкова силни, колкото параметричните тестове.

Надяваме се, че намирате тази публикация за информативна и полезна. Моля, уведомете ме, ако имате отзиви. Благодаря много за четенето!

Препратки

[1] Статистика Как да. 2020. Ненормално разпределение — Статистика как да. [онлайн] Налично на: https://www.statisticshowto.com/probability-and-statistics/non-normal-distributions

[2]Scribrbr. 2020. Избор на правилния статистически тест | Типове и примери. [онлайн] Налично на: https://www.scribbr.com/statistics/statistical-tests