Помислете за пример за изборите. Да предположим, че има двама кандидати за гласуване, А и Б. Да речем, кандидат А иска да знае каква част от избирателите биха искали да гласуват за него. След това специалистът по данни на партията на кандидата провежда проучване в региона и пита на случаен принцип малък брой хора за кой кандидат биха обмислили да гласуват по време на изборите. Отговорите на хората, участвали в проучването, са извадката, която можем да използваме, за да разберем несигурността при гласуването.

Той установява, че 54% от отговорите са в полза на А. Въпреки това е важно да се отбележи, че това е точкова оценка на дела на извадката. Различните проби може да предполагат различна оценка. Точковата оценка е единична стойност, дадена като оценка на параметър на съвкупност, като средна стойност, стандартно отклонение, пропорция и т.н. (в нашия случай параметърът е пропорцията).

Тази точкова оценка предполага само една от възможностите за тази пропорция и може да не съвпада с действителната пропорция на населението. С това не сме сигурни, че кандидатът ще спечели. Така че в такива случаи точковите оценки не са много полезни. Можем да разрешим този проблем, като разгледаме интервал за тази оценка, който може лесно да бъде получен чрез извършване на някои математически операции, които ще обсъдим по-късно в този блог. Това се нарича доверителен интервал.

Интервалът на доверителност е диапазон от стойности, между които може да се намира параметър на популацията, с определено ниво на достоверност. Това позволява на специалиста по данни да предаде констатациите и също така да изрази несигурността и да предостави по-надеждна оценка. Използвайки го, ние сме в състояние да определим количествено несигурността или променливостта, свързана с точкова оценка на параметър на популацията.

Има различни термини, свързани с доверителния интервал, който ще обсъдим сега. Интервалът е центриран около точковата оценка на извадката. Доверителният интервал е представен като точкова оценка плюс или минус границата на грешка, заедно с нивото на доверие. Обикновено нивото на доверие е 95%. Границата на грешка основно показва колко може да варира резултатът по отношение на действителния параметър на съвкупността.

Нивото на достоверност показва вероятността методът за вземане на проби да произведе доверителния интервал, който може да улови параметъра на популацията. Например, ако вземем множество произволни извадки и изчислим доверителния интервал с ниво на достоверност от 95% за всяка, тогава можем да кажем, че 95% от тези интервали може да са в състояние да уловят параметъра на популацията. Накратко, ние сме 95% уверени, че параметърът ще бъде в рамките на този интервал. Нивото на достоверност основно се отнася до степента на успех на вземането на проби.

Има определени фактори, които влияят на ширината на доверителния интервал:

  1. Колкото по-голям е размерът на извадката, толкова по-представителна ще бъде извадката за популацията, като по този начин ще се подобри надеждността, т.е. интервалът ще стане по-тесен.
  2. Стандартното отклонение на извадката също влияе върху ширината на интервала. По-големият води до по-широк доверителен интервал.
  3. По-високото ниво на достоверност води до по-голям обхват за подобряване на вероятността за улавяне на параметъра на населението.

Изчисляване на доверителния интервал за пропорции:

Грешката (M.O.E.)се изчислява чрез умножаване на z-резултата (по отношение на нивото на достоверност) със Стандартната грешка на проба. Първо, нека изчислим Стандартната грешка (S.E.)за пропорцията:

Интервал на доверителност = (долна_лимит, горна_лимит)

Като се има предвид по-ранният пример, кандидат А получи 54% от отговорите в своя полза, така че имаме пропорцията като параметър, който трябва да се изследва. В този случай е 0,54. Освен това нивото на доверие се приема за 95%. Да предположим, че размерът на извадката е 200.

Интервал на доверителност = (47,02%, 60,98%)

Успешно изчислихме доверителния интервал за гласовете на кандидат А. Вече можем уверено да предадем това прозрение на А и да му кажем, че може да получи 47,02% до 60,98% от гласовете с 95% ниво на доверие.

Изчисляване на доверителния интервал за средна стойност:

Е, изчисленията са почти същите, с изключение на стандартната грешка.

Стойностите за z-резултатите също са същите.

Нека разгледаме пример за това. Да речем, искаме да изчислим височината на студентите в университет. Това е голямо население, така че не би било възможно да се изследват всички ученици. По-скоро вземаме малка извадка и намираме нейния доверителен интервал върху нея. Получаваме проучването на 100 студента и се установява, че средният ръст на извадката е 180 см, а стандартното отклонение на извадката е 10. Да кажем, че обмисляме 95% доверителен интервал.

Тук стандартното отклонение на населението е неизвестно! Така че ще трябва да използваме примерното стандартно отклонение като точкова оценка, за да получим приблизителна стойност на стандартната грешка. Сега ще трябва да използваме t-резултати тук вместо z-резултати като S.D на населението. е неизвестен. Степента на свобода е n-1, където n е размерът на извадката. Вижте тази таблица за t-резултати.

Степен на свобода = 99 и ниво на увереност = 95%. И така, t-резултат = 1,984.

Интервал на доверителност = (178,016 cm, 181,984 cm)

С това можем да кажем, че сме 95% уверени, че средният ръст на студентите (в нашия пример) ще бъде в рамките на този доверителен интервал.

Не забравяйте, че този интервал не гарантира, че средната популация ще бъде в рамките на този диапазон, по-скоро дава разумна оценка заедно с мярка за несигурност. Тази концепция е от съществено значение, когато се правят изводи от примерни данни за по-голяма популация, което е често срещана задача в Data Science и Machine Learning.

Този метод предполага, че данните са нормално разпределени. Ако не е, тогава към данните могат да се приложат различни методи като трансформации, за да се преобразуват в по-нормално разпределена форма. Обичайните трансформации включват логаритмична трансформация, трансформация на квадратен корен, експоненциална трансформация и трансформация на Бокс-Кокс. След извличане на резултатите, той трябва да бъде обратно трансформиран в оригиналния мащаб за правилно тълкуване. Този метод обаче може да не е идеален за всеки сценарий.

Освен това, още нещо. Използваме z-резултати, когато размерът на извадката е над 30 и стандартното отклонение е известно. Но ако е по-ниско от това или дори ако населението S.D. е неизвестен, тогава се предпочитат t-резултатите. Можете да научите повече за това в следната статия: Как да намерите t-стойности за доверителни интервали — манекени

t-разпределението води до z-разпределение, тъй като размерът на извадката става по-голям, така че може да се използва дори и за по-големи размери.

Ако намирате тази статия за полезна,моля, помислете дали да не ръкопляскате (можете да го намерите в горната част на работния плот или в долната част на екрана на телефона). Наистина помага за достигане.

Нека се свържем в LinkedIn и Instagram

Благодаря за четенето 😄

Приятен ден!