Рассмотрим пример выборов. Предположим, есть два кандидата на голосование, А и Б. Скажем, кандидат А хочет знать, какая часть избирателей захочет за него проголосовать. Затем специалист по данным партии кандидата проводит опрос по всему региону и случайным образом спрашивает небольшое количество людей, за какого кандидата они бы проголосовали на выборах. Ответы людей, принявших участие в опросе, являются образцом, который мы можем использовать, чтобы понять неопределенность голосования.

Он обнаружил, что 54% ​​ответов в пользу А. Однако важно отметить, что это точечная оценка доли выборки. Различные выборки могут давать разные оценки. Точечная оценка — это одно значение, заданное как оценка параметра совокупности, такого как среднее значение, стандартное отклонение, пропорция и т. д. (в нашем случае параметром является пропорция).

Эта точечная оценка предполагает лишь одну из возможностей этой доли, и она может не соответствовать фактической доле населения. При этом мы не уверены, что кандидат победит. Так что в таких случаях точечные оценки не очень помогают. Мы можем решить эту проблему, рассмотрев интервал для этой оценки, который можно легко получить, выполнив некоторые математические операции, которые мы обсудим позже в этом блоге. Это называется доверительным интервалом.

Доверительный интервал – это диапазон значений, между которыми может находиться параметр совокупности с определенным уровнем достоверности. Это позволяет специалисту по данным передавать результаты, а также выражать неопределенность и предоставлять более надежную оценку. Используя его, мы можем количественно оценить неопределенность или изменчивость, связанную с точечной оценкой параметра популяции.

Существуют различные термины, связанные с доверительным интервалом, который мы сейчас обсудим. Интервал центрируется вокруг точечной оценки выборки. Доверительный интервал представлен как точечная оценка плюс или минус погрешность, а также уровень достоверности. Обычно уровень достоверности составляет 95%. Предел погрешности в основном показывает, насколько результат может отличаться от фактического параметра совокупности.

Уровень достоверности указывает на вероятность того, что метод выборки может создать доверительный интервал, который может уловить параметр генеральной совокупности. Например, если мы возьмем несколько случайных выборок и рассчитаем доверительный интервал с уровнем достоверности 95 % для каждой, то мы можем сказать, что 95 % этих интервалов смогут охватить параметр генеральной совокупности. Короче говоря, мы на 95% уверены, что параметр будет лежать в этом интервале. Уровень достоверности в основном означает вероятность успеха выборки.

Существуют определенные факторы, влияющие на ширину доверительного интервала:

  1. Чем больше размер выборки, тем более репрезентативной будет выборка для населения, что повышает надежность, т. е. интервал становится уже.
  2. Стандартное отклонение выборки также влияет на ширину интервала. Чем больше значение, тем больше доверительный интервал.
  3. Более высокий уровень достоверности приводит к увеличению диапазона, что повышает вероятность регистрации параметра совокупности.

Расчет доверительного интервала для пропорций:

Погрешность (M.O.E.) рассчитывается путем умножения z-показателя (относительно уровня достоверности) на стандартную ошибку образец. Сначала давайте рассчитаем Стандартную ошибку (SE) для пропорции:

Доверительный интервал = (нижний_предел, верхний_предел)

Учитывая предыдущий пример, кандидат А получил 54% ответов в свою пользу, поэтому в качестве параметра, который необходимо изучить, мы имеем пропорцию. В данном случае это 0,54. А также уровень достоверности принят за 95%. Предположим, размер выборки равен 200.

Доверительный интервал = (47,02%, 60,98%)

Мы успешно рассчитали доверительный интервал для голосов кандидата А. Теперь мы можем с уверенностью передать это понимание А и сказать ему, что он может получить от 47,02% до 60,98% голосов с уровнем уверенности 95%.

Расчет доверительного интервала для среднего:

Ну, расчеты почти такие же, за исключением стандартной ошибки.

Значения z-показателей также одинаковы.

Давайте рассмотрим пример этого. Допустим, мы хотим посчитать рост студентов в университете. Это большая популяция, поэтому невозможно опросить всех студентов. Вместо этого мы берем небольшую выборку и находим на ней доверительный интервал. Мы получаем опрос 100 студентов, средний рост выборки равен 180 см, а стандартное отклонение выборки равно 10. Допустим, мы рассматриваем доверительный интервал 95%.

Здесь стандартное отклонение генеральной совокупности неизвестно! Таким образом, нам придется использовать выборочное стандартное отклонение в качестве точечной оценки, чтобы получить приблизительное значение стандартной ошибки. Теперь нам придется использовать здесь t-показатели вместо z-показателей, поскольку стандартное отклонение населения. неизвестно. Степень свободы равна n-1, где n — размер выборки. Обратитесь к этой таблице для получения t-показателей.

Степень свободы = 99 и уровень уверенности = 95%. Итак, t-показатель = 1,984.

Доверительный интервал = (178,016 см, 181,984 см)

При этом мы можем сказать, что мы на 95% уверены, что средний рост студентов университета (в нашем примере) будет лежать в пределах этого доверительного интервала.

Помните, что этот интервал не гарантирует, что среднее значение генеральной совокупности будет находиться в этом диапазоне, а скорее дает разумную оценку вместе с определенной степенью неопределенности. Эта концепция важна при получении выводов на основе выборочных данных о более крупной популяции, что является обычной задачей в области науки о данных и машинного обучения.

Этот метод предполагает, что данные распределены нормально. Если это не так, то к данным можно применить различные методы, такие как преобразования, для преобразования их в более нормально распределенную форму. Общие преобразования включают логарифмическое преобразование, преобразование квадратного корня, экспоненциальное преобразование и преобразование Бокса-Кокса. После получения результатов их необходимо обратно преобразовать в исходную шкалу для правильной интерпретации. Однако этот метод может быть не идеальным для каждого сценария.

И еще одна вещь. Мы используем z-показатели, когда размер выборки превышает 30 и известно стандартное отклонение. Но если оно ниже этого значения или даже если население С.Д. неизвестно, то предпочтительны t-показатели. Подробнее об этом можно узнать из следующей статьи: Как найти t-значения для доверительных интервалов — манекены

T-распределение приводит к z-распределению по мере увеличения размера выборки, поэтому его можно использовать даже для больших размеров.

Если эта статья оказалась для вас полезной,пожалуйста, похлопайте в ладоши (вы можете найти ее в верхней части режима рабочего стола или внизу экрана телефона). Это действительно помогает с охватом.

Давайте объединимся в LinkedIn и Instagram

Спасибо за прочтение 😄

Хорошего дня!