Progress-servis55.ru

Новости из мира ПК
13 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Относительная ошибка выборочной средней

Определение ошибки выборки при различных способах отбора

При решении задач выборочного наблюдения обязательным этапом является определение ошибки выборки. Формулы для ее определения разработаны теорией вероятности и математической статистикой.

При собственно-случайном способе отбора обследованию подвергаются единицы совокупности без предварительного систематизирования.

Средняя ошибка выборки для среднего размера признака определяется по формулам 8.1 и 8.2.

При повторном способе:

При бесповторном способе:

где — дисперсия;

n – объем выборочной совокупности;

N – объем генеральной совокупности.

Предельная (абсолютная ошибка выборки) находится по формуле:

, (8.3)

где t – коэффициент доверия, который определяется по таблице

значений функции Лапласа при заданной

Относительная ошибка выборки определятся с использованием формулы:

где — среднее значение признака в выборочной совокупности.

Считается, что если β превышает 12%, то погрешность высокая и необходимо увеличить объем выборки.

Зная величину выборочной средней и предельную ошибку выборки, определяется доверительный интервал, в котором находится значение генеральной средней:

+ , (8.5)

где – средний размер признака в генеральной совокупности.

При проектировании выборочного наблюдения решается задача нахождения необходимой численности выборки, обеспечивающей определенную точность расчета оценок генеральной средней.

Сначала задается величина относительной ошибки выборки (β), затем определяется абсолютная ошибка (Δ) при заданном значении β:

Затем находится объем выборки при повторном способе:

При бесповторном способе объем выборки определяется:

При определении ошибки доли единиц, которые обладают определенным признаком, используется формула:

— при повторном способе:

— при бесповторном способе:

где w – доля единиц, обладающих каким-либо значением признака в

Значение генеральной доли (P) будет находиться в доверительном интервале:

Пример 1. Для определения средней продолжительности междугородних телефонных разговоров из 1300 предоставленных абонентам разговоров в случайном порядке было отобрано 316. Результаты этого наблюдения представлены в таблице 8.1.

Продолжительность междугородних телефонных разговоров, мин.Количество разговоров
До 3 3-5 5-7 7-9 9-11 11-13 13-15
Итого

По данным ряда распределения определить:

— среднюю протяженность разговоров;

— ошибку средней при вероятности 0,99;

— объем выборки при заданном значении β=4%.

Способ отбора бесповторный.

По средней арифметической взвешенной определено, что средняя продолжительность разговоров составляет 6,7 мин., а дисперсия 7,3 мин.

Абсолютная ошибка выборки составит:

Значение коэффициента доверия t=3 взято из таблицы в зависимости от заданной вероятности равной 0,99.

Относительная ошибка выборки:

Интервал, в котором находится генеральная средняя:

Определяется объем выборки при заданном β=4%.

при β=4% необходимо взять в выборку 527 разговоров.

Пример 2. На предприятии работает 1250 человек, проведено бесповторное выборочное наблюдение и отобрано 280 человек, из них 105 человек прошли техническое обучение. Определить долю работников, прошедших техническое обучение при вероятности 0,995. Выборка бесповторная.

Доля работников, прошедших обучение в выборке:

Интервал, в котором находится генеральная доля:

36,6

Относительная ошибка выборки составит:

Механический способ отбора отличается от собственно-случайного тем, что исследуемые единицы сначала систематизируются, а потом отбираются или каждая пятая, или десятая единица в группе. Механический способ бывает только бесповторный, а формулы определения ошибки выборки аналогичны собственно-случайному способу.

Серийный способ отбора является групповым способом. Отбор производится случайно, целыми группами или сериями. В отобранных сериях обследованию подвергаются все единицы.

Ошибки средней величины при серийном способе определяются по формулам:

— при повторном способе:

— при бесповторном способе:

где s – количество серий в выборочной совокупности;

S – количество серий в генеральной совокупности.

Типический способпредполагает, что вначале вся совокупность разбивается на группы по определенному признаку, а затем в каждой группе в случайном порядке отбираются отдельные единицы.

Формула для определения ошибки выборки при этом способе следующая:

где средняя из групповых дисперсий.

Малой выборкойсчитается такая выборка, в которой количество отобранных единиц не превышает 20. Ошибка в малой выборке (Δ * ) определяется по формуле:

где — коэффициент доверия, который находится по таблице

Стьюдента в зависимости от заданной вероятности и объема

Вопросы для самопроверки

1. Какие существуют способы проведения выборочного наблюдения?

2. Какие факторы влияют на величину ошибки выборки?

3. Каким образом переносятся результаты выборочного наблюдения на генеральную совокупность?

4. Что показывает относительная ошибка выборки?

5. Каким образом находится необходимый объем выборки?

6. Чем отличается расчет ошибки в малой выборке от расчета ошибки, которая находится в большой выборке?

7. С точки зрения достоверности, какая выборка предпочтительнее: бесповторная или повторная?

Тест для самопроверки к теме 8 «Выборочное наблюдение»

1. При определении ошибки выборки откуда берется коэффициент доверия:

1. определяется по формуле

2. определяется по графику

3. находится по специальным таблицам

2. Какая ошибка выборочного наблюдения характеризует величину погрешности:

3. Имеются несколько формул для определения ошибки доли единиц, которые обладают данным признаком. Выбрать правильную формулу (выборка бесповторная):

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: При сдаче лабораторной работы, студент делает вид, что все знает; преподаватель делает вид, что верит ему. 9888 — | 7543 — или читать все.

Выборочное наблюдение: понятие, виды, ошибки выборки, оценка результатов. Примеры решения задач

Как известно, в статистике существует два способа наблюдения массовых явлений в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное наблюдение.

Под выборочным наблюдением понимается несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным образом.

Читать еще:  File not found exception java

Выборочное наблюдение ставит перед собой задачу – по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.

Совокупность отобранных для обследования единиц в статистике принято называть выборочной совокупностью, а совокупность единиц, из которых производится отбор, называют генеральной совокупностью. Основные характеристики генеральной и выборочной совокупности представлены в таблице 1.

Таблица 1 — Основные характеристики генеральной и выборочной совокупности

ПоказательОбозначение или формула
Генеральная совокупностьВыборочная совокупность
Число единицNn
Число единиц, обладающих каким-либо признакомMm
Доля единиц, обладающих этим признакомp = M/Nω = m/n
Доля единиц, не обладающих этим признакомq = 1 — p1 — ω
Средняя величина признака
Дисперсия признака
Дисперсия альтернативного признака (дисперсия доли)pqω (1 — ω )

При проведении выборочного наблюдения возникают систематические и случайные ошибки. Систематические ошибки возникают в силу нарушения правил отбора единиц в выборку. Изменив правила отбора, от таких ошибок можно избавиться.

Случайные ошибки возникают в силу несплошного характера обследования. Иначе их называют ошибками репрезентативности (представительности). Случайные ошибки разделяют на средние и предельные ошибки выборки, которые определяются как при расчете признака, так и при расчете доли.

Средние и предельные ошибки связаны следующим соотношением: Δ = tμ, где Δ — предельная ошибка выборки, μ — средняя ошибка выборки, t — коэффициент доверия, определяемый в зависимости от уровня вероятности. В таблице 2 приведены некоторые значения t, взятые из теории вероятностей.

Таблица 2 — Соответствие некоторых значений вероятностей коэффициенту доверия

Вероятность, Р0,6830,8660,9540,9880,9970,999
Значение t1,01,52,02,53,03,5

Величина средней ошибки выборки рассчитывается дифференцированно в зависимости от способа отбора и процедуры выборки. Основные формулы для расчета ошибок выборки представлены в таблице 3.

Таблица 3 — Основные формулы для расчета ошибок выборки при повторном и бесповторном отборе

ПоказательОбозначение и формула
Генеральная совокупностьВыборочная совокупность
Средняя ошибка признака при случайном повторном отборе
Средняя ошибка доли при случайном повторном отборе
Предельная ошибка признака при случайном повторном отборе
Предельная ошибка доли при случайном повторном отборе
Средняя ошибка признака при случайном бесповторном отборе
Средняя ошибка доли при случайном бесповторном отборе
Предельная ошибка признака при случайном бесповторном отборе
Предельная ошибка доли при случайном бесповторном отборе

Расчет средней и предельной ошибок выборки позволяет определить возможные пределы, в которых будут находиться характеристики генеральной совокупности.

Например, для выборочной средней такие пределы устанавливаются на основе следующих соотношений:

— пределы доли признака в генеральной совокупности р.

Примеры решения задач по теме «Выборочное наблюдение в статистике»

Задача 1. Имеется информация о выпуске продукции (работ, услуг), полученной на основе 10% выборочного наблюдения по предприятиям области:

Определить: 1) по предприятиям, включенным в выборку: а) средний размер произведенной продукции на одно предприятие; б) дисперсию объема производства; в) долю предприятий с объемом производства продукции более 400 тыс. руб.; 2) в целом по области с вероятностью 0,954 пределы, в которых можно ожидать: а) средний объем производства продукции на одно предприятие; б) долю предприятий с объемом производства продукции более 400 тыс. руб.; 3) общий объем выпуска продукции по области.

Решение

Для решения задачи расширим предложенную таблицу.

1) По предприятиям, включенным в выборку, средний размер произведенной продукции на одно предприятие

= 110800/400 = 277 тыс. руб.

Дисперсию объема производства вычислим упрощенным способом σ 2 = 35640000/400 – 277 2 = 89100 — 76229 = 12371.

Число предприятий, объем производства продукции которых превышает 400 тыс. руб. равно 36+12 = 48, а их доля равна ω = 48:400 = 0,12 = 12%.

2) Из теории вероятности известно, что при вероятности Р=0,954 коэффициент доверия t=2. Предельная ошибка выборки

= 2√12371:400 = 11,12 тыс. руб.

Установим границы генеральной средней: 277-11,12 ≤Хср≤ 277+11,12; 265,88 ≤Хср≤ 288,12

Предельная ошибка выборки доли предприятий

Определим границы генеральной доли: 0,12-0,03≤ р ≤0,12+0,03; 0,09≤ р ≤0,15

3) Поскольку рассматриваемая группа предприятий составляет 10% от общего числа предприятий области, то в целом по области насчитывается 4000 предприятий. Тогда общий объем выпуска продукции по области лежит в пределах 265,88×4000≤Q≤288,12×4000; 1063520 ≤ Q ≤ 1152480

Задача 2. По результатам контрольной проверки налоговыми службами 400 бизнес-структур, у 140 из них в налоговых декларациях не полностью указаны доходы, подлежащие налогообложению. Определите в генеральной совокупности (по всему району) долю бизнес-структур, скрывших часть доходов от уплаты налогов, с вероятностью 0,954.

Решение

По условию задачи число единиц в выборочной совокупности n=400, число единиц, обладающих рассматриваемым признаком m=140, вероятность Р=0,954.

Из теории вероятностей известно, что при вероятности Р=0,954 коэффициент доверия t=2.

Долю единиц, обладающих указанным признаком, определим по формуле: p=w+∆p, где w = m/n=140/400=0,35=35%,
а предельную ошибку признака ∆p получим из формулы: ∆p= t √w(1-w)/n = 2√0,35×0,65/400 ≈ 0,5 = 5%

Ответ: Доля бизнес-структур, скрывших часть доходов от уплаты налогов с вероятностью 0,954 равна 35±5%.

Другие статьи по данной теме:

  • назад:Показатели вариации: понятие, виды, формулы для вычислений
  • далее:Ряды динамики: понятие и классификация. Показатели уровней ряда динамики. Примеры решения задач

Список использованных источников

  1. Белобородова С.С. и др. Теория статистики: Типовые задачи с контрольными заданиями. Екатеринбург: Изд-во Урал. гос. экон. ун-та, 2001;
  2. Минашкин В.Г. и др. Курс лекций по теории статистики. / Московский международный институт эконометрики, информатики, финансов и права. — М., 2003;
  3. Сизова Т.М. Статистика: Учебное пособие. – СПб.: СПб ГУИТМО, 2005;
  4. Фёдорова Л.Н., Фёдорова А.Е. Методические указания по написанию контрольной работы по курсу «Статистика» для студентов экономических специальностей: УрГЭУ, 2007;

2012 © Лана Забродская. При копировании материалов сайта ссылка на источник обязательна

3. Ошибки выборки

3. Ошибки выборки

Каждая единица при выборочном наблюдении должна иметь равную с другими возможность быть отобранной – это является основой собственнослучайной выборки.

Собственнослучайная выборка – это отбор единиц из всей генеральной совокупности посредством жеребьевки или другим подобным способом.

Принципом случайности является то, что на включение или исключение объекта из выборки не может повлиять любой фактор, кроме случая.

Доля выборки – это отношение числа единиц выборочной совокупности к числу единиц генеральной совокупности:

Собственнослучайный отбор в чистом виде является исходным среди всех других видов отбора, в нем заключаются и реализуются основные принципы выборочного статистического наблюдения.

Два основных вида обобщающих показателей, которые используют в выборочном методе – это средняя величина количественного признака и относительная величина альтернативного признака.

Выборочная доля (w), или частность, определяется отношением числа единиц, обладающих изучаемым признаком m, к общему числу единиц выборочной совокупности (n):

Для характеристики надежности выборочных показателей различают среднюю и предельную ошибки выборки.

Ошибка выборки, ее еще называют ошибкой репрезентативности, представляет собой разность соответствующих выборочных и генеральных характеристик:

1) для средней количественного признака:

2) для доли (альтернативного признака):

Только выборочным наблюдениям присуща ошибка выборки

Выборочная средняя и выборочная доля – это случайные величины, принимающие различные значения в зависимости от единиц изучаемой статистической совокупности, которые попали в выборку. Соответственно ошибки выборки – тоже случайные величины и также могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок – среднюю ошибку выборки.

Средняя ошибка выборки определяется объемом выборки: чем больше численность при прочих равных условиях, тем меньше величина средней ошибки выборки. Охватывая выборочным обследованием все большее количество единиц генеральной совокупности, все более точно характеризуем всю генеральную совокупность.

Средняя ошибка выборки зависит от степени варьирования изучаемого признака, в свою очередь степень варьирования характеризуется дисперсией ? 2 или w(l – w) – для альтернативного признака. Чем меньше вариация признака и дисперсия, тем меньше средняя ошибка выборки, и наоборот.

При случайном повторном отборе средние ошибки теоретически рассчитывают по следующим формулам:

1) для средней количественного признака:

где ? 2 – средняя величина дисперсии количественного признака.

2) для доли (альтернативного признака):

Так как дисперсия признака в генеральной совокупности ? 2 точно неизвестна, на практике пользуются значением дисперсии S 2 , рассчитанным для выборочной совокупности на основании закона больших чисел, согласно которому выборочная совокупность при достаточно большом объеме выборки достаточно точно воспроизводит характеристики генеральной совокупности.

Формулы средней ошибки выборки при случайном повторном отборе следующие. Для средней величины количественного признака: генеральная дисперсия выражается через выборную следующим соотношением:

где S 2 – значение дисперсии.

Механическая выборка – это отбор единиц в выборочную совокупность из генеральной, которая разбита по нейтральному признаку на равные группы; производится так, что из каждой такой группы в выборку отбирается лишь одна единица.

При механическом отборе единицы изучаемой статистической совокупности предварительно располагают в определенном порядке, после чего отбирают заданное число единиц механически через определенный интервал. При этом размер интервала в генеральной совокупности равен обратному значению доли выборки.

При достаточно большой совокупности механический отбор по точности результатов близок к собственнослучайному Поэтому для определения средней ошибки механической выборки используют формулы собственнослучайной бесповторной выборки.

Для отбора единиц из неоднородной совокупности применяется так называемая типическая выборка, используется, когда все единицы генеральной совокупности можно разбить на несколько качественно однородных, однотипных групп по признакам, от которых зависят изучаемые показатели.

Затем из каждой типической группы собственнослучайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.

Типическая выборка обычно применяется при изучении сложных статистических совокупностей.

Типическая выборка дает более точные результаты. Типизация генеральной совокупности обеспечивает репрезентативность такой выборки, представительство в ней каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Поэтому при определении средней ошибки типической выборки в качестве показателя вариации выступает средняя из внутригрупповых дисперсий.

Серийная выборка предполагает случайный отбор из генеральной совокупности равновеликих групп для того, чтобы в таких группах подвергать наблюдению все без исключения единицы.

Поскольку внутри групп (серий) обследуются все без исключения единицы, средняя ошибка выборки (при отборе равновеликих серий) зависит только от межгрупповой (межсерийной) дисперсии.

Данный текст является ознакомительным фрагментом.

Стандартная ошибка средней арифметической

Среднее арифметическое, как известно, используется для получения обобщающей характеристики некоторого набора данных. Если данные более-менее однородны и в них нет аномальных наблюдений (выбросов), то среднее хорошо обобщает данные, сведя к минимуму влияние случайных факторов (они взаимопогашаются при сложении).

Когда анализируемые данные представляют собой выборку (которая состоит из случайных значений), то среднее арифметическое часто (но не всегда) выступает в роли приближенной оценки математического ожидания. Почему приближенной? Потому что среднее арифметическое – это величина, которая зависит от набора случайных чисел, и, следовательно, сама является случайной величиной. При повторных экспериментах (даже в одних и тех же условиях) средние будут отличаться друг от друга.

Для того, чтобы на основе статистического анализа данных делать корректные выводы, необходимо оценить возможный разброс полученного результата. Для этого рассчитываются различные показатели вариации. Но то исходные данные. И как мы только что установили, среднее арифметическое также обладает разбросом, который необходимо оценить и учитывать в дальнейшем (в выводах, в выборе метода анализа и т.д.).

Интуитивно понятно, что разброс средней должен быть как-то связан с разбросом исходных данных. Основной характеристикой разброса средней выступает та же дисперсия.

Дисперсия выборочных данных – это средний квадрат отклонения от средней, и рассчитать ее по исходным данным не составляет труда, например, в Excel предусмотрены специальные функции. Однако, как же рассчитать дисперсию средней, если в распоряжении есть только одна выборка и одно среднее арифметическое?

Расчет дисперсии и стандартной ошибки средней арифметической

Чтобы получить дисперсию средней арифметической нет необходимости проводить множество экспериментов, достаточно иметь только одну выборку. Это легко доказать. Для начала вспомним, что средняя арифметическая (простая) рассчитывается по формуле:

где xi – значения переменной,
n – количество значений.

Теперь учтем два свойства дисперсии, согласно которым, 1) — постоянный множитель можно вынести за знак дисперсии, возведя его в квадрат и 2) — дисперсия суммы независимых случайных величин равняется сумме соответствующих дисперсий. Предполагается, что каждое случайное значение xi обладает одинаковым разбросом, поэтому несложно вывести формулу дисперсии средней арифметической:

Используя более привычные обозначения, формулу записывают как:

где σ 2 – это дисперсия, случайной величины, причем генеральная.

На практике же, генеральная дисперсия известна далеко не всегда, точнее совсем редко, поэтому в качестве оной используют выборочную дисперсию:

Стандартное отклонение средней арифметической называется стандартной ошибкой средней и рассчитывается, как квадратный корень из дисперсии.

Формула стандартной ошибки средней при использовании генеральной дисперсии

Формула стандартной ошибки средней при использовании выборочной дисперсии

Последняя формула на практике используется чаще всего, т.к. генеральная дисперсия обычно не известна. Чтобы не вводить новые обозначения, стандартную ошибку средней обычно записывают в виде соотношения стандартного отклонения выборки и корня объема выборки.

Назначение и свойство стандартной ошибки средней арифметической

Стандартная ошибка средней много, где используется. И очень полезно понимать ее свойства. Посмотрим еще раз на формулу стандартной ошибки средней:

Числитель – это стандартное отклонение выборки и здесь все понятно. Чем больше разброс данных, тем больше стандартная ошибка средней – прямо пропорциональная зависимость.

Посмотрим на знаменатель. Здесь находится квадратный корень из объема выборки. Соответственно, чем больше объем выборки, тем меньше стандартная ошибка средней. Для наглядности изобразим на одной диаграмме график нормально распределенной переменной со средней равной 10, сигмой – 3, и второй график – распределение средней арифметической этой же переменной, полученной по 16-ти наблюдениям (которое также будет нормальным).

Судя по формуле, разброс стандартной ошибки средней должен быть в 4 раза (корень из 16) меньше, чем разброс исходных данных, что и видно на рисунке выше. Чем больше наблюдений, тем меньше разброс средней.

Казалось бы, что для получения наиболее точной средней достаточно использовать максимально большую выборку и тогда стандартная ошибка средней будет стремиться к нулю, а сама средняя, соответственно, к математическому ожиданию. Однако квадратный корень объема выборки в знаменателе говорит о том, что связь между точностью выборочной средней и размером выборки не является линейной. Например, увеличение выборки с 20-ти до 50-ти наблюдений, то есть на 30 значений или в 2,5 раза, уменьшает стандартную ошибку средней только на 36%, а со 100-а до 130-ти наблюдений (на те же 30 значений), снижает разброс данных лишь на 12%.

Лучше всего изобразить эту мысль в виде графика зависимости стандартной ошибки средней от размера выборки. Пусть стандартное отклонение равно 10 (на форму графика это не влияет).

Видно, что примерно после 50-ти значений, уменьшение стандартной ошибки средней резко замедляется, после 100-а – наклон постепенно становится почти нулевым.

Таким образом, при достижении некоторого размера выборки ее дальнейшее увеличение уже почти не сказывается на точности средней. Этот факт имеет далеко идущие последствия. Например, при проведении выборочного обследования населения (опроса) чрезмерное увеличение выборки ведет к неоправданным затратам, т.к. точность почти не меняется. Именно поэтому количество опрошенных редко превышает 1,5 тысячи человек. Точность при таком размере выборки часто является достаточной, а дальнейшее увеличение выборки – нецелесообразным.

Подведем итог. Расчет дисперсии и стандартной ошибки средней имеет довольно простую формулу и обладает полезным свойством, связанным с тем, что относительно хорошая точность средней достигается уже при 100 наблюдениях (в этом случае стандартная ошибка средней становится в 10 раз меньше, чем стандартное отклонение выборки). Больше, конечно, лучше, но бесконечно увеличивать объем выборки не имеет практического смысла. Хотя, все зависит от поставленных задач и цены ошибки. В некоторых опросах участие принимают десятки тысяч людей.

Дисперсия и стандартная ошибка средней имеют большое практическое значение. Они используются в проверке гипотез и расчете доверительных интервалов.

Ссылка на основную публикацию
Adblock
detector