Средняя и предельная ошибки выборки. Формула доверительной вероятности при оценке генеральной средней. Средняя квадратическая ошибка повторной и бес­повторной выборок и построение доверительного интервала для генеральной средней

Как мы уже знаем, репрезентативность - свойство выборочной совокупности представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности - мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности. Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной - 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями - генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной литературе можно встретить другой - «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки - отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными»35.

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа - случайные и систематические. Случайная ошибка - это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Второй тип ошибок выборки - систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки - результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например: 1) выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд); 2) налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%); 3) отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:
♦ нарушены методические и методологические правила проведения социологического исследования;
♦ выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;
♦ произошла замена требуемых единиц наблюдения другими, более доступными;
♦ отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точно предвидя их источники, лучше всего заранее - в самом начале исследования.

Вот некоторые способы избежать ошибок выборки:
♦ каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;
♦ отбор желательно производить из однородных совокупностей;
♦ надо знать характеристики генеральной совокупности;
♦ при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, харастеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.

Подобные ошибки могут произойти только с выборочной совокупностыо. Чтобы избежать или уменьшить вероятность ошибки, самый простой способ - увеличивать размеры выборки (в идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь - совершенствовать математические методы составления выборки. Они то и применяются на практике. Таков первый канал проникновения в социологию математики. Второй канал - математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже - тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов: 1) стоимости сбора информации и 2) стремления к определенной степени статистической достоверности результатов, которую надеется получить исследователь. Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, - 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно {гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня доверительного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые связаны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки:
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.

Средняя и предельная ошибки выборки

Основное преимущество выборочного наблюдения среди прочих других - возможность рассчитать случайную ошибку выборки.

Ошибки выборки бывают систематические и случайные.

Систематические - в том случае, когда нарушен основной принцип выборки - случайности. Случайные - возникают обычно ввиду того, что структура выборочной совокупности все­гда отличается от структуры генеральной совокупности, как бы правильно ни был произведен отбор, то есть, несмотря на принцип случайности отбора единиц совокупности, все же имеются расхо­ждения между характеристиками выборочной и генеральной сово­купности. Изучение и измерение случайных ошибок репрезента­тивности и является основной задачей выборочного метода.

Как правило, чаще всего рассчитывают ошибку средней и ошиб­ку доли. При расчетах используются следующие условные обо­значения:

Средняя, рассчитанная в пределах генеральной совокупности;

Средняя, рассчитанная в пределах выборочной совокупно­сти;

р - доля данной группы в генеральной совокупности;

w - доля данной группы в выборочной совокупности.

Используя условные обозначения, ошибки выборки для средней и для доли можно записать следующим образом:

Выборочная средняя и выборочная доля являются случайными величинами, которые могут принимать любые значения в зависимости от того, какие единицы совокупности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок μ.

В отличие от систематической, случайную ошибку можно опре­делить заранее, до проведения выборки, согласно предельных теорем, рассматриваемых в математической статистике.

Средняя ошибка определяется с вероятностью 0,683. В случае другой вероятности говорят о предельной ошибке.

Средняя ошибка выборки для средней и для доли определяется следующим образом:


В этих формулах дисперсия признака является характеристикой генеральной совокупности, которые при выборочном наблюдении неизвестны. На практике их заменяют аналогичными xapaктеристиками выборочной совокупности на основании закона больших чисел, по которому выборочная совокупность большом объеме точно воспроизводит характеристики генеральной совокупности.

Формулы определения средней ошибки для различных способ отбора:

Способ отбора Повторный Бесповторный
ошибка средней ошибка доли ошибка средней ошибка доли
Собственно-случайный и механиче­ский
Типический
Серийный

μ - средняя ошибка;

∆ - предельная ошибка;

п - численность выборки;

N - численность генеральной совокупности;

Общая дисперсия;

w - доля данной категории в общей численности выборки:

Средняя из внутригрупповых дисперсии;

Δ 2 - межгрупповая дисперсия;

r - число серий в выборке;

R - общее число серий.


Предельная ошибка для всех способов отбора связана со сред­ней ошибкой выборки следующим образом:

где t - коэффициент доверия, функционально связанный с веро­ятностью, с которой обеспечивается величина предельной ошиб­ки. В зависимости от вероятности коэффициент доверия t принимает следующие значения:

t P
0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
4,0 0,9999

Например, вероятность ошибки равна 0,683. Это значит, что генеральная средняя отличается от выборочной средней по абсолютной величине не более чем на величину μ с вероятностью 0,683, то если - выборочная средняя, - генеральная средняя, то с вероятностью 0,683.

Если мы хотим обеспечить большую вероятность выводов, тем самым мы увеличиваем границы случайной ошибки.

Таким образом, величина предельной ошибки зависит от сле­дующих величин:

Колеблемости признака (прямая связь), которую характеризует величина дисперсии;

Численности выборки (обратная связь);

Доверительной вероятности (прямая связь);

Метода отбора.

Пример расчета ошибки средней и ошибки доли.

Для определения среднего числа детей в семье методом случайной бесповторной выборки из 1000 семей отобраны 100. Результаты приведены в таблице:

Определите: .

- с вероятностью 0,997 предельную ошибку выборки и границы, в которых находится средне число детей в семье;

- с вероятностью 0,954 границы, в которых находится удельный вес семей с двумя детьми.

1. Определим предельную ошибку средней с вероятностью 0,977. Для упрощения расчетов воспользуемся способом моментов:

p = 0,997 t = 3

средняя ошибка средней, 0,116 - предельная ошибка

2,12 – 0,116 ≤ ≤ 2,12+ 0,116

2,004 ≤ ≤ 2,236

Следовательно, с вероятностью 0,997 среднее число детей в семье в генеральной совокупности, то есть среди 1000 семей, находится в интервале 2,004 - 2,236.

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называют ошибкой репрезентативности. Различают систематические и случайные ошибки выборки.

Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.

Систематические ошибки могут быть связаны с нарушением правил отбора или условий реализации выборки.

Так, при обследовании бюджетов домашних хозяйств выборочную совокупность на протяжении более 40 лет строили на основе территориально-отраслевого принципа отбора, что было обусловлено основной целью бюджетного обследования – дать характеристику уровня жизни рабочих, служащих и колхозников. Выборочная совокупность распределялась по регионам и отраслям экономики РСФСР пропорционально общей численности занятых; для создания отраслевой выборки применяли типическую выборку с механическим отбором единиц внутри групп.

Главным критерием отбора была среднемесячная оплата труда. Принцип отбора обеспечивал пропорциональную представительность в выборочной совокупности работающих с различным уровнем заработной платы.

С появлением новых социальных групп (предпринимателей, фермеров, безработных) репрезентативность выборки нарушалась не только в силу различий со структурой генеральной совокупности, но и в связи с систематической ошибкой, которая возникала из-за несовпадения единицы отбора (работник) и единицы наблюдения (домохозяйство). Домохозяйство, имеющее более одного работающего члена семьи, имело и бо́льшую вероятность быть отобранным, чем домохозяйство, в составе которого был один работающий. Семьи, не имеющие занятых в обследуемых отраслях, выпадали из круга отбираемых единиц (домохозяйства пенсионеров, домохозяйства, существующие за счет индивидуальной трудовой деятельности, и т.п.). Оценка точности полученных результатов (границы доверительных интервалов, ошибки выборки) была затруднена, так как при построении выборки не использовались вероятностные модели.

В 1996–1997 гг. был внедрен принципиально новый подход к формированию выборки домашних хозяйств. В качестве основы для ее проведения использовали данные микропереписи населения 1994 г. Генеральную совокупность при отборе составили все типы домашних хозяйств, за исключением коллективных. А выборочную совокупность стали организовывать с учетом представительности состава и типов домашних хозяйств в пределах каждого субъекта РФ.

Измерение ошибок репрезентативности выборочных показателей основано на предположении о случайном характере их распределения при бесконечно большом числе выборок.

Количественную оценку надежности выборочного показателя используют, чтобы составить представление о генеральной характеристике. Это осуществляют либо на основе выборочного показателя с учетом его случайной ошибки, либо на основе выдвижения некоторой гипотезы (о величине средней дисперсии, характере распределения, связи) в отношении свойств генеральной совокупности.

Для проверки гипотезы оценивают согласованность эмпирических данных с гипотетическими.

Величина случайной ошибки репрезентативности зависит:

  • 1) от объема выборки;
  • 2) степени вариации изучаемого признака в генеральной совокупности;
  • 3) принятого способа формирования выборочной совокупности.

Различают среднюю (стандартную) и предельную ошибки выборки.

Средняя ошибка характеризует меру отклонений выборочных показателей от аналогичных показателей генеральной совокупности.

Предельной ошибкой принято считать максимально возможное расхождение выборочной и генеральной характеристик, т.е. максимум ошибки при заданной вероятности ее появления.

По данным выборочной совокупности можно оценить различные показатели (параметры) генеральной совокупности. Наиболее часто используют оценку:

  • – генеральной средней величины изучаемого признака (для многозначного количественного признака);
  • – генеральной доли (для альтернативного признака).

Основным принципом применения выборочного метода является обеспечение равной возможности для всех единиц генеральной совокупности быть отобранными в выборочную совокупность. При таком подходе соблюдается требование случайного, объективного отбора и, следовательно, ошибка выборки определяется прежде всего ее объемом (п ). С увеличением последнего величина средней ошибки уменьшается, характеристики выборочной совокупности приближаются к характеристикам генеральной совокупности.

При одинаковой численности выборочных совокупностей и прочих равных условиях ошибка выборки будет меньше в гой из них, которая отобрана из генеральной совокупности с меньшей вариацией изучаемого признака. Уменьшение вариации признака означает снижение величины дисперсии (– для количественного признака или – для альтернативного признака).

Зависимость величины ошибки выборки от способов формирования выборочной совокупности определяется по формулам средней ошибки выборки (табл. 5.2).

Дополним показатели табл. 5.2 следующими пояснениями.

Выборочная дисперсия несколько меньше генеральной, в математической статистике доказано, что

Таблица 5.2

Формулы расчета средней ошибки выборки мри различных способах отбора

Вид выборки

повторный для

бесповторный для

Собственно

случайная

(простая)

Серийная

(с равновеликими

Типическая (пропорционально объему групп)

Если выборочная совокупность имеет большой объем (т.е. п достаточно велико), то соотношение приближается к единице и выборочная дисперсия практически совпадает с генеральной.

Выборку считают безусловно большой при п > 100 и безусловно малой при п < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Они могут быть рассчитаны по следующим формулам:

где – средняя i -й серии; – общая средняя по всей выборочной совокупности;

где – доля единиц определенной категории в i -й серии; – доля единиц этой категории во всей выборочной совокупности; r – число отобранных серий.

4. Для определения средней ошибки типической выборки в случае отбора единиц пропорционально численности каждой группы в качестве показателя вариации выступает средняя из внутригрупповых дисперсий (– для количественного признака, для альтернативного признака). По правилу сложения дисперсий величина средней из внутригрупповых дисперсий меньше, чем величина общей дисперсии. Значение средней возможной ошибки типической выборки меньше, чем ошибка простой собственно-случайной выборки.

Часто используют комбинированный отбор: индивидуальный отбор единиц сочетают с групповым, типический отбор – с отбором сериями. При любом способе отбора с определенной вероятностью можно утверждать, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превысит некоторую величину, которую называют предельной ошибкой выборки.

Соотношение между пределом ошибки выборки (∆), гарантируемым с некоторой вероятностью F(t), и средней ошибкой выборки имеет вид: или , где t – коэффициент доверия, определяемый в зависимости от уровня вероятности F(t).

Значения функции F(t) и t определяются на основе специально составленных математических таблиц. Приведем некоторые из них, применяемые наиболее часто:

т

Таким образом, предельная ошибка выборки отвечает на вопрос о точности выборки с определенной вероятностью, величина которой зависит от значения коэффициента доверия t. Так, при t = 1 вероятность F(t ) отклонения выборочных характеристик от генеральных на величину однократной средней ошибки равна 0,683. Следовательно, в среднем из каждой 1000 выборок 683 дадут обобщающие показатели (среднюю, долю), которые будут отличаться от генеральных не более чем на величину однократной средней ошибки. При t = 2 вероятность F(t) равна 0,954, это означает, что из каждой 1000 выборок 954 дадут обобщающие показатели, которые будут отличаться от генеральных не более чем на двукратную среднюю ошибку выборки, и т.д.

Наряду с абсолютной величиной предельной ошибки выборки рассчитывают и относительную ошибку, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности:

На практике принято задавать величину ∆, как правило, в пределах 10% предполагаемого среднего уровня признака.

Расчет средней и предельной ошибок выборки позволяет определить пределы, в которых будут находиться характеристики генеральной совокупности:

Пределы, в которых с данной степенью вероятности будет заключена неизвестная величина изучаемого показателя в генеральной совокупности, называют доверительным интервалом, а вероятность F(t) доверительной вероятностью. Чем выше значение ∆, тем больше величина доверительного интервала и, следовательно, ниже точность оценки.

Рассмотрим следующий пример. Для определения среднего размера вклада в банке методом повторной случайной выборки было отобрано 200 валютных счетов вкладчиков. В результате установили, что средний размер вклада – 60 тыс. руб., дисперсия составила 32. При этом 40 счетов оказались до востребования. Необходимо с вероятностью 0,954 определить пределы, в которых находятся средний размер вклада на валютных счетах в банке и доля счетов до востребования.

Рассчитаем среднюю ошибку выборочной средней по формуле для повторного отбора

Предельная ошибка выборочной средней с вероятностью 0,954 составит

Следовательно, средний размер вклада на валютных счетах в банке находится в пределах тыс. руб.:

С вероятностью 0,954 можно утверждать, что средний размер вклада на валютных счетах в банке составляет от 59 200 до 60 800 руб.

Определим долю вкладов до востребования в выборочной совокупности:

Средняя ошибка выборочной доли

Предельная ошибка доли с вероятностью 0,954 составит

Таким образом, доля счетов до востребования в генеральной совокупности находится в пределах w :

С вероятностью 0,954 можно утверждать, что доля счетов до востребования в общем числе валютных счетов в банке составляет от 14,4 до 25,6%.

При конкретных исследованиях важно установить оптимальное соотношение между мерой надежности полученных результатов и величиной допустимой ошибки выборки. В связи с этим при организации выборочного наблюдения возникает вопрос, связанный с определением объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью. Расчет необходимого объема выборки проводится на основе формул предельной ошибки выборки в соответствии с видом и способом отбора (табл. 5.3).

Таблица 5.3

Формулы расчета численности выборки при собственно-случайном способе отбора

Продолжим пример, в котором представлены результаты выборочного обследования лицевых счетов вкладчиков банка.

Требуется установить, сколько необходимо обследовать счетов, чтобы с вероятностью 0,977 ошибка при определении среднего размера вклада не превысила 1,5 тыс. руб. Выразим из формулы предельной ошибки выборки для повторного отбора показатель численности выборки:

При определении необходимого объема выборки по приведенным формулам возникает трудность в нахождении значений σ2 и да, так как эти величины можно получить только после проведения выборочного обследования. В связи с этим вместо фактических значений данных показателей подставляют приближенные, которые могли быть определены на основе каких-либо пробных выборочных наблюдений или из аналитических предыдущих обследований.

В тех случаях, когда статистик знает среднее значение изучаемых признаков (например, из инструкций, законодательных актов и т.п.) или пределы, в которых этот признак варьируется, можно применить следующий расчет по приближенным формулам:

а произведение w(1 – w) заменить значением 0,25 (w = 0,5).

Чтобы получить более точный результат, принимают максимально возможное значение этих показателей. Если распределение признака в генеральной совокупности подчиняется нормальному закону, то размах вариации примерно равен 6σ (крайние значения отстоят в ту и другую сторону от средней на расстоянии 3σ). Отсюда , но если распределение заведомо асимметрично, то .

При любом виде выборки ее объем начинают рассчитывать по формуле повторного отбора

Если в результате расчета доля отбора (n ) превысит 5%, то проводят расчет по формуле бесповторного отбора.

Для типической выборки необходимо общий объем выборочной совокупности разделить между выделенными типами единиц. Расчет числа наблюдений из каждой группы зависит от названных ранее организационных форм типической выборки.

При типическом отборе единиц непропорционально численности групп общее число отбираемых единиц делят на число групп, полученная величина дает численность отбора из каждой типической группы:

где k – число выделенных типических групп.

При отборе единиц пропорционально численности типических групп число наблюдений по каждой группе определяют по формуле

где – объем выборки из i -й группы; – объем i -й группы.

При отборе с учетом вариации признака процент выборки из каждой группы должен быть пропорционален среднему квадратическому отклонению в этой группе (). Расчет численности () производят по формулам

При серийном отборе необходимую численность отбираемых серий определяют так же, как и при собственно-случайном отборе:

Повторный отбор

Бесповторный отбор

При этом дисперсии и ошибки выборки могут быть рассчитаны для средней величины или доли признака.

При использовании выборочного наблюдения характеристика его результатов возможна на основе сопоставления полученных пределов ошибок выборочных показателей с величиной допустимой погрешности.

В связи с этим возникает задача определения вероятности того, что ошибка выборки не превысит допустимой погрешности. Решение этой задачи сводится к расчету на основе формулы предельной ошибки выборки величины t.

Продолжая рассмотрение примера выборочного обследования лицевых счетов клиентов банка, найдем вероятность, с которой можно утверждать, что ошибка при определении среднего размера вклада не превысит 785 руб.:

соответствующая доверительная вероятность составит 0,95.

В настоящее время практика выборочного наблюдения включает статистические наблюдения, осуществляемые:

  • – органами Росстата;
  • – другими министерствами и ведомствами (например, мониторинг предприятий в системе Банка России).

Известное обобщение опыта по организации выборочных обследований малых предприятий, населения и домашних хозяйств представлено в Методологических положениях по статистике. В них дано более широкое понятие выборочного наблюдения, чем это рассмотрено выше (табл. 5.4).

В статистической практике используют все четыре типа выборок, представленных в табл. 5.4. Однако обычно отдают предпочтение описанным выше вероятностным (случайным) выборкам, являющимся наиболее объективными, так как по ним можно оценить точность получаемых результатов по данным самой выборки.

Таблица 5.4

Типы выборок

В выборках квазислучайного типа предполагается наличие вероятностного отбора на том основании, что специалист, рассматривающий выборку, считает его допустимым. Примером использования квазислучайной выборки в статистической практике является "Выборочное обследование малых предприятий по изучению социальных процессов в малом предпринимательстве", проведенное в 1996 г. в некоторых регионах России. Единицы наблюдения (малые предприятия) отбирались экспертно с учетом представительства отраслей экономики из уже сформированной выборки обследования финансово-хозяйственной деятельности малых предприятий (форма "Сведения об основных показателях финансово-хозяйственной деятельности малого предприятия"). При обобщении выборочных данных предполагалось, что выборочная совокупность сформирована методом простого случайного отбора.

Прямое использование суждения эксперта является наиболее общим методом намеренного включения единиц в выборку. Примером такого способа отбора является монографический метод, предполагающий получение информации только от одной единицы наблюдения, являющейся типичной, по мнению организатора обследования – эксперта.

Выборки, сформированные на основе направленного отбора, реализуются с помощью объективной процедуры, но без использования вероятностного механизма. Широко известен метод основного массива, при котором в выборку включают наиболее крупные (существенные) единицы наблюдения, обеспечивающие основной вклад в показатель, например суммарное значение признака, представляющего основную цель обследования.

В статистической практике часто применяют комбинированный метод статистического наблюдения. Сочетание сплошного и выборочного методов наблюдения имеет два аспекта:

  • чередование во времени;
  • одновременное их использование (часть совокупности наблюдают на сплошной основе, а часть – выборочно).

Чередование периодических выборочных со сравнительно редкими сплошными обследованиями или переписями необходимо для уточнения состава исследуемой совокупности. В дальнейшем эту информацию используют как статистическую основу выборочного наблюдения. Примерами могут служить переписи населения и выборочные обследования домашних хозяйств в промежутках времени между их проведениями.

В данном случае требуется решать следующие задачи:

  • – определение состава признаков сплошного наблюдения, обеспечивающих организацию выборки;
  • – обоснование периодов чередования, т.е. когда сплошные данные теряют актуальность и нужны затраты на их обновление.

Одновременное использование в рамках одного обследования сплошного и выборочного наблюдений обусловлено неоднородностью встречающихся в статистической практике совокупностей. В особенности это справедливо для обследований экономической деятельности совокупности предприятий, для которой характерны скошенные распределения изучаемых признаков, когда некоторое число единиц имеет характеристики, сильно отличающиеся от основной массы значений. В этом случае такие единицы наблюдают на сплошной основе, а другую часть совокупности – выборочно.

При данной организации наблюдений основными задачами выступают:

  • – установление их оптимальной пропорции;
  • – разработка способов оценки точности результатов.

Типичным примером, иллюстрирующим данный аспект применения комбинированного метода, является общий принцип проведения обследований совокупности предприятий, в соответствии с которым обследования совокупности крупных и средних предприятий проводят преимущественно сплошным методом, а малых – выборочным.

Дальнейшее развитие методологии выборочного наблюдения осуществляют как в сочетании с организацией сплошного наблюдения, так и через организацию специальных обследований, проведение которых диктуется необходимостью получения дополнительной информации для решения конкретных задач. Так, организация обследований в области условий и уровня жизни населения предусмотрена в двух аспектах:

Обязательными компонентами могут стать ежегодные исследования доходов, расходов и потребления (аналог обследования бюджетов домашних хозяйств), включающие также базовые показатели условий жизни населения. Ежегодно по специальному плану обязательные компоненты должны дополняться единовременными обследованиями (модулями) условий жизни населения, направленными на углубленное изучение какой-либо выбранной социальной темы из их общего числа (например, активы домашних хозяйств, здоровье, питание, образование, условия труда, жилищные условия, досуг, социальная мобильность, безопасность и др.) с различной периодичностью, определяемой потребностью в показателях и ресурсными возможностями.

Представляет из себя такое расхождение между средними выборочной и генеральной совокупностями, которое не превышает ±б (дельта).

На основании теоремы Чебышева П. Л. величина средней ошибки при случайном повторном отборе рассчитывается по формуле (для среднего количественного признака):

где числитель - дисперсия признака х в выборочной совокупности;
n - численность выборочной совокупности.

Для альтернативного признака формула средней ошибки выборки для доли по теореме Я. Бернулли рассчитывается по формуле:

где р(1- р) - дисперсия доли признака в генеральной совокупности;
n - объем выборки.

Вследствие, того что дисперсия признака в генеральной совокупности точно не известна, на практике используют значение дисперсии, которое рассчитано для выборочной совокупности на основании закона больших чисел . Согласно данному закону выборочная совокупность при большом объеме выборки достаточно точно воспроизводит характеристики генеральной совокупности.

Поэтому расчетные формулы средней ошибки при случайном повторном отборе будут выглядеть таким образом:

1. Для среднего количественного признака:

где S^2 - дисперсия признака х в выборочной совокупности;
n - объем выборки.

где w (1 — w) - дисперсия доли изучаемого признака в выборочной совокупности.

В теории вероятностей было показано, что выражается через выборочную согласно формуле:

В случаях малой выборки , когда её объем меньше 30, необходимо учитывать коэффициент n/(n-1). Тогда среднюю ошибку малой выборки рассчитывают по формуле:

Так как в процессе бесповторной выборки сокращается численность единиц генеральной совокупности, то в представленных выше формулах расчета средних ошибок выборки нужно подкоренное выражение умножить на 1- (n/N).

Расчетные формулы для такого вида выборки будут выглядеть так:

1. Для средней количественного признака:

где N - объем генеральной совокупности; n - объем выборки.

2. Для доли (альтернативного признака):

где 1- (n/N) — доля единиц генеральной совокупности, не попавших в выборку.

Поскольку n всегда меньше N, то дополнительный множитель 1 — (n/N) всегда будет меньше единицы. Это означает, что средняя ошибка при бесповторном отборе всегда будет меньше, чем при повторном. Когда доля единиц генеральной совокупности, которые не попали в выборку, существенная, то величина 1 — (n/N) близка к единице и тогда расчет средней ошибки производится по общей формуле.

Средняя ошибка зависит от следующих факторов:

1. При выполнении принципа случайного отбора средняя ошибка выборки определяется во-первых объемом выборки: чем больше численность, тем меньше величины средней ошибки выборки . Генеральная совокупность характеризуется точнее тогда, когда больше единиц данной совокупности охватывает выборочное наблюдение

2. Средняя ошибка также зависит от степени варьирования признака. Степень варьирования характеризуется . Чем меньше вариация признака (дисперсия), тем меньше средняя ошибка выборки. При нулевой дисперсии (признак не варьируется) средняя ошибка выборки равна нулю, таким образом, любая единица генеральной совокупности будет характеризовать всю совокупность по этому признаку.

    Формула доверительной вероятности при оценке генераль ной доли признака. Средняя квадратическая ошибка повторной и бесповторной выборок и построение доверительного интервала для генеральной доли признака.

  1. Формула доверительной вероятности при оценке генеральной средней. Средняя квадратическая ошибка повторной и бес­повторной выборок и построение доверительного интервала для генеральной средней.

Построение доверительного интервала для гeнеральной средней и гeнеральной доли по большим выборкам . Для построения доверительных интервалов для параметров генеральных совокупностей м.б. реализованы 2 подхода, основанных на знании точного (при данном объеме выборки n) или асимптотического (при n → ∞) распределения выборочных характеристик (или некоторых функций от них). Первый подход реализован далее при построении интервальных оценок параметров для малых выборок. В данном параграфе рассматривается второй подход, применимый для больших выборок (порядка сотен наблюдений).

Теорема . Вер-ть того, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превзойдет число Δ > 0 (по абсолютной величине), равна:

Где

,

Где
.

Ф(t) - функция (интеграл вероятностей) Лапласа.

Формулы получили название формул доверительной вер-ти для средней и доли .

Среднее квадратическое отклонение выборочной средней и выборочной долисобственно-случайной выборки называетсясредней квадратической (стандартной) ошибкой выборки (для бесповторной выборки обозначаем соответственно и).

Следствие 1 . При заданной доверительной вер-ти γ предельная ошибка выборки равна t-кратной величине средней квадратической ошибки, где Ф(t) = γ, т.е.

,

.

Следствие 2 . Интервальные оценки (доверительные интервалы) для генеральной средней и генеральной доли могут быть найдены по формулам:

,

.

  1. Определение необходимого объема повторной и бесповтор­ной выборок при оценке генеральной средней и доли.

Для проведения выборочного наблюдения весьма важно правильно установить объем выборки n, к-ый в значительной степени определяет необходимые при этом временные, трудовые и стоимостные затраты для определения n необходимо задать надежность (доверительную вер-ть) оценки γ и точность (предельную ошибку выборки) Δ.

Если найден объем повторной выборки n, то объем соответствующей бесповторной выборки n" можно определить по формуле:

.

Т.к.
, то при одних и тех же точности и надежности оценок объем бесповторной выборки n" всегда меньше объема повторной выборки n.

  1. Статистическая гипотеза и статистический критерий. Ошибки 1-го и 2-го рода. Уровень значимости и мощность критерия. Принцип практической уверенности.

Определение . Статистической гипотезой называется любое предположение о виде или параметрах неизвестного закона распределения.

Различают простую и сложную статистические гипотезы . Простая гипотеза , в отличие от сложной, полностью определяет теоретическую функцию распределения СВ.

Проверяемую гипотезу обычно называют нулевой (или основной ) и обозначают Н 0 . Наряду с нулевой гипотезой рассматривают альтернативную , или конкурирующую , гипотезу H 1 , являющуюся логическим отрицанием Н 0 . Нулевая и альтернативная гипотезы представляют собой 2 возможности выбора, осуществляемого в задачах проверки статистических гипотез.

Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика)
, полученная по выборке
, точное или приближенное распределение которой известно.

Затем по этому выборочному распределению определяется критическое значение - такое, что если гипотеза Н 0 верна, то вер-ть
мала; так что в соответствии с принципом практической уверенности в условиях данного исследования событие
можно (с некоторым риском) считать практически невозможным. Поэтому, если в данном конкретном случае обнаруживается отклонение
, то гипотеза Н 0 отвергается, в то время как появление значения
, считается совместимым с гипотезой Н 0 , которая тогда принимается (точнее, не отвергается). Правило, по которому гипотеза Н 0 отвергается или принимается, называется статистическим критерием или статистическим тестом .

Принцип практической уверенности:

Если вер-ть события А в данном испытании очень мала, то при однократном выполнении испытания можно быть уверенным в том, что событие А не произойдет, и в практической д-ти вести себя так, как будто событие А вообще невозможно.

Т.о., множество возможных значений статистики - критерия (критической статистики) разбивается на 2 непересекающихся подмножества:критическую область (область отклонения гипотезы) W и область допустимых значений (область принятия гипотезы) . Если фактически наблюдаемое значение статистики критерияпопадает в критическую область W, то гипотезу Н 0 отвергают. При этом возможны четыре случая:

Определение . Вероятность α допустить ошибку l-го рода, т.е. отвергнуть гипотезу Н 0 , когда она верна, называется уровнем значимости , или размером критерия .

Вероятность допустить ошибку 2-го рода, т.е. принять гипотезу Н 0 , когда она неверна, обычно обозначают β.

Определение . Вероятность (1-β) не допустить ошибку 2-го рода, т.е. отвергнуть гипотезу Н 0 , когда она неверна, называется мощностью (или функцией мощности ) критерия .

Следует предпочесть ту критическую область, при которой мощность критерия будет наибольшей.