Генеральная совокупность и выборочный метод. Ошибки выборки. Задачи, решаемые при применении выборочного наблюдения

При выборочном наблюдении должна быть обеспечена слу-чайность отбора единиц. Каждая единица должна иметь равную с другими возможность быть отобранной. Именно на этом основывается собственно-случайная выборка.

К собственно-случайной выборке относится отбор единиц из всей генеральной совокупности (без предварительного рас-членения ее на какие-либо группы) посредством жеребьевки (преимущественно) или какого-либо иного подобного спосо-ба, например, с помощью таблицы случайных чисел. Случай-ный отбор -- это отбор не беспорядочный. Принцип случай-ности предполагает, что на включение или исключение объ-екта из выборки не может повлиять какой-либо фактор, кро-ме случая. Примером собственно-случайного отбора могут служить тиражи выигрышей: из общего количества выпущен-ных билетов наугад отбирается определенная часть номеров, на которые приходятся выигрыши. Причем всем номерам обеспечивается равная возможность попадания в выборку. При этом количество отобранных в выборочную совокупность единиц обычно определяется исходя из принятой доли выборки.

Доля выборки есть отношение числа единиц выборочной со-вокупности к числу единиц генеральной совокупности:

Так, при 5%-ной выборке из партии деталей в 1000 ед. объ-ём выборки п составляет 50 ед., а при 10%-ной выборке -- 100 ед. и т.д. При правильной научной организации выборки ошибки репрезентативности можно свести к минимальным значениям, в результате -- выборочное наблюдение становится достаточно точным.

Собственно-случайный отбор «в чистом виде» применяет-ся в практике выборочного наблюдения редко, но он является исходным среди всех других видов отбора, в нем заключаются и реализуются основные принципы выборочного наблюдения.

Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.

Применяя выборочный метод в статистике, обычно используют два основных вида обобщающих показателей: среднюю величину ко-личественного признака и относительную величину альтернативного признака (долю или удельный вес единиц в статистической совокупности, которые отличаются от всех других единиц этой сово-купности только наличием изучаемого признака).

Выборочная доля (w), или частость, определяется отношением числа единиц, обладающих изучаемым признаком т, к общему числу единиц выборочной совокупности п:

Например, если из 100 деталей выборки (n =100), 95 деталей оказались стандартными =95), то выборочная доля

w =95/100=0,95 .

Для характеристики надежности выборочных показателей различают среднюю и предельную ошибки выборки.

Ошибка выборки ? или, иначе говоря, ошибка репрезента-тивности представляет собой разность соответствующих выбо-рочных и генеральных характеристик:

*

*

Ошибка выборки свойственна только выборочным наблюде-ниям. Чем больше значение этой ошибки, тем в большей степе-ни выборочные показатели отличаются от соответствующих генеральных показателей.

Выборочная средняя и выборочная доля по своей сути яв-ляются случайными величинами, которые могут принимать раз-личные значения в зависимости от того, какие единицы сово-купности попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возмож-ных ошибок -- среднюю ошибку выборки.

От чего зависит средняя ошибка выборки? При соблюдении принципа случайного отбора средняя ошибка выборки определя-ется прежде всего объемом выборки: чем больше численность при прочих равных условиях, тем меньше величина средней ошибки выборки. Охватывая выборочным обследованием все большее количество единиц генеральной совокупности, всё более точно характеризуем всю генеральную совокупность.

Средняя ошибка выборки также зависит от степени варьи-рования изучаемого признака. Степень варьирования, как из-вестно, характеризуется дисперсией? 2 или w(1-w) -- для альтернативного признака. Чем меньше вариация признака, а следовательно, и дисперсия, тем меньше средняя ошибка вы-борки, и наоборот. При нулевой дисперсии (признак не варь-ирует) средняя ошибка выборки равна нулю, т. е. любая еди-ница генеральной совокупности будет совершенно точно ха-рактеризовать всю совокупность по этому признаку.

Зависимость средней ошибки выборки от ее объема и степе-ни варьирования признака отражена в формулах, с помощью которых можно рассчитать среднюю ошибку выборки в условиях выборочного наблюдения, когда генеральные характеристики (х,p) неизвестны, и следовательно, не представляется возмож-ным нахождение реальной ошибки выборки непосредственно по формулам (форм. 1), (форм. 2).

Ш При случайном повторном отборе средние ошибки теоретически рассчитывают по следующим формулам:

* для средней количественного признака

* для доли (альтернативного признака)

Поскольку практически дисперсия признака в генеральной совокупности? 2 точно неизвестна, на практике пользуются значением дисперсии S 2 , рассчитанным для выборочной сово-купности на основании закона больших чисел, согласно кото-рому выборочная совокупность при достаточно большом объеме выборки достаточно точно воспроизводит характеристики гене-ральной совокупности.

Таким образом, расчетные формулы средней ошиб-ки выборки при случайном повторном отборе будут следующие:

* для средней количественного признака

* для доли (альтернативного признака)

Однако дисперсия выборочной совокупности не равна диспер-сии генеральной совокупности, и следовательно, средние ошибки выборки, рассчитанные по формулам (форм. 5) и (форм. 6), будут прибли-женными. Но в теории вероятностей доказано, что генеральная дисперсия выражается через выборную следующим соотношением:

Так как п/ (n -1) при достаточно больших п -- величина, близкая к единице, то можно принять, что, а следова-тельно, в практических расчетах средних ошибок выборки мож-но использовать формулы (форм. 5) и (форм. 6). И только в случаях ма-лой выборки (когда объем выборки не превышает 30) необхо-димо учитывать коэффициент п /(n -1) и исчислять среднюю ошибку малой выборки по формуле:

Ш X При случайном бесповторном отборе в приведенные выше формулы расчета средних ошибок выборки необходимо подко-ренное выражение умножить на 1-(n/N), поскольку в процес-се бесповторной выборки сокращается численность единиц генеральной совокупности. Следовательно, для бесповторной вы-борки расчетные формулы средней ошибки выборки примут такой вид:

* для средней количественного признака

* для доли (альтернативного признака)

. (форм. 10)

Так как п всегда меньше N , то дополнительный множи-тель 1-(n/N ) всегда будет меньше единицы. Отсюда следу-ет, что средняя ошибка при бесповторном отборе всегда будет меньше, чем при повторном. В то же время при сравнительно небольшом проценте выборки этот множитель близок к еди-нице (например, при 5%-ной выборке он равен 0,95; при 2%-ной -- 0,98 и т.д.). Поэтому иногда на практике пользуются для определения средней ошибки выборки формулами (форм. 5) и (форм. 6) без указанного множителя, хотя выборку и организуют как бесповторную. Это имеет место в тех случаях, когда число единиц генеральной совокупности N неизвестно или безгра-нично, или когда п очень мало по сравнению с N , и по су-ществу, введение дополнительного множителя, близкого по значению к единице, практически не повлияет на значение средней ошибки выборки.

Механическая выборка состоит в том, что отбор единиц в выборочную совокупность из генеральной, разбитой по ней-тральному признаку на равные интервалы (группы), произво-дится таким образом, что из каждой такой группы в выборку отбирается лишь одна единица. Чтобы избежать систематиче-ской ошибки, отбираться должна единица, которая находится в середине каждой группы.

При организации механического отбора единицы совокуп-ности предварительно располагают (обычно в списке) в опре-деленном порядке (например, по алфавиту, местоположению, в порядке возрастания или убывания значений какого-либо по-казателя, не связанного с изучаемым свойством, и т.д.), после чего отбирают заданное число единиц механически, через оп-ределенный интервал. При этом размер интервала в генеральной совокупности равен обратному значению доли выборки. Так, при 2%-ной выборке отбирается и проверяется каждая 50-я единица (1: 0,02), при 5%-ной выборке -- каждая 20-я едини-ца (1: 0,05), например, сходящая со станка деталь.

При достаточно большой совокупности механический отбор по точности результатов близок к собственно-случайному. По-этому для определения средней ошибки механической выборки используют формулы собственно-случайной бесповторной вы-борки (форм. 9), (форм. 10).

Для отбора единиц из неоднородной совокупности применя-ется, так называемая типическая выборка , которая используется в тех случаях, когда все единицы генеральной совокупности можно разбить на несколько качественно однородных, однотипных групп по признакам, влияющим на изучаемые показатели.

При обследовании предприятий такими группами могут быть, например, отрасль и подотрасль, формы собственности. Затем из каждой типической группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность.

Типическая выборка обычно применяется при изучении слож-ных статистических совокупностей. Например, при выборочном обследовании семейных бюджетов рабочих и служащих в отдель-ных отраслях экономики, производительности труда рабочих пред-приятия, представленных отдельными группами по квалификации.

Типическая выборка дает более точные результаты по сравнению с другими способами отбора единиц в выбороч-ную совокупность. Типизация генеральной совокупности обеспечивает репрезентативность такой выборки, представи-тельство в ней каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки.

При определении средней ошибки типической выборки в ка-честве показателя вариации выступает средняя из внутригрупповых дисперсий.

Среднюю ошибку выборки находят по формулам:

* для средней количественного признака

(повторный отбор); (форм. 11)

(бесповоротный отбор); (форм. 12)

* для доли (альтернативного признака)

(повторный отбор); (форм.13)

(бесповторный отбор), (форм. 14)

где - средняя из внутригрупповых дисперсий по вы-борочной совокупности;

Средняя из внутригрупповых дисперсий доли (альтернативного признака) по выборочной совокупности.

Серийная выборка предполагает случайный отбор из генераль-ной совокупности не отдельных единиц, а их равновеликих групп (гнезд, серий) с тем, чтобы в таких группах подвергать наблюде-нию все без исключения единицы.

Применение серийной выборки обусловлено тем, что многие товары для их транспортировки, хранения и продажи упаковываются в пачки, ящики и т.п. Поэтому при контроле качества упакованного товара рациональнее проверить не-сколько упаковок (серий), чем из всех упаковок отбирать необходимое количество товара.

Поскольку внутри групп (серий) обследуются все без исключе-ния единицы, средняя ошибка выборки (при отборе равновеликих серий) зависит только от межгрупповой (межсерийной) дисперсии.

Ш Среднюю ошибку выборки для средней количественного признака при серийном отборе находят по формулам:

(повторный отбор); (форм.15)

(бесповторный отбор), (форм. 16)

где r - число отобранных серий; R - общее число серий.

Межгрупповую дисперсию серийной выборки вычисляют сле-дующим образом:

где - средняя i - й серии; - общая средняя по всей выбо-рочной совокупности.

Ш Средняя ошибка выборки для доли (альтернативного при-знака) при серийном отборе:

(повторный отбор); (форм. 17)

(бесповторный отбор). (форм. 18)

Межгрупповую (межсерийную) дисперсию доли серийной вы-борки определяют по формуле:

, (форм. 19)

где - доля признака в i -й серии; - общая доля признака во всей выборочной совокупности.

В практике статистических обследований помимо рассмот-ренных ранее способов отбора применяется их комбинация (комбинированный отбор).

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называют ошибкой репрезентативности. Различают систематические и случайные ошибки выборки.

Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.

Систематические ошибки могут быть связаны с нарушением правил отбора или условий реализации выборки.

Так, при обследовании бюджетов домашних хозяйств выборочную совокупность на протяжении более 40 лет строили на основе территориально-отраслевого принципа отбора, что было обусловлено основной целью бюджетного обследования – дать характеристику уровня жизни рабочих, служащих и колхозников. Выборочная совокупность распределялась по регионам и отраслям экономики РСФСР пропорционально общей численности занятых; для создания отраслевой выборки применяли типическую выборку с механическим отбором единиц внутри групп.

Главным критерием отбора была среднемесячная оплата труда. Принцип отбора обеспечивал пропорциональную представительность в выборочной совокупности работающих с различным уровнем заработной платы.

С появлением новых социальных групп (предпринимателей, фермеров, безработных) репрезентативность выборки нарушалась не только в силу различий со структурой генеральной совокупности, но и в связи с систематической ошибкой, которая возникала из-за несовпадения единицы отбора (работник) и единицы наблюдения (домохозяйство). Домохозяйство, имеющее более одного работающего члена семьи, имело и бо́льшую вероятность быть отобранным, чем домохозяйство, в составе которого был один работающий. Семьи, не имеющие занятых в обследуемых отраслях, выпадали из круга отбираемых единиц (домохозяйства пенсионеров, домохозяйства, существующие за счет индивидуальной трудовой деятельности, и т.п.). Оценка точности полученных результатов (границы доверительных интервалов, ошибки выборки) была затруднена, так как при построении выборки не использовались вероятностные модели.

В 1996–1997 гг. был внедрен принципиально новый подход к формированию выборки домашних хозяйств. В качестве основы для ее проведения использовали данные микропереписи населения 1994 г. Генеральную совокупность при отборе составили все типы домашних хозяйств, за исключением коллективных. А выборочную совокупность стали организовывать с учетом представительности состава и типов домашних хозяйств в пределах каждого субъекта РФ.

Измерение ошибок репрезентативности выборочных показателей основано на предположении о случайном характере их распределения при бесконечно большом числе выборок.

Количественную оценку надежности выборочного показателя используют, чтобы составить представление о генеральной характеристике. Это осуществляют либо на основе выборочного показателя с учетом его случайной ошибки, либо на основе выдвижения некоторой гипотезы (о величине средней дисперсии, характере распределения, связи) в отношении свойств генеральной совокупности.

Для проверки гипотезы оценивают согласованность эмпирических данных с гипотетическими.

Величина случайной ошибки репрезентативности зависит:

  • 1) от объема выборки;
  • 2) степени вариации изучаемого признака в генеральной совокупности;
  • 3) принятого способа формирования выборочной совокупности.

Различают среднюю (стандартную) и предельную ошибки выборки.

Средняя ошибка характеризует меру отклонений выборочных показателей от аналогичных показателей генеральной совокупности.

Предельной ошибкой принято считать максимально возможное расхождение выборочной и генеральной характеристик, т.е. максимум ошибки при заданной вероятности ее появления.

По данным выборочной совокупности можно оценить различные показатели (параметры) генеральной совокупности. Наиболее часто используют оценку:

  • – генеральной средней величины изучаемого признака (для многозначного количественного признака);
  • – генеральной доли (для альтернативного признака).

Основным принципом применения выборочного метода является обеспечение равной возможности для всех единиц генеральной совокупности быть отобранными в выборочную совокупность. При таком подходе соблюдается требование случайного, объективного отбора и, следовательно, ошибка выборки определяется прежде всего ее объемом (п ). С увеличением последнего величина средней ошибки уменьшается, характеристики выборочной совокупности приближаются к характеристикам генеральной совокупности.

При одинаковой численности выборочных совокупностей и прочих равных условиях ошибка выборки будет меньше в гой из них, которая отобрана из генеральной совокупности с меньшей вариацией изучаемого признака. Уменьшение вариации признака означает снижение величины дисперсии (– для количественного признака или – для альтернативного признака).

Зависимость величины ошибки выборки от способов формирования выборочной совокупности определяется по формулам средней ошибки выборки (табл. 5.2).

Дополним показатели табл. 5.2 следующими пояснениями.

Выборочная дисперсия несколько меньше генеральной, в математической статистике доказано, что

Таблица 5.2

Формулы расчета средней ошибки выборки мри различных способах отбора

Вид выборки

повторный для

бесповторный для

Собственно

случайная

(простая)

Серийная

(с равновеликими

Типическая (пропорционально объему групп)

Если выборочная совокупность имеет большой объем (т.е. п достаточно велико), то соотношение приближается к единице и выборочная дисперсия практически совпадает с генеральной.

Выборку считают безусловно большой при п > 100 и безусловно малой при п < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Они могут быть рассчитаны по следующим формулам:

где – средняя i -й серии; – общая средняя по всей выборочной совокупности;

где – доля единиц определенной категории в i -й серии; – доля единиц этой категории во всей выборочной совокупности; r – число отобранных серий.

4. Для определения средней ошибки типической выборки в случае отбора единиц пропорционально численности каждой группы в качестве показателя вариации выступает средняя из внутригрупповых дисперсий (– для количественного признака, для альтернативного признака). По правилу сложения дисперсий величина средней из внутригрупповых дисперсий меньше, чем величина общей дисперсии. Значение средней возможной ошибки типической выборки меньше, чем ошибка простой собственно-случайной выборки.

Часто используют комбинированный отбор: индивидуальный отбор единиц сочетают с групповым, типический отбор – с отбором сериями. При любом способе отбора с определенной вероятностью можно утверждать, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превысит некоторую величину, которую называют предельной ошибкой выборки.

Соотношение между пределом ошибки выборки (∆), гарантируемым с некоторой вероятностью F(t), и средней ошибкой выборки имеет вид: или , где t – коэффициент доверия, определяемый в зависимости от уровня вероятности F(t).

Значения функции F(t) и t определяются на основе специально составленных математических таблиц. Приведем некоторые из них, применяемые наиболее часто:

т

Таким образом, предельная ошибка выборки отвечает на вопрос о точности выборки с определенной вероятностью, величина которой зависит от значения коэффициента доверия t. Так, при t = 1 вероятность F(t ) отклонения выборочных характеристик от генеральных на величину однократной средней ошибки равна 0,683. Следовательно, в среднем из каждой 1000 выборок 683 дадут обобщающие показатели (среднюю, долю), которые будут отличаться от генеральных не более чем на величину однократной средней ошибки. При t = 2 вероятность F(t) равна 0,954, это означает, что из каждой 1000 выборок 954 дадут обобщающие показатели, которые будут отличаться от генеральных не более чем на двукратную среднюю ошибку выборки, и т.д.

Наряду с абсолютной величиной предельной ошибки выборки рассчитывают и относительную ошибку, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности:

На практике принято задавать величину ∆, как правило, в пределах 10% предполагаемого среднего уровня признака.

Расчет средней и предельной ошибок выборки позволяет определить пределы, в которых будут находиться характеристики генеральной совокупности:

Пределы, в которых с данной степенью вероятности будет заключена неизвестная величина изучаемого показателя в генеральной совокупности, называют доверительным интервалом, а вероятность F(t) доверительной вероятностью. Чем выше значение ∆, тем больше величина доверительного интервала и, следовательно, ниже точность оценки.

Рассмотрим следующий пример. Для определения среднего размера вклада в банке методом повторной случайной выборки было отобрано 200 валютных счетов вкладчиков. В результате установили, что средний размер вклада – 60 тыс. руб., дисперсия составила 32. При этом 40 счетов оказались до востребования. Необходимо с вероятностью 0,954 определить пределы, в которых находятся средний размер вклада на валютных счетах в банке и доля счетов до востребования.

Рассчитаем среднюю ошибку выборочной средней по формуле для повторного отбора

Предельная ошибка выборочной средней с вероятностью 0,954 составит

Следовательно, средний размер вклада на валютных счетах в банке находится в пределах тыс. руб.:

С вероятностью 0,954 можно утверждать, что средний размер вклада на валютных счетах в банке составляет от 59 200 до 60 800 руб.

Определим долю вкладов до востребования в выборочной совокупности:

Средняя ошибка выборочной доли

Предельная ошибка доли с вероятностью 0,954 составит

Таким образом, доля счетов до востребования в генеральной совокупности находится в пределах w :

С вероятностью 0,954 можно утверждать, что доля счетов до востребования в общем числе валютных счетов в банке составляет от 14,4 до 25,6%.

При конкретных исследованиях важно установить оптимальное соотношение между мерой надежности полученных результатов и величиной допустимой ошибки выборки. В связи с этим при организации выборочного наблюдения возникает вопрос, связанный с определением объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью. Расчет необходимого объема выборки проводится на основе формул предельной ошибки выборки в соответствии с видом и способом отбора (табл. 5.3).

Таблица 5.3

Формулы расчета численности выборки при собственно-случайном способе отбора

Продолжим пример, в котором представлены результаты выборочного обследования лицевых счетов вкладчиков банка.

Требуется установить, сколько необходимо обследовать счетов, чтобы с вероятностью 0,977 ошибка при определении среднего размера вклада не превысила 1,5 тыс. руб. Выразим из формулы предельной ошибки выборки для повторного отбора показатель численности выборки:

При определении необходимого объема выборки по приведенным формулам возникает трудность в нахождении значений σ2 и да, так как эти величины можно получить только после проведения выборочного обследования. В связи с этим вместо фактических значений данных показателей подставляют приближенные, которые могли быть определены на основе каких-либо пробных выборочных наблюдений или из аналитических предыдущих обследований.

В тех случаях, когда статистик знает среднее значение изучаемых признаков (например, из инструкций, законодательных актов и т.п.) или пределы, в которых этот признак варьируется, можно применить следующий расчет по приближенным формулам:

а произведение w(1 – w) заменить значением 0,25 (w = 0,5).

Чтобы получить более точный результат, принимают максимально возможное значение этих показателей. Если распределение признака в генеральной совокупности подчиняется нормальному закону, то размах вариации примерно равен 6σ (крайние значения отстоят в ту и другую сторону от средней на расстоянии 3σ). Отсюда , но если распределение заведомо асимметрично, то .

При любом виде выборки ее объем начинают рассчитывать по формуле повторного отбора

Если в результате расчета доля отбора (n ) превысит 5%, то проводят расчет по формуле бесповторного отбора.

Для типической выборки необходимо общий объем выборочной совокупности разделить между выделенными типами единиц. Расчет числа наблюдений из каждой группы зависит от названных ранее организационных форм типической выборки.

При типическом отборе единиц непропорционально численности групп общее число отбираемых единиц делят на число групп, полученная величина дает численность отбора из каждой типической группы:

где k – число выделенных типических групп.

При отборе единиц пропорционально численности типических групп число наблюдений по каждой группе определяют по формуле

где – объем выборки из i -й группы; – объем i -й группы.

При отборе с учетом вариации признака процент выборки из каждой группы должен быть пропорционален среднему квадратическому отклонению в этой группе (). Расчет численности () производят по формулам

При серийном отборе необходимую численность отбираемых серий определяют так же, как и при собственно-случайном отборе:

Повторный отбор

Бесповторный отбор

При этом дисперсии и ошибки выборки могут быть рассчитаны для средней величины или доли признака.

При использовании выборочного наблюдения характеристика его результатов возможна на основе сопоставления полученных пределов ошибок выборочных показателей с величиной допустимой погрешности.

В связи с этим возникает задача определения вероятности того, что ошибка выборки не превысит допустимой погрешности. Решение этой задачи сводится к расчету на основе формулы предельной ошибки выборки величины t.

Продолжая рассмотрение примера выборочного обследования лицевых счетов клиентов банка, найдем вероятность, с которой можно утверждать, что ошибка при определении среднего размера вклада не превысит 785 руб.:

соответствующая доверительная вероятность составит 0,95.

В настоящее время практика выборочного наблюдения включает статистические наблюдения, осуществляемые:

  • – органами Росстата;
  • – другими министерствами и ведомствами (например, мониторинг предприятий в системе Банка России).

Известное обобщение опыта по организации выборочных обследований малых предприятий, населения и домашних хозяйств представлено в Методологических положениях по статистике. В них дано более широкое понятие выборочного наблюдения, чем это рассмотрено выше (табл. 5.4).

В статистической практике используют все четыре типа выборок, представленных в табл. 5.4. Однако обычно отдают предпочтение описанным выше вероятностным (случайным) выборкам, являющимся наиболее объективными, так как по ним можно оценить точность получаемых результатов по данным самой выборки.

Таблица 5.4

Типы выборок

В выборках квазислучайного типа предполагается наличие вероятностного отбора на том основании, что специалист, рассматривающий выборку, считает его допустимым. Примером использования квазислучайной выборки в статистической практике является "Выборочное обследование малых предприятий по изучению социальных процессов в малом предпринимательстве", проведенное в 1996 г. в некоторых регионах России. Единицы наблюдения (малые предприятия) отбирались экспертно с учетом представительства отраслей экономики из уже сформированной выборки обследования финансово-хозяйственной деятельности малых предприятий (форма "Сведения об основных показателях финансово-хозяйственной деятельности малого предприятия"). При обобщении выборочных данных предполагалось, что выборочная совокупность сформирована методом простого случайного отбора.

Прямое использование суждения эксперта является наиболее общим методом намеренного включения единиц в выборку. Примером такого способа отбора является монографический метод, предполагающий получение информации только от одной единицы наблюдения, являющейся типичной, по мнению организатора обследования – эксперта.

Выборки, сформированные на основе направленного отбора, реализуются с помощью объективной процедуры, но без использования вероятностного механизма. Широко известен метод основного массива, при котором в выборку включают наиболее крупные (существенные) единицы наблюдения, обеспечивающие основной вклад в показатель, например суммарное значение признака, представляющего основную цель обследования.

В статистической практике часто применяют комбинированный метод статистического наблюдения. Сочетание сплошного и выборочного методов наблюдения имеет два аспекта:

  • чередование во времени;
  • одновременное их использование (часть совокупности наблюдают на сплошной основе, а часть – выборочно).

Чередование периодических выборочных со сравнительно редкими сплошными обследованиями или переписями необходимо для уточнения состава исследуемой совокупности. В дальнейшем эту информацию используют как статистическую основу выборочного наблюдения. Примерами могут служить переписи населения и выборочные обследования домашних хозяйств в промежутках времени между их проведениями.

В данном случае требуется решать следующие задачи:

  • – определение состава признаков сплошного наблюдения, обеспечивающих организацию выборки;
  • – обоснование периодов чередования, т.е. когда сплошные данные теряют актуальность и нужны затраты на их обновление.

Одновременное использование в рамках одного обследования сплошного и выборочного наблюдений обусловлено неоднородностью встречающихся в статистической практике совокупностей. В особенности это справедливо для обследований экономической деятельности совокупности предприятий, для которой характерны скошенные распределения изучаемых признаков, когда некоторое число единиц имеет характеристики, сильно отличающиеся от основной массы значений. В этом случае такие единицы наблюдают на сплошной основе, а другую часть совокупности – выборочно.

При данной организации наблюдений основными задачами выступают:

  • – установление их оптимальной пропорции;
  • – разработка способов оценки точности результатов.

Типичным примером, иллюстрирующим данный аспект применения комбинированного метода, является общий принцип проведения обследований совокупности предприятий, в соответствии с которым обследования совокупности крупных и средних предприятий проводят преимущественно сплошным методом, а малых – выборочным.

Дальнейшее развитие методологии выборочного наблюдения осуществляют как в сочетании с организацией сплошного наблюдения, так и через организацию специальных обследований, проведение которых диктуется необходимостью получения дополнительной информации для решения конкретных задач. Так, организация обследований в области условий и уровня жизни населения предусмотрена в двух аспектах:

Обязательными компонентами могут стать ежегодные исследования доходов, расходов и потребления (аналог обследования бюджетов домашних хозяйств), включающие также базовые показатели условий жизни населения. Ежегодно по специальному плану обязательные компоненты должны дополняться единовременными обследованиями (модулями) условий жизни населения, направленными на углубленное изучение какой-либо выбранной социальной темы из их общего числа (например, активы домашних хозяйств, здоровье, питание, образование, условия труда, жилищные условия, досуг, социальная мобильность, безопасность и др.) с различной периодичностью, определяемой потребностью в показателях и ресурсными возможностями.

Ошибка выборки - это объективно возникающее расхождение между характеристиками выборки и генеральной совокупности. Она зависит от ряда факторов: степени вариации изучаемого признака, численности выборки, методом отбора единиц в выборочную совокупность, принятого уровня достоверности результата исследования.

Для репрезентативности выборки важно обеспечить случайность отбора, с тем, чтобы все объекты генеральной совокупности имели равные вероятности попасть в выборку. Для обеспечения репрезентативности выборки применяют следующие способы отбора:

· собственно-случайная (простая случайная) выборка (последовательно отбирается первый случайно попавшийся объект);

· механическая (систематическая) выборка;

· типическая (стратифицированная, расслоенная) выборка (объекты отбираются пропорционально представительству различных типов объектов в генеральной совокупности);

· серийная (гнездовая) выборка.

Отбор единиц в выборочную совокупность может быть повторным или бесповторным. При повторном отборе попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. При бесповторном отборе попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре отбора не участвует

Выборочное наблюдение всегда связано с ошибкой, поскольку число отобранных единиц не равно исходной (генеральной) совокупности. Случайные ошибки выборки обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характеристики будут несколько различаться. Поэтому получаемые случайные ошибки должны быть статистически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка таких ошибок и является основной задачей, решаемой в теории выборочного наблюдения. Обратной задачей является определение такой минимально необходимой численности выборочной совокупности, при которой ошибка не превысит заданной величины. На выработку навыков в решении этих задач и направлен материал данного раздела.

Собственно-случайная выборка . Ее суть заключается в отборе единиц из генеральной совокупности в целом, без разделения ее на группы, подгруппы или серии отдельных единиц. При этом единицы отбираются в случайном порядке, не зависящем ни от последовательности расположения единиц в совокупности, ни от значений их признаков.

После проведения отбора с использованием одного из алгоритмов, реализующих принцип случайности, или на основе таблицы случайных чисел, определяются границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.

Средняя ошибка повторной собственно-случайной выборки определяется по формуле

где σ - среднее квадратическое отклонение изучаемого признака;

n - объем (число единиц) выборочной совокупности.

Предельная ошибка выборки связана с заданным уровнем вероятности. При решении представленных ниже задач требуемая вероятность составляет 0,954 (t = 2) или 0,997 (t = 3). С учетом выбранного уровня вероятности и соответствующего ему значения t предельная ошибка выборки составит:

Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах:

При определении границ генеральной доли при расчете средней ошибки выборки используется дисперсия альтернативного признака, которая вычисляется по следующей формуле:

где w - выборочная доля, т. е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака.

При решении отдельных задач необходимо учитывать, что при неизвестной дисперсии альтернативного признака можно использовать ее максимально возможную величину, равную 0,25.

Пример . В результате выборочного обследования незанятого населения, ищущего работу, проведенного на основе собственно-случайной повторной выборки были получены данные, приведенные в табл. 1.14.

Таблица 1.14

Результаты выборочного обследования незанятого населения

С вероятностью 0,954 определите границы:

а) среднего возраста незанятого населения;

б) доли (удельного веса) лиц, моложе 25 лет, в общей численности незанятого населения.

Решение. Для определения средней ошибки выборки необходимо, прежде всего, определить выборочную среднюю величину и дисперсию изучаемого признака. Для этого, при ручном способе расчета целесообразно построить таблицу 1.15.

Таблица 1.15

Расчет среднего возраста незанятого населения и дисперсии

На основании данных таблицы рассчитываются необходимые показатели:

· выборочная средняя величина:

;

· дисперсия:

· среднеквадратичное отклонение:

.

Средняя ошибка выборки составит:

года.

Определим с вероятностью 0,954 (t = 2) предельную ошибку выборки:

года.

Установим границы генеральной средней: (41,2 - 1,6) (41,2+1,6) или:

Таким образом, на основании проведенного выборочного обследования с вероятностью 0,954 можно заключить, что средний возраст незанятого населения, ищущего работу, лежит в пределах от 40 до 43 лет.

Для ответа на вопрос, поставленный в пункте «б» данного примера, по выборочным данным определим долю лиц в возрасте до 25 лет и рассчитаем дисперсию доли:

Рассчитаем среднюю ошибку выборки:

Предельная ошибка выборки с заданной вероятностью составит:

Определим границы генеральной доли:

Следовательно, с вероятностью 0,954 можно утверждать, что доля лиц в возрасте до 25 лет в общей численности незанятого населения находится в пределах от 3,9 до 1 1,9%.

При расчете средней ошибки собственно-случайной бесповторной выборки необходимо учитывать поправку на бесповторность отбора:

где N - объем (число единиц) генеральной совокупности/

Необходимый объем собственно-случайной повторной выборки определяется по формуле:

Если отбор бесповторный, то формула приобретает следующий вид:

Полученный на основе использования этих формул результат всегда округляется в большую сторону до целого значения.

Пример. Необходимо определить, сколько учащихся первых классов школ района необходимо отобрать в порядке собственно-случайной бесповторной выборки, чтобы с вероятностью 0,997 определить границы среднего роста первоклассников с предельной ошибкой 2 см. Известно, что всего в первых классах школ района обучается 1100 учеников, а дисперсия роста по результатам аналогичного обследования в другом районе составила 24.

Решение. Необходимый объем выборки при уровне вероятности 0,997 (t = 3) составит:

Таким образом, для получения данных о среднем росте первоклассников с заданной точностью необходимо обследовать 52 школьника.

Механическая выборка . Данная выборка заключается в отборе единиц из общего списка единиц генеральной совокупности через равные интервалы в соответствии с установленным процентом отбора. При решении задач на определение средней ошибки механической выборки, а также необходимой ее численности, следует использовать приведенные выше формулы, применяемые при собственно-случайном бесповторном отборе.

Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке - каждая 20-я единица (1:0,05) и т.д.

Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.

Важной особенностью механической выборки является то, что формирование выборочной совокупности можно осуществить, не прибегая к составлению списков. На практике часто используют тот порядок, в котором фактически размещаются единицы генеральной совокупности. Например, последовательность выхода готовых изделий с конвейера или поточной линии, порядок размещения единиц партии товара при хранении, транспортировке, реализации и т.д.

Типическая выборка. Эта выборка применяется в тех случаях, когда единицы генеральной совокупности объединены в несколько крупных типичных групп. Отбор единиц в выборку производится внутри этих групп пропорционально их объему на основе использования собственно-случайной или механической выборки (при наличии необходимой информации отбор также может производиться пропорционально вариации изучаемого признака в группах).

Типическая выборка обычно применяется при изучении сложных статистических совокупностей. Например, при выборочном обследовании производительности труда работников торговли, состоящих из отдельных групп по квалификации.

Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность.

Средняя ошибка типической выборки определяется по формулам:

(повторный отбор);

(бесповторный отбор),

где - средняя из внутригрупповых дисперсией.

Пример . В целях изучения доходов населения по трем районам области сформирована 2%-ная выборка, пропорциональная численности населения этих районов. Полученные результаты представлены в табл. 16.

Таблица 16

Результаты выборочного обследования доходов населения

Необходимо определить границы среднедушевых доходов населения по области в целом при уровне вероятности 0,997.

Решение. Рассчитаем среднюю из внутригрупповых дисперсий:

где N i - объем i -и группы;

n, - объем выборки из /-и группы.

Серийная выборка . Эта выборка используется в тех случаях, когда единицы изучаемой совокупности объединены в небольшие равновеликие группы или серии. Единицей отбора в этом случае является серия. Серии отбираются с использованием собственно-случайной либо механической выборки, а внутри отобранных серий обследуются все без исключения единицы.

В основе расчета средней ошибки серийной выборки лежит межгрупповая дисперсия:

(повторный отбор);

(бесповторный отбор),

где x i - число отобранных i - серий;

R - общее число серий.

Межгрупповую дисперсию при равновеликих группах вычисляют следующим образом:

где х i - средняя i-и серии;

х - общая средняя по всей выборочной совокупности.

Пример . В целях контроля качества комплектующих из партии изделий, упакованных в 50 ящиков по 20 изделий в каждом, была произведена 10%-ная серийная выборка. По попавшим в выборку ящикам среднее отклонение параметров изделия от нормы соответственно составило 9 мм, 11, 12, 8 и 14 мм. С вероятностью 0,954 определите среднее отклонение параметров по всей партии в целом.

Решение. Выборочная средняя:

мм.

Величина межгрупповой дисперсии:

С учетом установленной вероятности Р = 0,954 (t = 2) предельная ошибка выборки составит:

мм.

Произведенные расчеты позволяют заключить, что среднее отклонение параметров всех изделий от нормы находится в следующих границах:

Для определения необходимого объема серийной выборки при заданной предельной ошибке используются следующие формулы:

(повторный отбор);

(безповторный отбор).

Рассмотрим подробно перечисленные выше способы формирования выборочной совокупности и возникающие при этом ошибки репрезентативности.

Собственно-случайная выборка основывается на отборе единиц из генеральной совокупности наугад без каких-либо элементов системности. Технически собственно-случайный отбор проводят методом жеребьевки (например, розыгрыши лотерей) или по таблице случайных чисел.

Собственно-случайный отбор «в чистом виде» в практике выборочного наблюдения применяется редко, но он является исходным среди других видов отбора, в нем реализуются основные принципы выборочного наблюдения. Рассмотрим некоторые вопросы теории выборочного метода и формулы ошибок для простой случайной выборки.

Ошибка выборочного наблюдения - это разность между величиной параметра в генеральной совокупности, и его величиной, вычисленной по результатам выборочного наблюдения. Для средней количественного признака ошибка выборки определяется

Показатель называется предельной ошибкой выборки.

Выборочная средняя является случайной величиной, которая может принимать различные значения в зависимости от того, какие единицы попали в выборку. Следовательно, ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок - среднюю ошибку выборки, которая зависит от:

  • 1) объема выборки: чем больше численность, тем меньше величина средней ошибки;
  • 2) степени изменения изучаемого признака: чем меньше вариация признака, а, следовательно, и дисперсия, тем меньше средняя ошибка выборки.

При случайном повторном отборе средняя ошибка рассчитывается

Практически генеральная дисперсия точно не известна, но в теории вероятности доказано, что

Так как величина при достаточно больших n близка к 1, можно считать, что. Тогда средняя ошибка выборки может быть рассчитана:

Но в случаях малой выборки (при n30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле

При случайной бесповторной выборке приведенные формулы корректируются на величину. Тогда средняя ошибка бесповторной выборки:

Т.к. всегда меньше, то множитель () всегда меньше 1. Это значит, что средняя ошибка при бесповторном отборе всегда меньше, чем при повторном.

Механическая выборка применяется, когда генеральная совокупность каким-либо способом упорядочена (например, списки избирателей по алфавиту, телефонные номера, номера домов, квартир). Отбор единиц осуществляется через определенный интервал, который равен обратному значению процента выборки. Так при 2% выборке отбирается каждая 50 единица =1/0,02 , при 5% каждая 1/0,05=20 единица генеральной совокупности.

Начало отсчета выбирается разными способами: случайным образом, из середины интервала, со сменой начала отсчета. Главное при этом - избежать систематической ошибки. Например, при 5% выборке, если первой единицей выбрана 13-я, то следующие 33, 53, 73 и т.д.

По точности механический отбор близок к собственно-случайной выборке. Поэтому для определения средней ошибки механической выборки используют формулы собственно-случайного отбора.

При типическом отборе обследуемая совокупность предварительно разбивается на однородные, однотипные группы. Например, при обследовании предприятий это могут быть отрасли, подотрасли, при изучении населения - районы, социальные или возрастные группы. Затем осуществляется независимый выбор из каждой группы механическим или собственно-случайным способом.

Типическая выборка дает более точные результаты по сравнению с другими способами. Типизация генеральной совокупности обеспечивает представительство в выборке каждой типологической группы, что позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. Следовательно, при нахождении ошибки типической выборки согласно правилу сложения дисперсий () необходимо учесть лишь среднюю из групповых дисперсий. Тогда средняя ошибка выборки:

при повторном отборе

при бесповторном отборе

где - средняя из внутригрупповых дисперсий в выборке.

Серийный (или гнездовой) отбор применяется в случае, когда генеральная совокупность разбита на серии или группы до начала выборочного обследования. Этими сериями могут быть упаковки готовой продукции, студенческие группы, бригады. Серии для обследования выбираются механическим или собственно-случайным способом, а внутри серии производится сплошное обследование единиц. Поэтому средняя ошибка выборки зависит только от межгрупповой (межсерийной) дисперсии, которая вычисляется по формуле:

где r - число отобранных серий;

Средняя і-той серии.

Средняя ошибка серийной выборки рассчитывается:

при повторном отборе

при бесповторном отборе

где R - общее число серий.

Комбинированный отбор представляет собой сочетание рассмотренных способов отбора.

Средняя ошибка выборки при любом способе отбора зависит главным образом от абсолютной численности выборки и в меньшей степени - от процента выборки. Предположим, что проводится 225 наблюдений в первом случае из генеральной совокупности в 4500 единиц и во втором - в 225000 единиц. Дисперсии в обоих случаях равны 25. Тогда в первом случае при 5 %-ном отборе ошибка выборки составит:

Во втором случае при 0,1 %-ном отборе она будет равна:

Таким образом, при уменьшении процента выборки в 50 раз, ошибка выборки увеличилась незначительно, так как численность выборки не изменилась.

Предположим, что численность выборки увеличили до 625 наблюдений. В этом случае ошибка выборки равна:

Увеличение выборки в 2,8 раза при одной и той же численности генеральной совокупности снижает размеры ошибки выборки более чем в 1,6 раза.

Выборочное наблюдение

Понятие выборочного наблюдения

Выборочный метод используется, когда применение сплошного на­блюдения физически невозможно из-за огромного массива данных или экономически нецелесообразно. Физическая невозможность имеет ме­сто, например, при изучении пассажиропотоков, рыночных цен, семей­ных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением. Например, де­густация, испытание кирпичей на прочность и т.п. Выборочное наблю­дение используется также для проверки результатов сплошного.

Статистические единицы, отобранные для наблюдения, составляют выборочную совокупность или выборку, а весьих массив - генеральную совокупность (ГС). При этом число единиц в выборке обозначают п, во всей ГС – N. Отношение n/N называется относительный размер или доля выборки .

Качество результатов выборочного наблюдения зависит от репре­зентативности выборки, т.е. от того, насколько она представительна в ГС. Для обеспечения репрезентативности вы­борки необходимо соблюдать принцип случайности отбора единиц, который предполагает, что на включение единицы ГС в выборку не может повлиять какой-либо иной фактор кроме случая..

Способы формирования выборки

1. Собственно случайный отбор: все единицы ГС нумеруются, а выпавшие в результате жеребьевки номера соответствуют единицам, попавшим в выборку, причем число номеров равно запланированному объему выборки. На практике вместо жеребьевки используют генераторы случайных чисел. Данный способ отбора может быть повторным (когда каждая единица, отобранная в выборку, после проведения наблюдения возвращается в ГС и может быть вновь подвергнута обследованию) и бесповторным (когда обследованные единицы в ГС не возвращаются и не могут быть обследованы повторно). При повторном отборе вероятность попадания в выборку для каждой единицы ГС остается неизменной, а при бесповторном отборе она меняется (увеличивается), но для оставшихся в ГС после отбора из нее нескольких единиц, вероятность попадания в выборку одинакова.



2. Механический отбор: отбираются единицы генеральной совокупности с постоянным шагом N/п . Так, если она генеральная совокупность содержит 100 тыс.ед., а требуется выбрать 1 тыс.ед., то в выборку попадет каждая сотая единица.

3. Стратифицированный (расслоенным) отбор осуществляется из неоднородной генеральной совокупности, когда ее предварительно разбивают на однородные группы, после чего производят отбор единиц из каждой группы в выборочную совокупность случайный или механическим способом пропорционально их численности в генеральной совокупности.

4. Серий­ный (гнездовой)отбор: случайным или механическим способом вы­бирают не отдельные единицы, а определенные серии (гнезда), внутри которых производится сплошное наблюдение.

Средняя ошибка выборки

После завершения отбора необходимого числа единиц в выборку и регистрации предусмотренных программой наблюдения изучаемых признаков этих единиц, переходят к расчету обобщающих показателей. К ним относят среднюю величину изучаемого признака и долю единиц, обладающих каким-либо значением этого признака. Однако, если ГС произвести несколько выборок, определив при этом их обобщающие характеристики, то можно установить, что их значения будут различными, кроме того, они будут отличаться и от реального их значения в ГС, если такое определить с помощью сплошного наблюдения. Другими словами, обобщающие характеристики, рассчитанные по данным выборки, будут отличаться от их реальных значений в ГС, поэтому введем следующие условные обозначения (табл. 8).

Таблица 8. Условные обозначения

Разность между значением обобщающих характеристик выборочной и генеральной совокупностей называется ошибкой выборки, которая подразделяется на ошибку регистрации и ошибку репрезентативности . Первая возникает из-за неправильных или неточных сведений по причинам непонимания существа вопроса, невнимательно­сти регистратора при заполнении анкет, формуляров и т.п. Она доста­точно легко обнаруживается и устраняется. Вторая возни­кает из-за несоблюдения принципа слу­чайности отбора единиц в выборку. Ее сложнее обнаружить и устранить, она гораздо боль­ше первой и потому ее измерение является основной задачей выборочного наблюдения.

Для измерения ошибки выборки определяется ее средняя ошибка по формуле (39) для повторного отбора и по формуле (40) – для бесповторного:

= ;(39) = . (40)

Из формул (39) и (40) видно, что средняя ошибка меньше у бес­повторной выборки, что и обусловливает ее более широкое применение.