Главная→Сантехника, отопление→Сводка и группировка статистических данных. Группировка статистических данных

Сводка и группировка статистических данных. Группировка статистических данных

Вторичная группировка - это образование новых групп на основе ранее произведенной группировки. Применяют два способа образования новых групп на основе ранее произведенной группировки.

Первый способ состоит в укрупнении первоначальных интервалов. Это наиболее простой и распространенный способ.

Второй способ принято называть методом долевой перегруппировки и состоит в том, что за каждой группой закрепляется определенная доля единиц совокупности. Рассмотрим два способа на примере.

Имеется группировка сотрудников двух управлений одного из московских банков по размеру месячной заработной платы (цифры условные).

Таблица 3.6

Кредитное управление	Валютное управление
№ группы		Число работников, чел.	№ группы	Размер зарплаты, руб. в мес.	Число работников, чел.
	2000 - 2500			2000 - 3000
	2500 - 3000			3000 - 5000
	3000 - 4000			5000 - 7000
	4000 - 5000			7000 и более
	5000 и более			-	-
	Итого			Итого

Приведенные данные не позволяют сравнить распределение работников по размеру месячной заработной платы, так как величины интервалов различны, в связи с этим крайне важно привести эти ряды распределения к сопоставимому виду.

Произведем вторичную группировку, образовав группы с новыми укрупненными интервалами.

Таблица 3.7

При вторичной группировке методом долевой перегруппировки устанавливаем новые интервалы распределения работников по размеру месячной заработной платы, при этом за каждым интервалов закрепляем определенную долю единиц совокупности. В нашем примере одну из группировок (по кредитному управлению) оставляем без изменений. А по валютному управлению производим перегруппировку следующим образом. В первой группе с интервалом от 2000 до 3000 руб. частота равна 2. Применительно к группировке по кредитному управлению данный интервал крайне важно разбить на два равных интервала: от 2000 до 2500 руб. и от 2500 до 3000 руб., при этом исходная частота делится поровну. Следующий интервал от 3000 до 5000 руб. соответственно нужно разделить на два равных интервала: от 3000 до 4000 руб. и от 4000 до 5000 руб., при этом исходная частота делится поровну (6:2 = 3). Последние две группы крайне важно объединить в одну с интервалом 5000 руб. и выше.

Таблица 3.8

№ группы	Размер зарплаты, руб. в мес.	Кредитное число управления работников	Валютное число управления работников
чел.	в % к итогу	чел.	в % к итогу
	2000 - 2500		8,33	3,33
	2500 - 3000		16,67	3,33
	3000 - 4000		25,00	10,00
	4000 - 5000		33,33	10,00
	5000 и выше		16,67	73,34
	Итого		100,00	100,00

Контрольные вопросы

(выберите правильный ответ)

1. Статистическая сводка включает в себя:

а) только подсчет итогов в данных;

б) группировку данных и подсчет итогов;

в) группировку данных, подсчет итогов и расчет обобщающих показателей.

2. Группировка, в которой изучается структура совокупности, принято называть:

а) типологической; б) структурной; в) аналитической.

3. Группировочный признак может быть:

а) количественный;

б) качественный;

в) и количественный, и качественный.

4. Величина интервала определяется:

а) верхней границей интервала;

б) нижней границей интервала;

в) разностью верхней и нижней границ.

5. Вариационный ряд распределения строится:

а) по качественному признаку;

б) по количественному признаку.

6. Частоты - это:

а) абсолютные числа;

б) относительные числа.

7. Частости - это:

а) абсолютные числа;

б) относительные числа.

8. В дискретном вариационном ряду значения признака выражены:

а) в виде чисел;

б) в виде интервалов.

9. Интервальный вариационный ряд графически изображается в виде:

а) полигона распределения;

б) гистограммы;

в) кумуляты.

10. Вторичная группировка осуществляется методом:

а) уменьшения интервалов;

б) укрупнения интервалов;

в) и уменьшения, и укрупнения интервалов;

г) долевой перегруппировки.

Аналитическая группировка

Аналитические – такие группировки, которые применяются для исследования взаимосвязей между явлениями. Для проведения аналитической группировки нужно определить факторный и результативный признак.

Факторные – это те признаки, которые оказывают влияние на другие связанные с ними признаки.

Результативные – это признаки, которые изменяются под влиянием факторных.

Аналитические группировки позволяют изучить многообразие связей и зависимостей между варьирующими признаками. Чтобы исследовать взаимосвязь между признаками, производится группировка единиц совокупности по факторному признаку. В каждой группе вычисляется среднее значение результативного признака. Изменение признака от группы к группе под влиянием факторного будет говорить о наличии или отсутствии связи между факторами.

Группировки, построенные за один и тот же период времени, но для разных регионов или, наоборот, для одного региона, но за два разных периода, могут оказаться несопоставимыми из-за различного числа групп или неодинаковости границ интервалов. Для того, чтобы привести такие группировки к сопоставимому виду (это позволяет провести их сравнительный анализ), используется метод вторичной группировки.

Вторичная группировка – операция по образованию новых групп на основе ранее осуществленной группировки.

Применяют два способа образования новых групп. Первым, наиболее простым и распространенным способом является объединение первоначальных интервалов. Он используется в случае перехода от мелких к более крупным интервалам и когда границы новых и старых интервалов совпадают. Второй способ получил название долевой перегруппировки и состоит в образовании новых групп на основе закрепления за каждой группой определенной доли единиц совокупности. Этот способ употребляется, когда необходимо в ходе перегруппировки данных определить, какая часть (доля) единиц совокупности перейдет из старых групп в новые.

Рассмотрим первый способ проведения вторичной группировки.

Пример1 Пусть даны две группировки кредитов по сроку выдачи за ноябрь и декабрь (таблица 3.1, таблица 3.2).

Таблица 3.1руппировка кредитов коммерческих банков по сроку выдачи, ноябрь 2011 г. (данные условные)

Таблица 3.2 – Группировка кредитов коммерческих банков по сроку выдачи, декабрь 2011г. (данные условные)

Для удобства сравнения группировки ноябрьских и декабрьских кредитов произведем вторичную группировку ноябрьских кредитов, приняв за основу группировку декабрьских кредитов. Составим таблицу 3.3.

Таблица 3.3 – Группировка кредитов коммерческих банков по сроку выдачи, ноябрь-декабрь 2011 г. (данные условные)

Теперь можно сравнить группировки ноябрьских и декабрьских кредитов. Доля заключенных договоров по краткосрочным кредитам снизилась почти на 11 процентных пунктов, доля среднесрочных кредитов осталась без изменения, а количество долгосрочных кредитов в анализируемом периоде значительно выросло. Несмотря на эти изменения, в декабре так же, как и в ноябре, в структуре суммы выданных кредитов преобладающую долю занимали краткосрочные кредиты, затем следовали среднесрочные, а на последнем месте – долгосрочные кредиты. Для решения данного примера использовали метод объединения первоначальных интервалов.

Пример2 Имеются данные о структуре колхозов по числу дворов. Исходные данные не позволяют произвести сравнительный анализ структуры, так как в разных районах имеется разное число групп.

Структура колхозов по числу дворов

1 район	2 район
№ группы		Уд. вес колхозов, %	№ группы	Группы колхозов по числу дворов	Уд. вес колхозов, %

	До 100	4,3		До 50	1,0
	100-200	18,3		50-70	1,0

	200-300	19,5		70-100	2,0
	300-500	28,2		100-150	10,0
	свыше 500	29,7		150-250	18,0
				250-400	21,0
				400-500	23,0
				свыше 500	24,0
ИТОГО		100,0			100,0

Проведем вторичную группировку колхозов второго района, приняв за основу группировку первого района, используя метод долевой перегруппировки (таблица 3.5).Таблица 3.5 – Вторичная группировка

Поясним расчеты. В первую, вновь образованную группу колхозов второго района с числом дворов до 100 войдут первые три группы колхозов, удельный вес которых равен 4% (1+1+2).Теперь надо образовать вторую группу колхозов с числом дворов от 100 до 200. В нее входит четвертая группа колхозов с числом дворов от 100 до 150, составляющая 10% общего числа колхозов, а также часть пятой группы, из которой должны перейти 50 дворов. Для определения числа колхозов, которые надо взять из пятой группы во вновь образованную, условно принимается, что оно должно быть пропорционально удельному весу отобранных дворов. Удельный вес 50 дворов в пятой группе равен: , или 50%.

Следовательно, в новую группу надо взять половину колхозов из пятой группы: .

Таким образом, удельный вес колхозов новой группы с числом дворов 100–200 составит 19% (10+9).

При формировании группы колхозов с числом дворов 200 – 300 видно, что в нее войдет часть пятой группы с удельным весом колхозов 9% и часть шестой группы, из которой надо добавить в третью группу 50 дворов, пропорционально которым должно быть отобрано из этой группы 7% колхозов: .Тогда группа колхозов с числом дворов 200–300 составит 16% (9+7).

Аналогично производится расчет при образовании других групп. Если наряду с удельными весами имеются абсолютные значения показателей по группам, то все расчеты показателей по вновь образованным группам ведутся в тех же соотношениях, что и численность распределения единиц. Таким образом, сравнивая оба района по числу дворов в колхозах, видно, что во втором районе оно было более дифференцировано, чем в первом районе.

Вопрос 10. Вторичная группировка, методы ее проведения.

Группировка - это расчленение изучаемой статистической совокупности на части по одному или нескольким группировочным признакам. Правильно проведенная группировка в значительной мере обеспечивает достоверность всего статистического исследования.

Первичная группировка производится на основе сортировки первичных исходных данных.

Группировки, построенные за один и тот же период времени, но для разных регионов или, наоборот, для одного региона, но за два разных периода времени, могут оказаться несопоставимыми из-за различного числа выделенных групп или неодинаковости границ интервалов. В таком случае необходима перегруппировка данных с помощью вторичной группировки.

Вторичная группировка - операция по образованию новых групп на основе ранее осуществленной группировки.

Применяют два способа образования новых групп.

1. наиболее простой и распространенный способ - изменение (чаще укрупнение) первоначальных интервалов.

2. Д олевая перегруппировка - способ состоит в образовании новых групп на основе закрепления за каждой группой определенной доли единиц совокупности.

Пример. Необходимо провести перегруппировку данных, образовав новые группы с интервалами до 500, 500 - 1000,1000 - 2000, 2000 - 3000, свыше 3000 руб. по данным о распределении контрактов строительной фирмы по величине прибыли.

Таблица. Распределение контрактов строительной фирмы по величине прибыли¹

В первую новую группу войдет полностью 1-я группа контрактов и часть 2-й группы. Чтобы образовать группу до 500 тыс. руб., необходимо от интервала 2-й группы взять 100 тыс. руб. Величина интервала этой группы составит 600 тыс. руб. Следовательно, необходимо взять от нее 1/6 (100: 600).Аналогичную же часть во вновь образуемую новую группу надо взять и от числа контрактов, т. е. 20 1/6 - 3 контракта. Тогда в 1-й группе будет контрактов 16 + 3 = 19 контрактов. Вторую новую группу образуют контракты 2-й группы за вычетом отнесенных к 1-й, т. е, 20 - 3 = 17 ед. Во вновь образованную третью группу войдут все контракты 3-й группы и часть контрактов 4-й. Для определения этой части от интервала 1800 -3000 (ширина интервала равна 1200 тыс. руб.) нужно добавить к предыдущему 200 тыс. руб. (чтобы верхняя граница интервала была равна 2000 руб.). Следовательно, необходимо взять часть интервала, равную 200:1200, т. е. 1/6. В этой группе 74 контракта, значит, надо взять 74 ¦ (1: 6) = 12 ед. В третью новую группу войдет: 44 Н-12 - 56 контрактов. Во вновь образованную четвертую группу войдет: 74 - 12 =62 контракта, оставшихся от прежней 4-й группы. Пятую, вновь образованную группу составят контракты 5-й и б-й прежних групп: 37 + 9 = 46 контрактов. Техника перегруппировки показана в таблице.

Цель: сформировать знания о методах классификации и систематизации первичных данных и способах расчета обобщающих характеристик объекта исследования.

Задачи:

Раскрыть понятия статистической сводки и группировки, показать этапы их выполнения;

Обобщить приемы построения группировок, определить значение разных видов группировок для цели систематизации данных;

Показать основные принципы построения статистических таблиц;

Раскрыть понятие ряда распределения, представить основные показатели распределения и правила построения графиков.

Статистические методы классификации и группировки

Статистическая сводка - это процесс обобщения первичных данных о каждой единице исследуемой совокупности, полученных в ходе статистического наблюдения, с целью выявления типичных черт и закономерностей изучаемого явления/процесса в целом.

Эта задача реализуется путем подсчета итогов по отдельным частям совокупности (группам) и по совокупности в целом, результатом чего является получение системы статистических показателей.

Таким образом, процесс сведения статистических данных разбивается на следующие этапы:

1. Группировка статистических данных;

2. Расчет системы показателей;

3. Табличное и графическое представление результатов.

Комплекс вышеописанных операций иногда называют сложной сводкой. При этом под простой сводкой понимается набор операции по подсчету общих итогов.

Для корректного проведения всех этапов сводки их должен предварять всесторонний теоретический анализ изучаемого явления/процесса.

Массовые явления/процессы, являющиеся предметом изучения статистики, состоят из множества отдельных фактов, каждый из которых обладает как общими признаками, так и широким спектром индивидуальных характеристик. Именно различия свойств отдельных единиц наблюдения обуславливают необходимость их группирования.

Как этап построения статистической сводки, группировка является важнейшим и при этом одним из самых сложных статистических методов, определяющим корректность последующих расчетов и выводов.

Статистическая группировка - это процесс разбиения множества единиц исследуемой совокупности на части по определенным существенным для них признакам с целью получения качественно однородных (в определенном отношении) групп.

Технически процесс группирования статистических данных состоит из следующих этапов :

1. Выбор группировочного признака;

2. Ранжирование совокупности по выбранному группировочному признаку;

3. Определение числа групп;

4. Определение величины интервала;

5. Распределение единиц совокупности по образованным группам.

Группировочный признак , или основание группировки, - это существенный теоретически обоснованный признак, по которому отдельные единицы исследуемой совокупности разбиваются на группы.

Выбор основания группировки определяется целью статистического исследования. Существенность признака означает, что он отражает наиболее характерные черты исследуемого явления в конкретных условиях места и времени. Таким образом, группировочный признак может быть выбран только в результате теоретического анализа.

Основанием группировки могут служить как качественные, так и количественные признаки. Качественные (атрибутивные) признаки отражают состояние единицы наблюдения (например, пол человека, отрасль экономики , форма собственности предприятия и т.д). Количественные признаки имеют числовое выражение (например, курс валют, возраст человека, денежный доход семьи и т.д.).

Количественные признаки, в свою очередь, могут быть дискретными и непрерывными. Дискретные показатели принимают ограниченное число возможных значений, между которыми промежуточных быть не может (например, число детей в семье, число комнат в квартире, число туристических поездок и т.д.). Непрерывные показатели, получаемые обычно в результате измерений и вычислений, могут принимать бесконечное множество значений, т.е. между отдельными значениями непрерывного показателя возможны промежуточные (например, масса продукта, рост человека и т.д.).

При этом важно учитывать, что в процессе статистического наблюдения дискретные признаки часто ведут себя как непрерывные и наоборот. Так, дискретный признак «число жителей» в процессе наблюдения и регистрации на определенный момент тут же меняется, поэтому в справочнике приводится усредненная и округленная информация. Или обратная ситуация, когда непрерывный по сути признак, результат какой-либо операции, фиксируется на определенный момент.

Группировка, в основание которой положен один признак, называется простой . Однако, сложность социально-экономических явлений может потребовать изучения структуры совокупности одновременно по нескольким признакам, взятым в комбинации (например, исследование возрастно-половой структуры населения). Тогда речь идет о сложной группировке .

При построении сложной группировки следует учитывать, что с возрастанием числа группировочных признаков резко увеличивается количество групп. Это, в свою очередь, снижает наглядность итоговой группировки и статистическую устойчивость рассчитываемых показателей.

Сложные группировки могут быть комбинационными и многомерными.

Технически построение комбинационной группировки заключается в последовательном распределении на группы по одному признаку, затем каждой группы на подгруппы по другому признаку и т.д. Как правило, начинают с атрибутивного признака, группы которого качественно различаются между собой. В таблице представлена комбинационная группировка населения по полу и возрасту.

Из таблицы, что при почти одинаковом распределении мужчин и женщин по возрастным группам дошкольного, школьного и трудоспособного возрастов происходит резкое снижение численности мужчин старше трудоспособного возраста по сравнению с женщинами. В основном за счет этой возрастной группы общая численность женского населения превосходит численность мужского.

Таблица

Распределение населения по полу и возрасту в 2008 году

№ п/п	Группы населения по полу	В том числе подгруппы населения по возрасту	Численность, тыс. человек
	Мужчины	в возрасте 0-6 лет	5 184,8
в возрасте 7-15 лет	6 336,2
трудоспособного возраста	45 928,7
	8 267,4
ИТОГО по группе	65 717,1
	Женщины	в возрасте 0-6 лет	4 918,5
в возрасте 7-15 лет	6 057,9
трудоспособного возраста	43 822,9
старше трудоспособного возраста	21 492,5
ИТОГО по группе	76 291,8
	ИТОГО по подгруппам	в возрасте 0-6 лет	10 103,3
в возрасте 7-15 лет	12 394,1
трудоспособного возраста	89 751,6
старше трудоспособного возраста	29 759,9
ВСЕГО	142 008,9

Многомерная группировка строится не последовательно, а одновременно по большому числу признаков с целью формирования качественно однородных групп на основе определенной процедуры оценки близости объектов.

Классификация - это стандартная или нормативная группировка, которая заключается в разбиении отдельных явлений на группы, классы, разряды, секции, виды и т.д. на основании их сходства и различия. Основными отличительными особенностями классификации являются следующие. Во-первых, основанием классификации является качественный признак. Во-вторых, разбиение на классы носит общепринятый стандартный характер и не зависит от целей исследования.

В-третьих, классификации устойчивы, т.е. не изменяются в течение длительного периода времени (изменения происходят лишь с появлением новых классов, разрядов и т.д.). Федеральной службой государственной статистики России (Росстат) ведутся несколько классификаторов (кодированных перечней объектов). Например, макроэкономическая статистика использует классификацию видов экономической деятельности, статистика труда - классификацию профессий и др.

После определения основания группировки проводится ранжирование исследуемой статистической совокупности по группировочному признаку, т.е. все единицы наблюдения располагаются по возрастанию или убыванию значений выбранного признака.

Число групп определяется следующими факторами: задачами исследования, основанием группировки, численностью совокупности, степенью вариации (изменчивости) признака.

В зависимости от цели исследования одна и та же совокупность может быть разбита на разное число групп.

Например, группировка студентов по результатам экзаменационной сессии может быть произведена по двум группам, если задача исследования - выявление успевающих и не успевающих по какому-то предмету; по трем группам, если задача состоит в выявлении неуспевающих, получивших «удовлетворительно» и успевающих на «хорошо» и «отлично» и т.д.

На число выделенных групп влияет и выбранный группировочный признак.

Так, если основанием группировки является качественный признак, то количество групп определяется числом градаций, видов, состояний этого признака. Например, группировка населения по полу (качественный признак) может быть произведена только по двум группам: мужчины и женщины; группировка количества выездов за границу по целям поездки - по пяти группам: служебная, туризм, частная, транзит, обслуживающий персонал и т.д.

Группировка, построенная по количественному признаку, может быть дискретной и интервальной. В дискретной группировке каждая группа представляет собой конкретное значение признака, в интервальной - интервал возможных значений.

Это деление может не соответствовать характеру группируемого количественного признака (дискретный или непрерывный). Дискретный признак может быть сгруппирован интервально, если число его возможных градаций слишком велико для выделения их всех в отдельные группы. Например, при группировке взрослых людей по размеру обуви понадобилось бы минимум 13 групп (размеры с 33 по 45).

В данном случае желательно объединять, например, по два размера в группу, формируя, таким образом, интервальную группировку. Если число возможных значений дискретного признака невелико, то итоговая группировка может быть идеально однородной по данному признаку (например, группировка семей по числу детей). При построении интервальной группировки создаваемые группы будут лишь более-менее однородны.

В таблице представлена дискретная группировка домашних хозяйств по признаку «число детей». Из таблицы видно, что с ростом количества детей в семье происходит перераспределение доли домашних хозяйств с увеличением числа тех, чьи субъективные оценки своих жилищных условий отрицательны. Одновременно с этим, во всех группах по числу детей более половины домохозяйств характеризуют свои жилищные условия лишь как «удовлетворительные».

В таблице представлена интервальная группировка легковых автомобилей по признаку «возраст». Из таблицы видно, что за 2006-7 годы произошло незначительное перераспределение доли машин «среднего возраста» в пользу более «молодых» автомобилей. При этом доля «старых» машин осталась практически без изменений, составляя при этом чуть менее половины всего парка.

Распределение домашних хозяйств, имеющих детей в возрасте до 16 лет, по степени удовлетворенности своими жилищными условиями в 2007 г. (в процентах от общего числа домашних хозяйств соответствующей категории)

1) по материалам статистического сборника «Социальное положение и уровень жизни населения России. 2008»

Возрастная структура парка легковых автомобилей в 2006 -2007г. (на конец года, в процентах к итогу) 1

1) по материалам статистического сборника «Социальное положение и уровень жизни населения России. 2008»

Определение числа групп для количественного признака зависит от степени однородности статистической совокупности.

Если исходная совокупность качественно разнородна, то при построении группировки по количественному признаку границы групп определяются там, где количество переходит в новое качество.

Если исследуемая совокупность качественно однородна, то решающее значение для определения количества групп имеют численность совокупности и уровень колеблемости группировочного признака. Итоговым критерием при этом является получение максимально однородных при этом достаточно наполненных групп.

Каждая образованная группа должна быть «обеспечена» достаточным количеством наблюдений, так как погашение случайного и выявление общего, существенного для исследуемого явления/процесса происходит лишь при расчетах по достаточно большим группам. Показатели же, исчисленные по малочисленным группам, не будут корректными и устойчивыми.

При прочих равных условиях, чем больше степень изменчивости признака, тем больше следует образовывать групп, так как это будет способствовать более точному описанию характера изучаемого объекта/процесса. Однако, слишком большое число групп затрудняет выявление закономерностей и автоматически приводит к тому, что в каждую группу попадет меньшее число наблюдений, что снизит статистическую устойчивость рассчитанных впоследствии показателей.

Приемы построения группировок.

Для определения количества групп могут быть использованы стандартные статистические процедуры. Наиболее распространенная из них основана на использовании формулы американского ученого Стерджесса :

Ограничением формулы Стерджесса является необходимость большого числа наблюдений и близости распределения группировочного признака к нормальному.

После определения числа групп формируются интервалы группировки - значения признака, лежащие в определенных границах.

Величина интервала - это разница между верхней и нижней границами интервала, т.е. максимальным и минимальным значениями соответственно.

Обозначение границ интервалов зависит от характера группируемого признака. Если в основание группировки положен непрерывный признак, то верхняя граница i -го интервала совпадает с нижней границей i+1 -го. Если же группируется дискретный признак, то нижняя граница i+1 -го интервала равна верхней границе i -го плюс 1. В таблице представлены границы групп при распределении людей по возрасту. В варианте I возраст понимается как непрерывная величина, а в варианте II - как дискретная. В этом примере в обоих случаях ширина интервалов одинакова и равна 10 годам.

Варианты построения групп для признака «возраст»

По наличию границ различают открытые и закрытые интервалы. Открытыми называются интервалы, для которых определена только одна граница: верхняя (если интервал первый) или нижняя (если интервал последний). В закрытых интервалах определены обе границы.

Для последующих расчетов величина открытого интервала принимается равной величине интервала, смежного с ним. Так, в варианте I таблицы величина первого интервала принимается равной величине второго, а последнего - величине предпоследнего, т.е. десяти годам.

Если по данному правилу получается, что открытый интервал начинает включать в себя теоретически невозможные значения, то его ширина должна определяться логикой явления/процесса. Например, в таблице величина второго интервала равна четырем минутам. В этом случае величина открытого интервала не может быть равна также четырем минутам, так как это означало бы, что нижняя граница первого интервала была бы отрицательна, что применительно к временной характеристике невозможно. Значит, в качестве первого интервала логично принять диапазон от нуля до трех минут.

Группировка операторов диспетчерской по среднему времени обработки заказа (цифры условные)

При формировании границ по представленному в варианте I таблицы типу необходимо определиться, к каким группам относятся единицы наблюдения, значения признака у которых совпадают с граничными. Для этого определяют, какая из границ, нижняя или верхняя, будет формироваться по принципу «включительно», а какая - по принципу «исключительно». Выбранный подход должен быть реализован одинаково для всех интервалов. Для определенности могут также использоваться открытые интервалы. В нашем примере нижняя граница формируется по принципу «включительно», а верхняя, соответственно, - «исключительно».

По величине интервала различают равноинтервальные (величина интервала одинакова для всех групп) и неравноинтервальные (величина интервала разнится от группы к группе) группировки. Неравноинтервальные группировки, в свою очередь, подразделяют на прогрессивно возрастающие/убывающие, равнонаполненные, специализированные и произвольные.

Если изучаемый признак варьирует в сравнительно узких границах и его распределение более или менее равномерно, то целесообразно строить группировку с равными интервалами. Величина интервала при этом определяется по формуле:

При определении размаха вариации важно, чтобы максимальное и/или минимальное значения не были в определенном смысле «аномальными», т.е. сильно отличающимися от смежных с ними значений признака. В противном случае следует определять разницу значений, которые несколько больше минимального и меньше максимального.

Если полученное значение величины интервала требует округления, то оно должно производиться в большую, а не в меньшую сторону, иначе часть наблюдений может не попасть и итоговую группировку.

Например, пусть статистическая совокупность состоит из 40 туристических компаний, показатели выручки которых варьируют от 50 млн.долл до 650 млн.долл, что является, соответственно, минимальным и максимальным значениями признака. Тогда по формуле Стерджесса получаем: . Величина интервала для построения равноинтервальной группировки определяется следующим образом: (млн.долл.). Таким образом, совокупность компаний будет разделена по показателю выручки на шесть равных групп: , , , , , (млн.долл.).

Хотя группировки с равными интервалами предпочтительнее ввиду простоты их последующей обработки, характер изменения большинства социально-экономических явлений не отвечает требованиям, предъявляемым к равноинтервальной группировке. Если исследуемый признак варьирует значительно и неравномерно, возникает необходимость строить неравноинтервальную группировку.

Один из возможных подходов к формированию границ групп основан на использовании арифметической или геометрической прогрессии. В этом случае величина интервалов определяется формулами соответственно.

Данный подход к определению величины интервалов может быть использован, например, при группировке городов по числу жителей. Невозможность построения равноинтервальной группировки в данном случае связана с большим количеством малонаселенных городов и незначительным числом «городов-миллионников».

Как правило, при исследовании выручки по результатам деятельности компании любой отрасли «прогрессивный» подход оказывается более целесообразным, чем формирование равных интервалов. Это продиктовано тем, что число малых предприятий с небольшой выручкой значительно превышает число крупных предприятий с высокими показателями.

Описанные выше технические способы определения величины интервалов не гарантируют, что не появятся группы малочисленные или вообще «пустые», в которые не попало ни одно наблюдение. Если это произошло, необходимо изменить число групп и/или величины интервалов, так как подобная группировка является некорректной.

Для обеспечения статистической устойчивости показателей, исчисляемых для отдельных групп, может использоваться равнонаполненная группировка, в которой число наблюдений в каждой группе примерно одинаковое и определяется по формуле:

Если полученное n не целое и/или в совокупности есть повторяющиеся значения признака, то число наблюдений в каждой группе может различаться. При этом надо стремиться к тому, чтобы эти различия были незначительны.

Если для реализации задач исследования необходимо устанавливать границы групп там, где количество переходит в новое качество, пользуются специализированными интервалами. Так, в группировке населения по возрасту для оценки трудовых ресурсов границы групп возрастов могут устанавливаться согласно категориям: моложе трудоспособного возраста (до 16 лет), трудоспособный возраст (для женщин с 16 до 54 лет, для мужчин с 16 до 59 лет) и старше трудоспособного возраста (для женщин старше 54 лет, для мужчин старше 59 лет).

Границы групп могут определяться и произвольно, когда ни один из вышеописанных методов не дал хороших результатов.

Заключительным этапом построения группировки является разделение единиц исследуемой статистической совокупности на группы по выбранному (одному или нескольким) группировочному признаку.

Задачи группировки. Типологические, структурные, аналитические и комбинационные группировки.

Метод группировок позволяет решить следующие задачи :

1. Выделение социально-экономических типов явлений;

2. Изучение структуры явления и структурных сдвигов в нем;

3. Выявление связи и зависимости между явлениями.

В зависимости от решаемых задач различают следующие виды группировок: типологическая, структурная, аналитическая группировки.

Типологическая группировка - это процесс разбиения изучаемой качественно разнородной совокупности на однородные группы, характеризующие социально-экономические типы явления.

Являясь, по сути, классификацией, типологические группировки обычно строятся на первом этапе обобщения первичной статистической информации, которая чаще всего неоднородна. При этом важно понимать, что в зависимости от цели исследования одна и та же совокупность может быть качественно однородной и неоднородной. Например, совокупность промышленных предприятий однородна для целей оценки каких-либо производственных характеристик и неоднородна для оценки налогообложения, так как в последнее зависит от формы собственности, от наличия льгот и т.д.

Примерами типологических группировок являются группировки населения по общественным группам, предприятий по форме собственности, видам экономической деятельности и др.

Изучение существующих типов социально-экономического явления в динамике позволяет выявить изменения в соотношениях между ними, появление новых типов или отмирание старых.

При построении типологической группировки идентификация типов исследуемого социально-экономического явления должна основываться на его всестороннем теоретическом анализе, что зачастую представляет большую сложность из-за нечетких различий между типами.

Типологическая группировка может иметь в основе как качественный, так и количественный признак. При этом установление границ интервалов не может быть произвольным, а определяется точками перехода от одного типа к другому, т.е. являются специализированными.

Типологическая группировка представлена в таблице. В данном примере в признаке «форма собственности» выделено пять групп (видов). Анализ показателя среднегодовой численности занятых в динамике позволяет проследить зарождение нового вида явления. Видно, что в 1980 году многих форм собственности не существовало, а, начиная с 1990 года, происходит значительное снижение числа занятых в государственных и муниципальных образованиях при одновременном росте занятых в частной сфере и компаниях, находящихся в иностранной и совместной собственности. Так как при этом общее число занятых снизилось не сильно, можно сделать вывод, что такие изменения произошли вследствие «перехода» занятых из одной сферы в другую.

Среднегодовая численность занятых в экономике по формам собственности (тысяч человек)

Структурная группировка - это процесс разбиения качественно однородной совокупности на группы, характеризующие структуру изучаемого явления по какому-либо варьирующему признаку.

Примерами структурных группировок являются группировки населения по возрасту, месту проживания; предприятий по численности занятых, стоимости основных фондов и др.

Изучение структуры социально-экономического явления предполагает анализ не только его составных частей, но и соотношений между ними и изменений в этих соотношениях с течением времени.

Основное требование к формируемым группам при образовании структурной группировки заключается в недопущении выделения «пустых» и малочисленных интервалов. При этом допускается, что первая и последняя группы могут содержать незначительное число наблюдений. Если же такие «провалы» встречаются в срединных интервалах, чаще всего это говорит о том, что произошло смешение разных типов явления и исходная совокупность качественно неоднородна.

Структурная группировка позволяет делать выводы о том, какие значения в исследуемой совокупности встречаются чаще всего, какие - реже всего; каков характер изменения структуры совокупности в целом (равномерный или неравномерный).

Структурная группировка представлена в таблице. Данные группировки показывают, что в 2005 году более 49% населения имело среднедушевой доход ниже 6000 руб. в месяц, а оставшиеся чуть более 50% практически равномерно распределялись по четырем доходным группам от 6000 до 20000 руб. в месяц.

Следующие три года демонстрируют некоторое перераспределение долей населения из малообеспеченных групп в пользу «среднего класса» и появление групп более высоких доходов. Однако, окончательный вывод по этим данным сделать нельзя, так как величина среднедушевого денежного дохода здесь представлена в номинальном выражении, т.е. не скорректирована на индекс потребительских цен. Таким образом, для анализа необходимо сопоставить эти данные с реальными доходами населения.

Распределение населения по величине среднедушевого денежного дохода (в процентах) 1


Все население в том числе со среднедушевыми денежными доходами, руб. в месяц:
до 4000,0	28,9	20,5	14,3	9,8
4000,1-6000,0	20,3	17,7	14,8	12,0
6000,1-8000,0	14,9	14,7	13,6	12,1
8000,1-10000,0	10,3	11,2	11,3	10,9
10000,1-15000,0	13,9	17,1	19,1	20,1
15000,1-20000,0	11,7	8,4	10,6	12,4
20000,1-30000,0	...	10,4	9,6	12,4
свыше 30000,0	...	...	6,7	10,3

Аналитическая группировка - это группировка, позволяющая выявить наличие взаимосвязи между различными признаками изучаемого явления и направление этой связи.

Процесс построения аналитической группировки предполагает разделение всех признаков изучаемой совокупности на две группы: факторные, которые влияют на остальные признаки, и результативные, которые изменяются под этим влиянием.

В отличие от других статистических методов анализа взаимосвязи к аналитическим группировкам предъявляется только одно требование - качественная однородность совокупности.

В зависимости от глубины исследования взаимосвязей могут быть построены собственно аналитическая группировка, комбинационная группировка и многомерная группировка.

Построение собственно аналитической группировки заключается в разбиении качественно однородной совокупности на группы по факторному признаку и подсчетом соответственно этим группам среднего значения одного или нескольких результативных признаков с целью выявления между ними взаимосвязи и определения ее направления. При группировании факторного признака стараются сформировать равные или равнонаполненные интервалы.

Систематический рост или снижение среднего значения результативного признака в результате возрастания значений факторного подтверждает наличие между ними прямой или обратной связи соответственно. Бессистемное изменение среднего значения результирующего признака свидетельствует об отсутствии связи с данным фактором.

Комбинационная группировка позволяет более детально оценить зависимость между признаками и направление этой связи. Построение комбинационной группировки для описания связи двух признаков заключается в последовательном разделении групп факторного признака на подгруппы результативного. Желательно, чтобы интервалы формируемых групп были равными или равнонаполненными.

Для оценки наличия и направления связи анализируются максимальные по столбцам или по строкам частоты. Если они располагаются вдоль диагонали, идущей от левого верхнего угла к правому нижнему, то связь между признаками прямая и близкая к линейной. Если максимальные частоты находятся на противоположной диагонали (от правого верхнего угла к левому нижнему), то связь обратная и близкая к линейной. Если же расположение максимальных частот хаотично, связи между признаками нет.

Многомерные группировки позволяют оценить разнонаправленные взаимосвязи большого числа признаков.

Группировки, построенные для разных субъектов за один период времени или для одного субъекта в динамике, позволяют провести анализ изменения характеристик исследуемого явления в различных условиях места и времени соответственно. При этом для целей сравнения группировки должны быть приведены к сопоставимому виду. Эта задача решается с помощью метода вторичной группировки . При этом данный метод снимает проблему сопоставимости лишь в части различий в числе групп и величине интервалов и не касается вопроса сопоставимости исходных данных и процедуры наблюдения.

В отличие от первичной группировки , формирующейся на основе первичных данных, материалом для вторичной служит ранее осуществленная группировка.

Таким образом, вторичная группировка - это процесс перегруппирования уже имеющейся группировки, т.е. создание на ее основе новых групп.

Технически вторичная группировка может быть осуществлена одним из двух способов: объединением первоначальных интервалов или долевой перегруппировкой.

Объединение первоначальных интервалов используется при переходе от более мелких к крупным интервалам, если при этом новые границы совпадают со старыми.

Долевая перегруппировка используется, если для отнесения к той или иной группе в новых границах необходимо определить, какая часть единиц совокупности перейдет из старых групп в новые. Технически долевая перегруппировка заключается в закреплении за каждой группой определенной доли единиц совокупности и распределении этой доли по новым границам при допущении о том, что распределение единиц совокупности внутри каждой группы равномерное.

Статистические таблицы. Их виды и принципы построения.

На втором этапе сведения данных переходят к подсчету итогов по группам и совокупности в целом. Предварительно результаты построения группировок оформляются табличным способом.

Статистическая таблица - это таблица, содержащая сводные числовые характеристики изучаемой совокупности по одному или нескольким логически взаимосвязанным признакам.

Основа (остов) статистической таблицы представлена на рис.

Название таблицы* (общий заголовок)

*Примечания к таблице

Подлежащее статистической таблицы - это характеризующийся цифрами объект изучения. Им могут быть единицы совокупности, группы единиц или совокупность в целом. Например, фирмы, регионы, временные периоды и др. Обычно подлежащее таблицы располагается слева, в наименовании строк.

Сказуемое статистической таблицы - это система показателей, являющаяся результатом сводки и характеризующая объект изучения. Обычно сказуемое представлено верхними заголовками, т.е. наименованиями граф, которые располагаются слева направо в логической последовательности.

Общий заголовок - это основное содержание таблицы, представленное в сжатой и ясной форме, с указанием места и времени, к которым относятся составляющие ее сведения.

В зависимости от характера подлежащего, различают простые, групповые и комбинационные статистические таблицы.

Подлежащее простой таблицы представляет собой простой перечень объектов, территорий, хронологических дат, т.е. не предусматривает группировки единиц наблюдения. Подлежащее групповой таблицы содержит группировку единиц совокупности по одному количественному или качественному признаку. Подлежащее комбинационной таблицы содержит последовательную группировку единиц совокупности одновременно по нескольким признакам, т.е. комбинационную группировку.

В зависимости от глубины разработки сказуемого, различают простые и сложные статистические таблицы. При простой разработке сказуемого формирующий его показатель не подразделяется на подгруппы. Сложная разработка сказуемого, напротив, предполагает такое деление, что позволяет охарактеризовать каждую группу или единицу объекта разной комбинацией признаков.

При оформлении статистической таблицы необходимо придерживаться следующих правил:

1. Компактность и наглядность таблицы; отсутствие избыточных, второстепенных данных; представленные данные должны непосредственно отражать изучаемое явление;

2. Краткость формулировок всех заголовков таблицы;

3. Указание единиц измерения всех показателей: в заголовке, если они одинаковы, и в наименованиях строк и граф, если разные; использование общепринятых сокращений: чел., руб. и т.д.;

4. Формирование объединяющих заголовков при наличии в наименованиях подлежащего или сказуемого общих терминов;

5. Расположение взаимосвязанных данные в соседних графах;

6. Логичность в последовательности расположения элементов подлежащего и сказуемого (от частного к общему, от абсолютных величин к средним и относительным и т.д);

7. Одинаковая степень точности в округлении числовых данных;

8. Правильное отображение отсутствия данных: прочерк - при отсутствии явления, «нет сведений» или «…» - при отсутствии информации о явлении; в не подлежащих заполнению ячейках ставится «Х»; если значение составляет величину меньше принятой точности, ставится (0,0) или (0,00) и т.д.

9. Необходимость итоговых строк/граф в групповых и комбинационных таблицах; если они завершают таблицу, используют слова «Итого» или «Всего», если открывают - дополняются словами «в том числе» с последующей конкретизацией.

После чтения таблицы, т.е. ознакомления с содержанием, производится ее анализ, который состоит в выявлении особенностей исследуемого явления и основных тенденций его развития. Процедура анализа при этом проходит обычно от общих итогов к частным с выявлением наиболее характерных черт, сопоставлением частей и формулированием общих выводов из таблицы.

Ряды распределения: дискретные, интервальные. Построение интервальных рядов. Частоты, частости, плотности распределения. Кумулятивные ряды.

Составной частью операций по обработке полученных при группировании данных является построение ряда распределения.

Ряд распределения - это упорядоченное распределение единиц совокупности по группам по какому-либо варьирующему признаку.

Ряд распределения строится, исходя из принципов статистической группировки. Технически это реализуется с помощью простой группировки интересующего признака, в которой каждому значению или интервалу поставлено в соответствие количество единиц совокупности, удовлетворяющих этому значению/интервалу.

Таким образом, ряд распределения состоит из двух структурных элементов: вариант и частот и/или частостей.

Варианта , - это конкретное значение варьирующего признака в ряду.

Частота , - численность отдельных вариант или каждой группы вариант, показывающая, как часто встречаются эти значения в ряду распределения. Сумма частот по всем группам равна объему совокупности, т.е.:

Частость , - это частота, выраженная в долях единицы или в процентах к итогу. Сумма частостей по всем группам равна 1 или 100% соответственно, т.е.:

В зависимости от признака, лежащего в основании, различают атрибутивные и вариационные ряды распределения. Так как ряд распределения является, по сути, группировкой, то виды рядов распределения полностью соответствуют описанным выше возможным градациям группировок.

Атрибутивный ряд распределения - это ряд, построенный по качественному признаку.

Вариационный ряд распределения - это ряд, построенный по количественному признаку. Характер вариации последнего может быть дискретным или непрерывным. Соответственно, различают дискретные и интервальные вариационные ряды. Как и при группировании, если число возможных градаций дискретного признака велико, для него строится интервальный вариационный ряд.

Например, если выбрать один интересующий год, то таблица легко трансформируется в атрибутивный ряд распределения занятых по формам собственности в выбранном году, а таблица - в интервальный ряд распределения населения по среднедушевому доходу.

Изучение рядов распределения позволяет выявить наличие и определить характер закономерности в изменении частот с изменением значений варьирующего признака, т.е. проследить закономерности распределения. Закономерности распределения призваны отразить основные свойства изучаемого явления.

При этом актуальным становится требование однородности, предъявляемое к структурным группировкам, в противном случае произойдет смешение распределений, отражающих разные явления. Косвенным подтверждением этого может служить описанный выше вариант появления при группировании малочисленных срединных интервалов.

Выявление подлинной закономерности может затруднить и неверная интерпретация результатов построения интервального вариационного ряда, который может быть равноинтервальным и неравноинтервальным.

При построении неравноинтервального вариационного ряда распределения сравнение частот по группам неправомерно, так как изменение границ интервалов может привести к совершенно противоположным выводам. Следовательно, для корректного отражения распределения признака необходимо избавиться от влияния величины интервала, что осуществляется путем перехода от частот/частостей к плотности распределения.

Абсолютная плотность распределения , - это частота, рассчитанная на единицу интервала, т.е.:

Относительная плотность распределения , - это частость, рассчитанная на единицу интервала, т.е.:

Для возможности сопоставления распределений дискретных и интервальных величин используется универсальный подход, основанный на расчете накопленных частот/частостей . Эти величины определяются путем последовательного суммирования частот/частостей по группам с подсчетом итогов к концу каждой группы.

Накопленная частота/частость , / - это число/доля единиц совокупности со значением признака не больше заданного, т.е.:

Эти величины, будучи рассчитаны через частоты/частости, не могут быть отрицательны (значение «ноль» они принимают к началу первого интервала), а их максимум ограничен объемом совокупности. К концу последней группы этот максимум должен быть достигнут. Кумулятивный характер накопленных частот/частостей подразумевает, что с возрастанием групповых значений их величины могут только увеличиваться. Таким образом,:

Если в какой-то группе значение накопленной частоты/частости совпадает ее предыдущим значением, значит, рассматриваемая группа не содержит ни одного наблюдения, т.е. является «пустой», что свидетельствует о необходимости перегруппировки.

Обратная процедура - расчет частот/частостей через накопленные частоты/частости - также возможна:

Графическое представление статистических данных.

Удобнее всего анализировать ряды распределения с помощью их графического представления. Наряду с таблицами, график - это метод обобщения исходной информации. Графики позволяют более наглядно и доступно для восприятия отразить интересующие характеристики, взаимосвязи, тенденции в исследуемом явлении.

Статистический график - это чертеж, отображающий характеристики той или иной статистической совокупности с помощью геометрических образов или знаков. В статистике используется большое множество графических изображений различающихся и по выбранной основе графика (линейные, плоскостные, объемные), и по способу построения (диаграммы, статистические карты).

Для правильного построения графика необходимо выполнение набора правил: от внешнего оформления (название графика, подписи масштабных шкал, пояснения) до формирования основных элементов графика (графический образ, поле графика, пространственные и масштабные ориентиры).

Применительно к рядам распределения используют следующие графические изображения: полигон, гистограмма, кумулята, огива. Все эти графики строятся в прямоугольной системе координат.

Полигон - графическое изображение дискретного вариационного ряда распределения, дающее представление о характере изменения его частот. Для построения полигона по оси абсцисс в одинаковом масштабе откладываются ранжированные значения варьирующего признака, по оси ординат - частоты или частости.

Полигон представляет собой точки пересечения абсцисс и ординат, которые иногда для наглядности соединяют прямыми, получая ломаную линию. Если варьирующий признак теоретически может принимать значения меньше зарегистрированного минимального и/или больше зарегистрированного максимального, полигон замыкают на оси абсцисс в этих значениях.

В таблице представлен дискретный ряд распределения общероссийского жилого фонда по типу квартир. Полигон этого ряда представлен на рис.

Рис. Полигон распределения жилого фонда по типу квартир в 2008 году

Гистограмма (ленточная диаграмма) - графическое изображение интервального вариационного ряда распределения, дающее представление о характере изменения его частот. При построении гистограммы по оси абсцисс откладываются величины интервалов соответстующего признака, по оси ординат - частоты, частости или плотности распределения. Для равноинтервальных рядов могут быть использованы и частоты/ частости, и плотности, для неравноинтервальных - только плотности.

Гистограмма представляет собой прямоугольники, ширина которых определяется интервалами на оси абсцисс, а высота - значениями частот, частостей или плотностей на оси ординат.

При построении графиков для дискретных или равноинтервальных рядов распределения выбор между частотами и частостями определяется необходимостью сравнения этих графиков для разных совокупностей (с различным числом наблюдений) в одной системе координат. В случае такой необходимости по оси ординат должны откладываться частости.

В таблице представлен интервальный вариационный ряд распределения населения по величине среднедушевых денежных доходов. Для правильной оценки распределения данного ряда используется характеристика плотности, т.к. ряд неравноинтервальный. Например, при оценке по частоте/частости создается впечатление, что наиболее «популярным» является интервал от 10 до 15, однако, плотность частоты/частости показывает, что в действительности таким интервалом является диапазон от 4 до 6. Гистограмма этого ряда представлена на рис.

6 - 8 19,3 13,6 9,7 6,8 8 - 10 16,1 11,3 8,0 5,7 10 - 15 27,2 19,1 5,4 3,8 15 - 25 23,5 16,5 2,3 1,7 свыше 25 14,4 10,1 1,4 1,0 ВСЕГО 142,2 100,0 - - -

1) по материалам статистического сборника «Социальное положение и уровень жизни населения России. 2008»

Рис. Гистограмма распределения населения по величине среднедушевых денежных доходов в 2007 году

Кумулята - графическое изображение кумулятивной кривой, дающее представление о характере изменения накопленных частот/частостей. Для построения кумуляты интервального вариационного ряда по оси абсцисс откладываются величины интервалов, а если ряд дискретный - ранжированные значения признака. По оси ординат в обоих случаях располагаются накопленные частоты или частости. Равенство или неравенство интервалов для графика кумуляты значения не имеет.

Кумулята интервального вариационного ряда представляет собой неубывающую ломаную линию, соединяющую точки пересечения концов интервалов с соответствующими им накопленными частотами. При этом соединение точек прямыми линиями обусловлено предположением о равномерном нарастании ряда накопленных частот внутри интервала. Угловой коэффициент звена кумуляты характеризует плотность распределения в соответствующем интервале: чем круче расположено звено относительно оси абсцисс, тем больше плотность в данном интервале.

В таблице представлены значения накопленного ряда для характеристики среднедушевых доходов. По этим данным построена кумулята на рис.

Распределение населения по величине среднедушевых денежных доходов в 2007 году 1

Рис. Кумулята распределения населения по величине среднедушевых денежных доходов в 2007 году

Кумулята дискретного вариационного ряда - это неубывающая, ступенчатая кривая. Строится она следующим образом. В прямоугольной системе координат отмечают точки, абсцисса которых - значение признака, ордината - накопленная частота/частость. Из точек опускают перпендикуляры на ось абсцисс. Затем из каждой точки откладывают вправо отрезок параллельный оси абсцисс до пересечения со следующим перпендикуляром.

В таблице представлены значения кумулятивного ряда для признака «число комнат в квартире». Кумулята данного ряда построена на рис.

Распределение жилого фонда по типу квартир в 2008 году 1

1) по материалам статистического сборника «Российский статистический ежегодник. 2009»

Рис. Кумулята распределения жилого фонда по типу квартир в 2008 году

Огива - это графическое изображение кумулятивной кривой, в котором оси кумуляты поменяны местами. На рис. представлена огива для распределения среднедушевого дохода.

Рис. Огива распределения населения по величине среднедушевых денежных доходов в 2007 году.

Распределение единиц совокупности по групповым значениям признака - лишь одна из характеристик изучаемого явления. При сводной обработке данных каждая группа характеризуется целым набором показателей. Поэтому, наряду с построением ряда распределения, для получения комплексной оценки исследуемого явления должна быть сформирована система статистических показателей, состоящая из абсолютных, относительных и средних величин.

Контрольные вопросы

1. В чем заключается суть сводки и группировки статистических данных?

2. Каковы основные этапы сводки и группировки данных?

3. Исходя из каких соображений выбирается основание группировки и какие различия в группировках им определяются?

4. Что представляет собой сложная группировка?

5. Как определяется число групп?

6. Какие подходы существуют к определению величин интервалов группировки?

7. Назовите основные виды группировок и коротко опишите суть каждого из них.

8. Что представляет собой вторичная группировка и какими способами осуществляется?

9. Дайте определение статистической таблицы и ее основных элементов.

10. Какие правила должны выполняться при построении статистических таблиц?

11. Дайте определение ряда распределения и его основных элементов.

12. Назовите основные типы рядов распределения. На основании чего происходит их подразделение?

13. Дайте определение статистического графика.

14. Какие графики строятся для отображения изменения частот вариационного ряда?

15. Что представляют собой кумулята и огива и как они строятся?

, тыс.руб/мес	Численность
, млн.чел

Группировка данных производится в соответствии с программой сводки для того, чтобы впоследствии представить полученную информацию доступно для восприятия.

Группировка — объединение единиц совокупности в некоторые группы, имеющие свои характерные особенности, общие черты и сходные размеры изучаемого признака.

Результаты группировки оформляются в виде группировочных таблиц , делающих информацию обозримой. Таблица содержит сводную числовую характеристику исследуемой совокупности по одному или нескольким существенным признакам, взаимосвязанным логикой анализа.

Пример 5.2. Основа группировочной таблицы

Название таблицы (общий заголовок)

Группировочная таблица содержит три вида заголовков: общий, верхний и боковые. Заголовки таблиц должны быть краткими и раскрывать содержание показателей.

Общий заголовок отражает содержание всей таблицы с указанием, к какому месту и времени она относится. Он располагается над макетом по центру и является внешним заголовком. Верхние заголовки характеризуют содержание граф (заголовки сказуемого), а боковые (заголовки подлежащего) — строк. Подлежащее статистической таблицы — объект, характеризующийся цифрами. Сказуемое — система показателей, которыми характеризуется объект изучения, т.е. подлежащее. Следует избегать появления клеток, в которых не может быть исходных данных. В клетках, где отсутствуют данные по причине неполноты исходной информации, делают специальные пометки.

Пример 5.3. Пример группировочной таблицы

Отношение студентов факультета ГиСЭО к понижению размера стипендии (по результатам исследования в январе 1999 г.)

Таким образом, группировка — это разделение единиц совокупности на группы по выбранным варьирующим признакам.

Группировки различают по:

Задачам систематизации данных;

Числу группировочных признаков;

Используемой информации.

По задачам систематизации данных различают: типологические, структурные и аналитические.

Типологические группировки предназначены для выявления качественно однородных групп совокупностей, т.е. объектов, близких друг к другу одновременно по всем группировочным признакам. Например, группировка предприятий города по формам собственности. Типологическая группировка разбивает разнородную совокупность единиц наблюдения на качественно однородные группы (классы, типы явлений). При ее построении в качестве группировочных признаков могут использоваться количественные и атрибутивные признаки.

Структурные группировки— это разделение однородной совокупности на группы, характеризующие ее структуру по определенному группировочному признаку. Например, группировка рабочих цеха по квалификации. Другим примером структурной группировки является группировка отраслей экономики в топливно-энергетическую, нефтехимию, аграрно-промышленный комплекс, горнодобывающую, телекоммуникационную, транспортную, металлургию, оборонные отрасли и т.п. По своей природе структурная группировка является также достаточно общей, хотя в отдельных случаях по общности она и уступает типологическим группировкам.

Аналитические группировки предназначены для выявления зависимости между признаками. Строят аналитические группировки, выделив результирующие признаки, т.е. признаки, которые изменяются под влиянием факторных признаков, и факторные признаки, т.е. те, зависимость результирующих признаков от которых исследуется. Аналитическая группировка отличается следующими особенностями: единицы совокупности группируются по факторному признаку; каждая выделенная группа характеризуется средними значениями результативного признака, по изменению величины которых определяется наличие связи и зависимостей между признаками. Каждая выделенная группа должна содержать статистически однородные единицы совокупности по группировочному признаку. Количество единиц в каждой выделенной группе должно быть достаточным для получения надежных статистических характеристик исследуемого явления или процесса.

По используемой информации различают первичные и вторичные группировки.

Первичные группировки производятся на основе исходных данных, полученных в результате статистических наблюдений.

Вторичные группировки — результат объединения или расщепления первичных группировок, они позволяют преодолевать несопоставимость исходных данных в первичных группировках и тем самым объединять их в одну общую и выполнять сравнение, сопоставление данных, представленных в них после проведения вторичной группировки.

При разработке первичной группировки существенное значение имеет выбор числа групп . Число групп зависит от типа признака, положенного в основу группировки (основания группировки), от объема совокупности, степени вариации признака.

При построении группировок по качественному признаку количество групп соответствует количеству уровней градации признака. При группировании по количественному признаку все множество значений признака делится на интервалы. При этом возможно два подхода: группировка с равными и неравными интервалами.

Для определения этих параметров в первом случае рекомендуется формула Стерджесса:

n = 1 + (3,322× lgN) , (5.1)

где N — количество наблюдений.

В этом случае величина интервала:

I = (Хmax - Xmin)/n . (5.2)

Основные этапы построения статистических группировок включают:

Выбор группировочного признака;

Определение необходимого числа групп, на которые следует разбить изучаемую совокупность;

Установление границ интервалов группировки;

Установление для каждой группировки показателей или их системы, которыми должны характеризоваться выделенные группы.

Группировка с неравными интервалами порождает массу проблем при обработке данных, поэтому следует, по мере возможности, избегать таких группировок.

Вопросы для самопроверки:

Что такое сводка?

Что представляет собой группировка данных?

Какие вы знаете виды группировок?

В чем особенности каждого вида группировки?

Какова связь между группировкой, таблицей и сводкой?

В чем особенность сложных многомерных группировок?

Что означает вторичная группировка?

Для чего нужна вторичная группировка?