Показатели вариации кратко. Статистическое изучение вариации

Показатели вариации

Средняя величина не позволяет судить о тех колебаниях (вариациях), которым подвергается изучаемый признак в данной совокупности. Одних средних величин для анализа недостаточно. Совершенно разные по своему разбросу вокруг среднего совокупности могут иметь одну и то же среднюю арифметическую. Для нахождения величин вариации в статистике применяют специальные показатели, которые называют показателями вариации. Исследование вариации в статистике имеет большое значение, так как помогает понять сущность изучаемого явления.

Перечислим основные показатели вариации и приведем формулы для их вычисления.

Для характеристики размера вариации в статистике применяют абсолютные показатели вариации: размах вариации, среднее линейное отклонение, средне квадратическое отклонение, дисперсию.

Размах вариации -- разность между максимальными и минимальными значениями признака в изучаемой совокупности, т. е.

Размах вариации легко находится по рангам ранжированного ряда распределения.

Более точно характеризует вариацию среднее линейное отклонение, которое находится как среднее арифметическое отклонений индивидуальных значений от средней без учета знака этих отклонений, т. е.

Если исходные данные сгруппированы, то мы можем находить взвешенное среднее линейное отклонение, причем в качестве веса можно применять и частоту (ц), и относительную частоту (/).

Более объективно на практике меру вариации отражает дисперсия (средний квадрат отклонений). О ней говорилось в главе 2. В данном случае речь идет об оценки дисперсии, так как значения вероятностей не известны.

Если мы имеем несгруппированный ряд распределения, то дисперсия определяется формулой

Заметим, что оценка дисперсии, получаемая по формуле (6.28) является смещенной. Пользуясь ей, мы будем совершать некоторую систематическую ошибку в меньшую сторону. Несмещенная оценка для дисперсии находится по формуле

Как правило, формула (6.30) применяется в тех случаях, когда изучаемая совокупность невелика, не более 40 единиц. В тех случаях, когда п > 40, используют формулу (6.29).

Когда исходные данные сгруппированы, вычисляют взвешенные оценки дисперсии

Извлекая из дисперсии арифметический квадратный корень, получаем еще одну характеристику (о ней тоже говорилось в главе 2) -- среднее квадратичное отклонение, или стандарт (точнее его оценку).

Если изучаемая совокупность достаточно велика, то ее, как правило, разбивают на группы по какому-либо признаку. Поэтому наряду с изучением вариации признака по всей совокупности в целом можно изучать вариации для каждой составляющей ее группы, а также между самими группами. Если совокупность расчленяется по какому-то одному фактору, то изучение вариации достигается путем нахождения и анализа трех видов дисперсий: общей, межгрупповой, внутригрупповой.

Общая дисперсия (D x) определяет вариацию по всей совокупности под влиянием всех факторов, которые обусловили эту вариацию. Она равна среднему квадрату отклонений отдельных значений признака х (х ар) и вычисляется по формулам (6.29), (6.31), (6.32).

Межгрупповая дисперсия Ф Хмг) характеризует систематическую вариацию результативного порядка, который обусловлен влиянием признака, положенного в основу группировки. Она равна среднему квадрату отклонений групповых средних х аргр от общей средней арифметической х ар, т. е.

где, к - количество групп;

ц. - частота (количество единиц) в группе г;

/. - относительная частота группы г.

Внутригрупповая дисперсия D Xez отражает случайную вариацию (часть вариации), обусловленную влиянием неучтенных факторов и не зависимую от признака, положенного в основание группировки. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х. от средней арифметической этой группы х аргр и находится по формулам:

если группа содержит не более 40 наблюдений;

если группа содержит более 40 наблюдений - количество единиц в конкретной группе).

Применяются и формулы для взвешенной дисперсии:

Найдя внутригрупповые дисперсии по каждой группе можно вычислить среднюю из внутригрупповых дисперсий по формулам:

или используя соотношение (6.13).

По правилу сложения дисперсий общая дисперсия должна быть равна сумме межгрупповой и средней из внутригрупповых дисперсий, т. е.

Вариация качественного (альтернативного) признака (признак, которым каждая единица совокупности может обладать или не обладать) находится с помощью дисперсии:

где S - доля единиц совокупности, обладающая качественным признаком;

v - доля единиц совокупности, не обладающая качественным признаком.

Заметим, что S + v = 1.

Среднее квадратическое отклонение качественного признака находится по формуле

Например, если на 10000 населения районного центра 3500 имеют высшее образование, а 6500 не имеют, то

Дисперсия качественного признака равна

Максимальное значение дисперсии качественного признака получается в том случае, если S = v = 0,5. Оно будет равно 0,25.

Для характеристики меры разброса изучаемого признака находятся показатели вариации в относительных единицах. Некоторые из них мы приведем.

Коэффициент осцилляции отражает относительный разброс крайних значений вокруг средней арифметической

Относительное линейное отклонение характеризует долю усредненного значения абсолютных отклонений от средней арифметической, т. е.

Коэффициент вариации, представляющей собой относительное квадратическое отклонение, т. е.

По величине коэффициента вариации можно судить об интенсивности вариации признака, а поэтому и об однородности состава изучаемой совокупности. Чем больше величина коэффициента вариации, тем больше разброс значений признака вокруг средней арифметической, а соответственно, тем больше неоднородность совокупности. Имеется шкала определения степени однородности совокупности в зависимости от значения коэффициента вариации:

  • - если V x
  • - если 30%
  • - если V x > 60%, то совокупность считается неоднородной.

Заметим, что приведенная шкала достаточна условна.

Основными характеристиками формы распределения являются асимметрия и эксцесс. О них достаточно подробно говорилось в главе 2. Здесь речь пойдет об их оценках, так как количество измерений конечно и вероятности неизвестны. Обозначать асимметрию (скос) и эксцесс будем теми же буквами, что и в главе 2, но сверху будем добавлять тильду (~).

Для оценки степени асимметричности распределения обычно применяют моментный коэффициент асимметрии, который находится по формуле

где Дз - оценка третьего центрального момента, которую можно определить по формулам:

Степень существенности коэффициента асимметрии оценивается с помощью средней квадратической ошибки коэффициента асимметрии, который зависит от объема изучаемой совокупности (п) и находится по следующей формуле:

Если отношение , то асимметрия считается существенной, а если , то асимметрию можно признать несущественной, вызванной влиянием случайных причин.

Главный недостаток моментного коэффициента асимметрии А х состоит в том, что его величина зависит от нахождения в совокупности резко выделяющихся вариант. Для таких совокупностей этот коэффициент пригоден мало, так как его большая (абсолютная) величина объясняется преобладающим вкладом в величину оценки третьего центрального момента нетипичных значений, а не асимметричностью распределения основной части вариант.

Структурные коэффициенты асимметрии характеризуют асимметричность только в центральной части распределения, т. е. основной массы вариант и в отличие от моментного коэффициента асимметрии не зависят от крайних значений признака.

Как правило, применяют структурный коэффициент асимметрии, предложенный К. Пирсоном:

Другая характеристика формы распределения - это эксцесс. Его оценку в статистике можно получить по формуле

где Д 4 - оценка четвертого центрального момента, которую можно найти по формулам

Для оценки существенности эксцесса распределения находят среднюю квадратическую ошибку эксцесса:

Если отклонение то отклонение от нормального

распределения считается существенным, в противном случае оно признается незначительным и объясняется случайными причинами.

Теперь приведем конкретный расчетный пример, в котором определим ряд характеристик, приведенных выше, а также затронем вопросы, не разобранные в этой главе. В этом случае наряду с вычислениями рассмотрим кратко и некоторые необходимые теоретические вопросы.

Заметим, что приводимый пример является чисто учебным, данные для него взяты, как говорится, “с потолка”. Кроме того, рассматриваемый ряд наблюдений содержит всего 20 наблюдений для простоты счета, потому что у многих студентов появляются сложности даже при расчете средних величин. В настоящее время имеется большое количество пакетов программ для определения статистических характеристик, так что вручную уже никто не считает. Необходимо помнить, что большое значение имеет качество исходных данных: если они некачественные то и результат будет таким же, статистика и математика в этом случае не помогут.

Пример 6.2

Предположим, что в наше распоряжение поступил статистический материал о количестве зарегистрированных ДТП в районном центре N. Он оформлен в виде таблицы (табл. 6.3), данные в ней приводятся на числа текущего года.

Таблица 6.3

Количество ДТП (х,)

Количество ДТП (х.)

В данном случае количество ДТП - это случайная величина X, а результаты наблюдений, приведенные в табл. 6.3 - совокупность значений, принятых этой случайной величиной, т. е. X = {Xj, х 2 ..., х 20 }. Данные, приведенные в табл. 6.3, надо упорядочить, например расположить их по возрастанию значений изучаемого признака х. (г = 1,20). Если одно и то же значение повторяется несколько раз, то его повторим. В результате получаем статистический ряд распределения (см. табл. 6.4).

По ранжированному ряду (см. табл. 6.4) можно построить, например, статистическую функцию распределения F(x), рассмотренную нами в главе 2.

F(x) - разрывная ступенчатая функция, непрерывная слева и имеющая п скачков, (п - количество наблюдений), причем величина каждого скачка равна 1 /п. Так как некоторые наблюдения совпадают, то скачки сливаются и их число будет равно числу наблюдаемых значений случайной величины X. В нашем случае F(x) будет иметь 15 скачков, откуда следует, что строить ее по ранжированному ряду нерационально, а делать это надо по группированному ряду, что будет рассмотрено несколько позднее.

Таблица 6.4

По ранжированному ряду (табл. 6.4) можно определить оценки числовых характеристик наблюдаемой случайной величины X (количество ДТП), например среднюю арифметическую, дисперсию, среднее квадратическое отклонение, размах вариации и др.

Вычислим, например, размах вариации и среднее арифметическое:

Все числовые характеристики будем определять до целых, так как не бывает десятых и сотых долей ДТП. Можно вычислить и другие числовые характеристики по данным табл. 6.4, но мы это сделаем по группированному ряду.

По статистическому ряду распределения построим группированный ряд, о котором говорилось в главе 4. Заметим, что длины интервалов в нем необязательно должны быть одинаковы, но в каждом из них должны быть наблюдения, т. е. не должно быть пустых интервалов. В том случае если значение случайной величины X попадает ни границу между разрядами, мы будем делить его поровну между соседними разрядами, т. е. к значению каждого их них добавлять по 1/2.

Приближенно найти оптимальное количество групп (разрядов) с равными интервалами можно по формуле Стерджесса:

где к - количество разрядов;

п - количество наблюдений.

Но данная формула применима в том случае, если распределение изучаемой случайной величины X приближается к нормальному, а мы этого не знаем. Поэтому формулой Стерджесса пользоваться не будем (в нашем случае она дает следующий результат к « 5,3 « 5).

Полученный группированный ряд приведен в табл. 6.5. В ней кроме разрядов, частот, относительных частот, приведены плотности частоты и теоретические вероятности, которые понадобятся в дальнейшем.

Таблица 6.5

Заметим, что

где f* - плотность относительной частоты, т. е. отношение относительной частоты к длине интервала(в на

шем случае она для всех разрядов одинакова).

Имея группированный ряд (см. табл. 6.5), можно приближенно построить статистическую функцию распределения F(x) В качестве значений X, для которых определяется F(x), возьмем границы разрядов. Статистическая функция распределения для нашего примера приведена на рис. 6.1.


Теперь по группированному ряду (см. табл. 6.5) построим гистограмму, откладывая по оси абсцисс разряды, а по оси ординат соответствующие плотности относительных частот f v В результате получим совокупность прямоугольников, площадь каждого из которых равна соответствующей относительной частоте (рис. 6.2.).

Заметим, что гистограмму можно строить, используя и частоты ц..

Теперь используя группированный статистический ряд, получим искомые числовые характеристики изучаемой случайной величины X (количество ДТП), т. е. среднюю арифметическую и некоторые показатели вариации. В качестве веса будем использовать относительную частоту / (частость) (можно использовать, как мы уже говорили, в качестве веса относительную частоту (а.).

Вычислим среднеарифметическое весовое:

В качестве х. берем середину соответствующего интервала. Заметим, что х ар получилось таким же, что и по ранжированному ряду.

Находим дисперсию:

Определяем среднее квадратическое отклонение:

Среднее квадратическое отклонение округлим до десятых.

Находим среднее линейное отклонение:

Вычисляем коэффициент вариации: т. е. нашу совокупность можно считать однородной.

Определяем коэффициент осцилляции:

По формулам (6.21) и (6.23) вычисляем моду и медиану. При вычислении этих характеристик используем частоты ц..

Находим моментный коэффициент асимметрии:

Для этого сначала определяем оценку третьего центрального момента:

Поэтому, А х ~ -0,031, т. е. имеем очень небольшую отрицательную асимметрию.

Степень существенности асимметрии оценим с помощью средней квадратической ошибки коэффициента асимметрии по формуле

Так как , то асимметрия несущественна и вызвана влиянием случайных причин.

Теперь вычисляем эксцесс по формуле Для это

го сначала находим оценку четвертого центрального момента:

Поэтому эксцесс равент. е. наше распределение

немного прижато к оси абсцисс.

Для определения существенности эксцесса распределения вычислим его среднюю квадратическую ошибку, используя формулу (6.55). Получим

Так как отношение меньше 3, то отклонение от

Заметим, что среднее квадратическое отклонение по величине всегда больше среднего линейного отклонения. В нашем случае

Соотношение зависит от наличия в совокупности резких отклонений и может быть индикатором “засоренности” ее нетипичными, выделяющимися из основной массы единицами. Для нормального распределения отношение

Для нашего примера имеем

Заменяя числовые характеристики случайной величины их оценками, мы совершаем некоторую ошибку. Желательно оценить эту ошибку и найти вероятность (надежность) того, что она не превзойдет некоторого малого положительного s (точность).

В рассматриваемом нами примере заменили М[Х] на ос ар, а D[X] на D x . Оценим точность и надежность этих оценок по результатам нашего примера.

Чтобы оценить точность и надежность оценки, надо знать ее закон распределения. Во многих случаях этот закон оказывается близок к нормальному. Так как среднее статистическое значение случайной величины X - это сумма достаточно большого числа независимых случайных величин, то по центральной предельной теореме распределения близко к нормальному с математическим ожиданием

и дисперсией а значит со стандартом

Для того чтобы определить параметры нормального распределения по которому находится оценка х ар, заменяем в формулах (6.57)-(6.59) истинные параметры М[Х ], D и а(х) их оценками x ap , D x , д х и получаем

Допуская, что случайная величина х ар имеет нормальное распределение с параметрами М[х ар ] и D, находим приближенно вероятность того, что оценка х ар отклоняется от своего математического ожидания менее чем на s.

где Ф 0 (х) - нормированная функция Лапласа, о которой уже говорилось в главе 2. Для нее составлены таблицы (см. приложение 5).

Используем данные рассматриваемого нами примера и оценим точность и надежность х ар. Для нашего примера имеем: х ар = 90; D x = 57,5; д х = 7,6. Найдем вероятность того, что, полагая М[Х] * х ар, не совершим ошибки более чем е - 3.

По формулам (6.60)-(6.62) получили:

По таблице приложения 5 находим Ф о (1,765) = 0,46164, т. е. вероятность того, что ошибки от замены М[Х] на х ар не превысит 3 приближенно равна 0,92 (92%). Эту вероятность можно считать достаточной.

Доказывается, что при п > 20 оценка D x независимо от распределения случайной величины X приближенно распределена по нормальному закону с параметрами:

Заменяя в формулах (6.64)-(6.66) D[X] ее статистической оценкой D x получим:

Используя данные примера, по формулам (6.67)и (6.69) получим:

Теперь по формуле (6.63) находим вероятность того, что оценка D x отклонится от своего истинного значения D[X] меньше чем на е = 3.


По таблице приложения 5 находим ФД0Д6) = 0,06356, т. е. вероятность того что оценка от замены D[X] на D x будет менее 3 равна 0,13 (13%), что явно недостаточно. У нас всего 20 наблюдений, а формулы (6.64)-(6.66) работают при п > 20.

Мы уже говорили, что наш пример учебный. В реальных задачах данных значительно больше, поэтому и вероятность, полученная по формуле (6.63), будет значительно выше.

Полученная нами гистограмма (см. рис. 6.2.) - это графическое изображение нашего распределения. Но пользоваться гистограммой при дальнейших исследованиях неудобно. Поэтому ставиться вопрос о том, как подобрать для данного конкретного распределения аналитическую зависимость (формулу), которая выражала бы лишь существенные черты нашего распределения. Данную задачу называют, выравниваем статистических распределений. Обычно выравнивают гистограммы, т. е. заменяют ее некоторой теоретической кривой, имеющей определенное аналитическое выражение. А затем это выражение принимают за плотность распределения /(х).

В рассматриваемом примере мы выравниваем построенную нами гистограмму по нормальному закону с параметрами х ар = 90; а х = 7,6, т. е. в выражении для плотности нормального распределения

Заменяем М[Х] и а[Х] их оценками и получаем

В качестве значений х берем границы интервалов в нашем группированном ряду, подставляем их в формулу (6.70) и получаем:

Полученные данные наносим на рис 6.2 и получаем плавную кривую.

Теперь проверим гипотезу Н о о нормальном законе распределения с плотностью f(x). Гипотезе Н о противопоставляется альтернативная гипотеза Н 1 которая говорит о том, что случайная величина X не подчиняется нормальному закону с параметрами х ар = 90; а х = 7,6.

Для того чтобы сделать вывод о том, согласуются ли данные наблюдений с выдвинутой нами гипотезой, применяют критерий согласия. Критерием согласия называется критерий проверки гипотезы о законе распределения. Он применяется для проверки согласия предполагаемого вида закона распределения с опытными данными.

Существуют различные критерии согласия: Пирсона, Фишера, Колмогорова и др.

При проверке гипотез могут допускаться ошибки двух видов. Ошибка первого рода состоит в том, что отвергается верная нулевая гипотеза Н о; ошибка второго рода - в том, что отвергается верная альтернативная гипотеза Н г

Вероятность ошибки первого рода (а) называется уровнем значимости критерия. Чем меньше а, тем меньше вероятность отклонить верную гипотезу Н о Допустимую а обычно задают заранее. Как правило, применяют стандартные значения а = 0,01; 0,05; 0,1.

Вероятность ошибки второго рода обозначают через р. Величину (1 - р) - вероятность недопущения ошибки второго рода (принять верную гипотезу и отвергнуть неверную гипотезу Н 0) - называют мощностью критерия.

Сначала используем для проверки гипотезы о нормальном распределении критерий Пирсона (х 2)- Приведем краткие теоретические сведения. Предположим, что проведено п опытов в каждом из которых случайная величина X приняла определенное значение, т. е. х 1 х 2 ....., х к - число возможных значений

случайной величины X). В результате получаем статистический ряд распределения (табл. 6.6).

Таблица 6.6

где - соответствующие вероятности.

Считаем, что отклонения / от Р имеют случайные причины. Для проверки правдоподобия выдвинутой гипотезы надо выбрать какую-то меру расхождения между статистическими и теоретическими распределениями.

В качестве такой меры расхождения при использовании критерия Пирсона берется сумма квадратов отклонений (/. - Р.), взятых с некоторыми весами С { , т. е.

Веса С. вводят, так как отклонения, относящиеся к разным значениям Р., нельзя считать равноправными по значимости.

Пирсон доказал, что если взять

то при большом числе опытов п закон распределения величины R a обладает следующими свойствами: он практически не зависит от закона распределения случайной величины X, мало зависит от числа опытов п, зависит только от количества значений случайной величины Х(к) и при п -> оо приближается к распределению х 2 Поэтому меру расхождения в данном случае обозначают % 2 , т. е.

Вводим п под знак суммы, учитывая, что, и после

преобразований получаем

Распределение х 2 зависит от параметра называемого числом степеней свободы (г с), который определяется следующим образом:

где S e -- количество независимых условий, которые наложены на относительные частоты. Для нашего примера S e = 3. Мы потребовали, чтобы выполнялись условия:

Для распределения % 2 составлены таблицы (см. приложение 6). Для нашего примера проверим гипотезу о нормальном распределении с помощью критерия Пирсона.

Вернемся к табл. 6.5, где осталась одна незаполненная графа (Р.) - это теоретические вероятности попадания в интервал случайной величины X, имеющей нормальное распределение с параметрами х ар = 90; а х = 7,6.

Для их нахождения используем формулу (2.44). Получаем:

где Ф о (х) - нормированная функция Лапласа, для которой, как мы уже говорили, составлены таблицы (см. приложение 5).

Полученные значения вероятностей занесем в табл. 6.5. Далее по формуле (6.74) получим:

Число степеней свободы в нашем случае равно г, = 6 - 3 = 3. Уровень значимости принимаем равным 0,1, т. е. а = 0,1. По таблице распределения х 2 (см. приложение 6) по уровню значимости а = 0,1 и по числу степеней свободы г = 3 находим %т = 6,25.

Так как Хт > Х Р, то гипотеза о нормальном распределении не противоречит данным наблюдений и ее можно принять с уровнем значимости 0,1. Если под рукой нет таблицы распределения х 2 , для оценки случайности расхождения /. от Р. можно использовать критерий Романовского

Если соотношение (6.76) меньше трех, то расхождение между фактическим и теоретическим распределениями носит случайный характер, а в противном случае они существенны.

Для данных примера имеем , поэтому гипотезу о нормальном распределении тоже можно принять.

Теперь применим для проверки гипотезы о нормальном распределении критерий согласия Колмогорова.

Критерий Колмогорова основан на нахождении максимального расхождения между накопленными частотами или относительными частотами экспериментального распределения и вероятностями теоретического распределения. Он определяется по формулам:

если пользоваться накопленными относительными частотами;

если пользоваться накопленными частотами, где d M - максимальная величина расхождений между накопленными относительными частотами и вероятностями;

D M - максимальная разность между реальными и теоретическими частотами.

Будем использовать формулу (6.77), и необходимые данные разместим в табл. 6.8.

Из табл. 6.8 следует, что, поэтому по формуле

(6.75) получаем

Таблица 6.8

Накопленные f и Р

Затем по таблицам Р() (см. приложение 8) находим Р(Х к) = 1. Поэтому можно полагать, что расхождения между относительными частотами и теоретическими вероятностями носят случайный характер, а, следовательно, гипотеза о нормальном распределении не противоречит данным наблюдений.

В заключение еще раз повторим, что наш пример носит учебный характер. Надо иметь в виду, что при использовании критерия Пирсона количество наблюдений должно быть не менее нескольких десятков, в каждом разряде должно быть не менее пяти наблюдений, а количество разрядов должно быть примерно 10-15.

Вопросы для самопроверки

  • 1. Какие виды средних величин применяют в статистике?
  • 2. Как определяются средняя гармоническая простая и взвешенная?
  • 3. Как определяются средняя геометрическая простая и взвешенная?
  • 4. Как определяется средняя арифметическая простая и взвешенная?
  • 5. Как вычисляются средняя квадратическая и средняя кубическая?
  • 6. Какие показатели вариации вы знаете?
  • 7. Что представляют собой размах вариации и среднее линейное отклонение? По каким формулам они вычисляются?
  • 8. Что такое дисперсия и среднее квадратическое отклонение? По каким формулам они вычисляются?
  • 9. По какой формуле находится дисперсия качественного признака?
  • 10. Что представляет собой коэффициент вариации? Каково его значение для экономического анализа?
  • 11. Что представляет собой правило сложения дисперсии?
  • 12. Что представляют собой асимметрия и эксцесс, и по каким формулам они находятся?

Тема 5

Основные вопросы: 1. Понятие вариации.

2. Показатели вариации.

3. Относительные показатели вариации.

4. Виды дисперсии.

1. Понятие вариации. При изучении совокупности явления нельзя ограничиваться только нахождением средней величины. Средние величины дают обобщенную характеристику варьирующего признака, показывают типичные характеристики для изучаемой совокупности. Однако в средней величине не проявляется степень колеблемости отдельных значений признаков вокруг среднего уровня. В зависимости от однородности в совокупности колеблемость признаков может быть большой или малой. Поэтому возникает необходимость в измерении вариации отдельных вариантов по отношению к средней величине.

Определение : Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.

Вариация в переводе с латинского означает «колеблемость», «изменчивость», «непостоянство». Предполагая, что большинство социально-экономических явлений и процессов варьируют в некотором масштабе, статистика разработала методологию расчета показателей вариации, которые, в свою очередь, могут быть абсолютными, относительными и средними.

Величины признаков колеблются, варьируют под действием различных причин и условий, которые в статистике называют факторами. Нередко эти факторы действуют в противоположных направлениях и сами, в свою очередь, варьируют. Среди них есть существенные факторы, определяющие величину вариантов данного признака у всех единиц совокупности. Но есть и несущественные, которые на одни единицы совокупности могут оказывать влияние, на другие нет.

Например, вариация оценок студентов на экзамене в вузе вызывается, в частности, различными способностями студентов; временем, затраченным ими на самостоятельную работу; посещаемостью занятий; различием социально-бытовых условий и т.д. Но на оценку могут влиять и какие-либо привходящие, чисто случайные причины, например, временное недомогание.

Вариация, порождаемая существенными факторами, носит систематический характер, то есть наблюдается последовательное изменение вариантов признака в определенном направлении. Такая вариация называется систематической. В систематической вариации проявляются взаимосвязи между явлениями, их признаками, в такой связи – один как причина, другой как следствие его действия.

Вариация, обусловленная случайными факторами, называется случайной вариацией. Здесь не наблюдается систематического изменения вариантов зависимого признака от случайных факторов; все изменения носят хаотический характер, поскольку нет устойчивой связи этих факторов с единицами изучаемой совокупности.


Вариация зависимого признака, образовавшаяся под действием всех без исключения влияющих на него факторов, называется общей вариацией. Следовательно, общая вариация слагается из систематической и случайной вариации.

2. Показатели вариации. К показателям вариации относятся: размах вариации, среднее линейное (абсолютное) отклонение (с.л.о.), дисперсия, среднее квадратическое отклонение (с.к.о.), коэффициент вариации.

1) Размах вариации – разность между максимальным и минимальным значением признака:

Он характеризует пределы изменения признака.

Средний размах: – это есть средняя арифметическая из ряда размахов, полученных из серии равных по объему наблюдений. Используется в контроле качества.

Однако размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику.

Простейший показатель такого типа СЛО.

2). Среднее линейное отклонение (СЛО) – представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (учитывает только крайние значения признака и не учитывает все промежуточные).

– СЛО для несгруппированных данных: ,

где – число членов ряда.

Т.е. – СЛО равно средней арифметической из абсолютных отклонений (модулей) признака всех единиц совокупности от средней арифметической.

– СЛО для сгруппированных данных: ,

где – сумма частот вариационного ряда.

В формулах разности в числителе взяты по модулю, иначе в числителе всегда будет ноль – алгебраическая сумма отклонений вариантов от их средней арифметической.

Поэтому СЛО применяют редко, только в случаях, когда суммирование показателей без учета знаков имеет экономический смысл. Например, анализ состава рабочих, ритмичность производства, оборот внешней торговли.

3) Дисперсия – это средний квадрат отклонений индивидуальных значений от средней арифметической (не имеет единиц измерения).

В общем виде взвешенная дисперсия исчисляется по формуле:

или простая дисперсия:

.

Дисперсия альтернативного признака:

4) Среднее квадратическое отклонение (СКО) ‑ это есть квадратный корень из среднего квадрата отклонений отдельных значений признака от средней арифметической:

– для несгруппированных данных;

– для сгруппированных данных (для вариационного ряда).

3. Относительные показатели вариации (коэффициент вариации). В статистической практике часто возникает необходимость сравнения вариаций различных признаков. Например, большой интерес представляет сравнение вариаций возраста рабочих и их квалификации, стажа работы и размера заработной платы, себестоимости и прибыли, стажа работы и производительности труда и т.д. для подобных сопоставлений показатели абсолютной колеблемости признаков непригодны: нельзя сравнивать колеблемость стажа работы, выраженного в годах, с вариацией зарплаты, выраженной в рублях.

Для осуществления такого сравнения, а также сравнения колеблемости одного и того же признака в нескольких совокупностях с различным средним арифметическим используют относительный показатель вариации – коэффициент вариации (КВ).

КВ – представляет собой выраженное в процентах отношение СКО к средней арифметической.

,

это и есть коэффициент вариации. Это относительная мера вариации и позволяет сравнивать степень варьирования в разных вариационных рядах.

4. Виды дисперсии.

Определение : Дисперсия – это средний квадрат отклонений всех значений признака ряда распределения от средней арифметической.

Свойства дисперсии:

1) Дисперсия постоянной величины равна нулю ();

2) Дисперсия не меняется, если все варианты увеличить или уменьшить на одно и то же число ();

3) Если все варианты умножить на число , дисперсия увеличится в раз ;

4) Дисперсия от средней меньше, чем средний квадрат отклонений от любого числа на – свойство минимальности дисперсии от средней ().

Использование свойств дисперсии позволяет упрощать ее расчеты, особенно в случаях, когда вариационный ряд составляет арифметическую прогрессию или имеет равные интервалы. В этих случаях сначала находят дисперсию от условного нуля, а затем используют 4-е свойство, переходят к дисперсии от средней.

Виды дисперсий для сгруппированных данных, условия их применения в статистических исследованиях.

Если совокупность данных сгруппирована на группы по какому-то признаку, то в этом случае выделяются 3 вида дисперсий:

Общая дисперсия

Правила построения рядов распределения

Ряды распределения представляют собой простейшую группировку, в которой каждая выделенная группа характеризуется одним показателем.

Статистический ряд распределения - это упорядоченное распределение единиц совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.

Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, не имеющим числового выражения.

Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот. Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, то есть конкретное значение варьирующего признака. Частотами называются численности отдельных вариант или каждой группы вариационного ряда, то есть это числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем. Частностями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частностей равна 1 или 100%.

Правила построения рядов распределения аналогичны правилам построения группировки.

Группировки, построенные за один и тот же период времени, но для разных объектов или, наоборот, для одного объекта, но за два разных периода времени могут оказаться несопоставимыми из-за различного числа выделенных групп или неодинаковости границ интервалов.

Вторичная группировка, или перегруппировка сгруппированных данных применяется для лучшей характеристики изучаемого явления (в случае, когда первоначальная группировка не позволяет четко выявить характер распределения единиц совокупности), либо для приведения к сопоставимому виду группировок с целью проведения сравнительного анализа.

Термин «вариация» произошел от латинского varito -изменение, колеблемость, различие. Однако не всякое различие называется вариацией. Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов.

Исследование вариации в статистике имеет важное значение, т.к. дает возможность оценить степень воздействия на данный признак других варьирующих признаков. Определение вариации необходимо при организации выборочного наблюдения, построения статистических моделей, разработке материалов экспертных опросов и т.д.



Средняя величина - это обобщающая характеристика признака изучаемой совокупности. Она не дает представления о том, как отдельные значения изучаемого признака группируются вокруг средней. Поэтому для характеристики колеблемости признака используют показатели вариации.

Различие индивидуальных значений признака внутри изучаемой совокупности в статистике называется вариацией признака. Она возникает в результате того, что его индивидуальные значения складываются под совокупным влиянием разнообразных факторов (условий), которые по-разному сочетаются в каждом отдельном случае.

Колебания отдельных значений характеризуют показатели вариации.

Термин «вариация» произошел от лат. variatio – «изменение, колеблемость, различие». Под вариацией понимают количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Различают вариацию признака: случайную и систематическую.

Систематическая вариация помогает оценить степень зависимости изменений в изучаемом признаке от определяющих ее факторов.

Для характеристики колеблемости признака используется ряд показателей, такие как размах вариации, определяемый как разность между наибольшим (Хмах) и наименьшим(xmjn) значениями вариантов:

Среднее линейное отклонение определяется как средняя арифметическая из отклонений индивидуальных значений от средней без учета знака этих отклонений.

Меру вариации более объективно отражает показатель дисперсии.

Среднее квадратическое отклонение – это мерило надежности средней.

Для характеристики меры колеблемости изучаемого признака исчисляются показатели колеблемости в относительных величинах, которые позволяют сравнивать характер рассеивания в различных распределениях. Расчет показателей меры относительного рассеивания осуществляют отношением абсолютного показателя рассеивания к средней арифметической и умножают на 100%.

При помощи группировок, подразделив изучаемую совокупность на группы, однородные по признаку-фактору, можно определить три показателя колеблемости признака в совокупности: общую дисперсию, межгрупповую дисперсию и среднюю из внутригруп-повых дисперсий.

Общая дисперсия характеризует вариацию признака, зависящую от всех условий в изучаемой статистической совокупности.

Межгрупповая дисперсия отражает вариацию изучаемого признака, которая возникает под влиянием признака-фактора, положенного в основу группировки, характеризует колеблемость групповых (частных) средних хi и общей средней хо.

Средняя внутригрупповых дисперсий характеризует случайную вариацию в каждой отдельной группе, возникает под влиянием факторов кроме положенного в основу группировки.

Дисперсия альтернативного признака равна произведению доли единиц, обладающих признаком, и доли единиц, не обладающих им.

22. Показатели вариации: абсолютные и относительные

Вариация – различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени.

К показателям вариации относятся:

I группа - абсолютные показатели вариации

  • размах вариации
  • среднее линейное отклонение
  • дисперсия
  • среднее квадратическое отклонение

II группа - относительные показатели вариации

  • коэффициент вариации
  • коэффициент осцилляции
  • относительное линейное отклонение

· Для измерения вариации в статистике применяют несколько способов.

· Наиболее простым является расчет показателя размаха вариации Н как разницы между максимальным (X max) и минимальным (X min) наблюдаемыми значениями признака:

· H=X max - X min .

· Однако размах вариации показывает лишь крайние значения признака. Повторяемость промежуточных значений здесь не учитывается.

· Более строгими характеристиками являются показатели колеблемости относительно среднего уровня признака. Простейший показатель такого типа – среднее линейное отклонение Л как среднее арифметическое значение абсолютных отклонений признака от его среднего уровня:

·

· При повторяемости отдельных значений Х используют формулу средней арифметической взвешенной:

· (Напомним, что алгебраическая сумма отклонений от среднего уровня равна нулю.)

· Показатель среднего линейного отклонения нашел широкое применение на практике. С его помощью анализируются, например, состав работающих, ритмичность производства, равномерность поставок материалов, разрабатываются системы материального стимулирования. Но, к сожалению, этот показатель усложняет расчеты вероятностного типа, затрудняет применение методов математической статистики. Поэтому в статистических научных исследованиях для измерения вариации чаще всего применяют показатель дисперсии.

· Дисперсия признака (s 2) определяется на основе квадратической степенной средней:

· .

· Показатель s, равный , называется средним квадратическим отклонением.

· В общей теории статистики показатель дисперсии является оценкой одноименного показателя теории вероятностей и (как сумма квадратов отклонений) оценкой дисперсии в математической статистике, что позволяет использовать положения этих теоретических дисциплин для анализа социально-экономических процессов.

· Если вариация оценивается по небольшому числу наблюдений, взятых из неограниченной генеральной совокупности, то и среднее значение признака определяется с некоторой погрешностью. Расчетная величина дисперсии оказывается смещенной в сторону уменьшения. Для получения несмещенной оценки выборочную дисперсию, полученную по приведенным ранее формулам, надо умножить на величину n / (n - 1). В итоге при малом числе наблюдений (< 30) дисперсию признака рекомендуется вычислять по формуле

· Обычно уже при n > (15÷20) расхождение смещенной и несмещенной оценок становится несущественным. По этой же причине обычно не учитывают смещенность и в формуле сложения дисперсий.

· Если из генеральной совокупности сделать несколько выборок и каждый раз при этом определять среднее значение признака, то возникает задача оценки колеблемости средних. Оценить дисперсию среднего значения можно и на основе всего одного выборочного наблюдения по формуле

· ,

· где n – объем выборки; s 2 – дисперсия признака, рассчитанная по данным выборки.

· Величина носит название средней ошибки выборки и является характеристикой отклонения выборочного среднего значения признака Х от его истинной средней величины. Показатель средней ошибки используется при оценке достоверности результатов выборочного наблюдения.

· Показатели относительного рассеивания. Для характеристики меры колеблемости изучаемого признака исчисляются показатели колеблемости в относительных величинах. Они позволяют сравнивать характер рассеивания в различных распределениях (различные единицы наблюдения одного и того же признака в двух совокупностях, при различных значениях средних, при сравнении разноименных совокупностей). Расчет показателей меры относительного рассеивания осуществляют как отношение абсолютного показателя рассеивания к средней арифметической, умножаемое на 100%.

· 1. Коэффициентом осцилляции отражает относительную колеблемость крайних значений признака вокруг средней

· .

· 2. Относительное линейное отключение характеризует долю усредненного значения признака абсолютных отклонений от средней величины

· .

· 3. Коэффициент вариации:

·

· является наиболее распространенным показателем колеблемости, используемым для оценки типичности средних величин.

· В статистике совокупности, имеющие коэффициент вариации больше 30–35 %, принято считать неоднородными.

· У такого способа оценки вариации есть и существенный недостаток. Действительно, пусть, например, исходная совокупность рабочих, имеющих средний стаж 15 лет, со средним квадратическим отклонением s = 10 лет, «состарилась» еще на 15 лет. Теперь = 30 лет, а среднеквадратическое отклонение по-прежнему равно 10. Совокупность, ранее бывшая неоднородной (10/15 × 100= 66,7%), со временем оказывается, таким образом, вполне однородной (10/30 × 100 = 33,3 %).

Вариация – это различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени. К показателям вариации относятся: размах вариации, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение, коэффициент вариации.

Абсолютные показатели:
размах вариации R, представляющий собой разность между максимальным и минимальным значениями признака: .

Размах вариации показывает лишь крайние отклонения признака и не отражает отклонений всех вариантов в ряду. При изучении вариации нельзя ограничиваться только определением ее размаха. Для анализа вариации необходим показатель, который отражает все колебания варьирующего признака и дает обобщенную характеристику. Простейшим показателем такого типа является среднее линейное отклонение.

Среднее линейное отклонение представляет собой среднюю арифметическую абсолютных значений отклонений отдельных вариантов от их средней арифметической (при этом всегда предполагают, что среднюю вычитают из варианта: ()).

Среднее линейное отклонение для несгруппированных данных:

,

где n – число членов ряда; для сгруппированных данных:

,

где — сумма частот вариационного ряда.

Дисперсия признака представляет собой средний квадрат отклонений вариантов от их средней величины, она вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных).

Простая дисперсия для несгруппированных данных:

;

взвешенная дисперсия для вариационного ряда:

.

Дисперсия обладает определенными свойствами, два из которых:

1) если все значения признака уменьшить или увеличить на одну и ту же постоянную величину А, то дисперсия от этого не изменится;

2) если все значения признака уменьшить или увеличить в одно и то же число раз (i раз).

То дисперсия соответственно уменьшится или увеличится в раз. Используя второе свойство дисперсии, разделив все варианты на величину интервала, можно получить формулу вычисления дисперсии в вариационных рядах с равными интервалами по способу моментов:

,

где -дисперсия, исчисленная по способу моментов;

i – величина интервала;

– новые (преобразованные) значения вариантов (А – условный ноль, в качестве которого удобно использовать середину интервала, обладающего наибольшей частотой);

— момент второго порядка;

— квадрат момента первого порядка.

Среднее квадратическое отклонение равно корню квадратному из дисперсии: для несгруппированных данных:


,

для вариационного ряда:


.

Среднее квадратическое отклонение – это обобщающая характеристика размеров вариации признака в совокупности; оно показывает, на сколько в среднем отклоняются конкретные варианты от их среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, поэтому экономически хорошо интерпретируется.

Относительные показатели:
Коэффициент вариации представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:

.

Также коэффициент вариации используется как характеристика однородности совокупности. Если , то колеблемость незначительная, если , то колеблемость умеренная-средняя, если , то колеблемость значительная, если , то совокупность однородная.

Коэффициент осцилляции:

.

Относительное линейное отклонение:

.

Вариация признаков обусловлена различными факторами, некоторые из этих факторов можно выделить, если статистическую совокупность разбить на группы по какому-либо признаку. Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучить вариацию для каждой из составляющих ее группы, а также и между этими группами. В простейшем случае, когда совокупность расчленена на группы по одному фактору, изучение вариации достигается посредством исчисления и анализа трех видов дисперсий: общей, межгрупповой и внутригрупповой.

Общая дисперсия измеряет вариацию признака по всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Она равна среднему квадрату отклонений отдельных значение признака х от общей средней величины и может быть вычислена как простая дисперсия или взвешенная дисперсия.

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, обусловленную влиянием признака-фактора, положенного в основание группировки. Она равна среднему квадрату отклонений групповых (частных) средних от общей средней :

,

где f – численность единиц в группе.

Внутригрупповая (частная) дисперсия отражает случайную вариацию, т.е. часть вариации, обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основание группировка. Она равна среднему квадрату отклонений отдельных значений признака внутри группы х от средней арифметической этой группы x i (групповой средней) и может быть исчислена как простая дисперсия

или как взвешенная дисперсия .

На основании внутригрупповой дисперсии по каждой группе, т.е. на основании можно определить общую среднюю из внутригрупповых дисперсий: .

Согласно правилу сложения дисперсий общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсий:

.

Пользуясь правилом сложения дисперсий, можно всегда по двум известным дисперсиям определить третью – неизвестную. Чем больше доля межгрупповой дисперсии в общей дисперсии, тем сильнее влияние группировочного признака на изучаемый признак.

Поэтому в статистическом анализе широко используется эмпирический коэффициент детерминации — показатель, представляющий собой долю межгрупповой дисперсии в общей дисперсии результативного признака и характеризующий силу влияния группировочного признака на образование общей вариации:

.

Эмпирический коэффициент детерминации показывает долю вариации результативного признака у под влиянием факторного признака х (остальная часть общей вариации у обуславливается вариацией прочих факторов). При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной связи – единице.

Эмпирическое корреляционное отношение – это корень квадратный из эмпирического коэффициента детерминации: .

Он показывает тесноту связи между группировочным и результативным признаками. Эмпирическое корреляционное отношение может принимать значения от 0 до 1. Если связь отсутствует, то корреляционное отношение равно нулю, т.е. все групповые средние будут равны между собой, межгрупповой вариации не будет. Значит, группировочный признак никак не влияет на образование общей вариации. Если связь функциональная, то корреляционное отношение будет равно единице. В этом случае дисперсия групповых средних равна общей дисперсии , т.е. внутригрупповой вариации не будет. Это означает, что группировочный признак целиком определяет вариацию изучаемого результативного признака. Чем значение корреляционного отношения ближе к единице, тем теснее, ближе к функциональной зависимости связь между признаками.

Задание 2. Относительные показатели

Вариант 10. Имеются следующие данные о численности населения за 1999 г. и территории по двум странам:

Страна

Численность населения (млн. чел.)

Территория (тыс. км 2)

Молдова

64.6

Украина

49.7

603.7

Определить:

    Плотность населения по обеим странам.

    Относительный показатель сравнения по численности населения.

    Решение

    Плотность населения рассчитывается как относительный показатель интенсивности (ОПИ), характеризующий степень распространения или уровень развития того или иного явления в определенной среде. Он рассчитывается как отношение показателя, характеризующего явление, к показателю, характеризующему среду распространения явления.

    ОПИ Молдова =чел/км 2 . Т.е. плотность населения Молдавы 31,15 человека на 1 км 2 .

    ОПИ Азербайджан =чел/км 2 . Т.е. плотность населения Украины 82,33 человека на 1 км 2 .

    ОПСр=. Т.е. территория Украины в 20,708 раза (или на 1970%) больше территории Молдавии.

    Задание 3. Средние показатели

    Вариант 10. Имеются следующие данные о распределении численности безработных женщин, зарегистрированных службами занятости, по возрастным группам на конец 1999 г. (тыс.чел.):

    Возраст

    менее 20

    20-25

    25-30

    30-35

    35-40

    40-45

    45-50

    50 и старше

    Численность безработных

    12,7

    11,3

    Найти среднее значение возраста зарегистрированной безработной.

    Решение

    Для того, чтобы рассчитать среднюю арифметическую интервального ряда, надо сначала перейти к условному дискретному ряду из средних значений интервалов. Если имеются интервалы без указания нижней границы или верхней границы (50 и старше), то соответствующее значение устанавливают таким образом, чтобы получился ряд с равновеликими интервалами. В данном случае условный дискретный ряд имеет вид:

    Возраст

    17,5

    22,5

    27,5

    32,5

    37,5

    42,5

    47,5

    52,5

    Численность населения

    12,7

    11,3


    ,

    где x i i -тое значение признака,

    n i – частота x i , k – число различных значений признака в совокупности.

    . Т.е. среднее значение возраста 35,0 лет.

    Задание 4. Ряды динамики

    Вариант 10. Имеются следующие данные о динамике среднегодовой численности населения Украины (млн. чел.):

    Годы

    1995

    1996

    1997

    1998

    1999

    Численность населения

    51,3

    50,9

    50,4

    50,0

    49,7

    Определить:

    Абсолютные приросты (цепные и базисные).

    Средний абсолютный прирост.

    Темпы роста (цепные и базисные).

    Темпы прироста (цепные и базисные).

    Абсолютное значение 1% прироста.

  1. Среднегодовой темп роста.

    Решение

    Абсолютный прирост характеризует размер увеличения или уменьшения изучаемого явления за определенный период времени. Он определяется как разность между данным уровнем и предыдущим (цепной) или первоначальным (базисный).

    Для динамического ряда , состоящего из n+1 уровней, абсолютный прирост определяется таким образом:

    цепной , где – текущий уровень ряда, –уровень, предшествующий .

    базисный , где – текущий уровень ряда, – начальный уровень ряда.

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    (млн.чел.)

    Средний абсолютный прирост рассчитывается по формуле

    ,

    где – конечный уровень ряда.

    Т. е. среднегодовая численность населения Украины за данный период времени снижалась в среднем на 0,4 млн. человек в год.

    Темпом роста называется отношение данного уровня явления к предыдущему (цепной) или начальному (базисный) уровню, выраженное в процентах. Темпы роста вычисляются по формулам:

    цепной .

    базисный .

    Темпом прироста называется отношение абсолютного прироста к предыдущему (цепной) или начальному (базисный) уровню, выраженное в процентах. Темпы прироста вычисляются по формулам:

    цепной .

Показатели вариации. При изучении варьирующего признака у единиц совокупности нельзя ограничиваться лишь расчетом средней величины из отдельных вариантов, так как одна и та же средняя может относиться далеко не к одинаковым по составу совокупностям.

Вариацией признака называется различие индивидуальных значений признака внутри изучаемой совокупности.

Термин «вариация» произошел от латинского variatio – изменение, колеблемость, различие. Однако не всякие различия принято называть вариацией.

Под вариацией в статистике понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены перекрещивающимся влиянием действия различных факторов. Колеблемость отдельных значений характеризуют показатели вариации. Чем больше вариация, тем дальше в среднем отдельные значения лежат друг от друга.

Различают вариацию признака в абсолютных и относительных величинах.

К абсолютным показателям относятся: размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, дисперсия. Все абсолютные показатели имеют ту же размерность, что и изучаемые величины.

К относительным показателям относятся коэффициенты осцилляции, линейного отклонения и вариации.

Показатели абсолютные. Рассчитаем абсолютные показатели, характеризующие вариацию признака.

Размах вариации, представляет собой разность между максимальным и минимальным значением признака.

R = Xmax – Xmin.

Показатель размаха вариации не всегда применим, так как он учитывает только крайние значения признака, которые могут сильно отличаться от всех других единиц.

Более точно можно определить вариацию в ряду при помощи показателей, учитывающих отклонения всех вариантов от средней арифметической.

Таких показателей в статистике два: среднее линейное и среднее квадратическое отклонение.

Среднее линейное отклонение (L) представляет собой среднее арифметическое из абсолютных значений отклонений отдельных вариантов от средней.

Практическое использование среднего линейного отклонения заключается в следующем, с помощью этого показателя анализируется состав работающих, ритмичность производства, равномерность поставок материалов.

Недостаток этого показателя заключается в том, что он усложняет расчеты вероятного типа, затрудняет применение методов математической статистики.

Среднее квадратическое отклонение () является наиболее распространенным и общепринятым показателем вариации. Оно несколько больше среднего линейного отклонения. Для умеренно асимметричных распределений установлено следующее соотношение между ними

Для его исчисления каждое отклонение от средней возводится в квадрат, все квадраты суммируются (с учетом весом), после чего сумма квадратов делится на число членов ряда и из частного извлекается корень квадратный.

Все эти действия выражает следующая формула

т.е. среднее квадратическое отклонение представляет собой корень квадратный из средней арифметической квадратов отклонений от средней.

Среднее квадратическое отклонение является мерилом надежности средней. Чем меньше σ, тем лучше среднее арифметическое отражает собой всю представляемую совокупность.

Средняя арифметическая из квадратов отклонений вариантов значений признака от средней величины носит название дисперсии (), которая рассчитывается по формулам

Отличительной особенностью данного показатели является то, что при возведении в квадрат () удельный вес малых отклонений уменьшается, а больших увеличивается в общей сумме отклонений.

Дисперсия обладает рядом свойств, некоторые из них позволяют упростить её вычисление:

1. Дисперсия постоянной величины равна 0.

Если , то и .

Тогда .

2. Если все варианты значений признака (x) уменьшить на одно и то же число, то дисперсия не уменьшится.

Пусть , но тогда в соответствии со свойствами средней арифметической и .

Дисперсия в новом ряду будет равна

Т.е. дисперсия в ряду равна дисперсии первоначального ряда .

3. Если все варианты значений признака уменьшить в одно и то же число раз (k раз), то дисперсия уменьшится в k2 раз.

Пусть , тогда и .

Дисперсия же нового ряда будет равна

4. Дисперсия, рассчитанная по отношению к средней арифметической, является минимальной. Средний квадрат отклонений, рассчитанный относительно произвольного числа , больше дисперсии, рассчитанной по отношению к средней арифметической, на квадрат разности между средней арифметической и числом , т.е. . Дисперсия от средней имеет свойство минимальности, т.е. она всегда меньше дисперсий, исчисленных от любых других величин. В этом случае, когда приравниваем к 0 и, следовательно, не вычисляем отклонения, формула принимает такой вид:

Выше был рассмотрен расчет показателей вариации для количественных признаков, но в экономических расчетах может ставиться задача оценки вариации качественных признаков. Например, при изучении качества изготовленной продукции, продукцию можно разделить на качественную и бракованную.

В таком случае речь идет об альтернативных признаках.

Альтернативными признаками называются такие, которыми одни единицы совокупности обладают, а другие нет. Например, наличие производственного стажа у абитуриентов, ученая степень у преподавателей ВУЗов и т.д. Наличие признака у единиц совокупности условно обозначаем через 1, а отсутствие – 0. Тогда, если долю единиц, обладающих признаком (в общей численности единиц совокупности), обозначить через р, а долю единиц, не обладающих признаком, через q, дисперсию альтернативного признака можно рассчитать по общему правилу. При этом p + q = 1 и, значит, q = 1– p.

Сначала рассчитываем среднее значение альтернативного признака:

Рассчитаем среднее значение альтернативного признака

,

т.е. среднее значение альтернативного признака равно доле единиц, обладающих данным признаком.

Дисперсия же альтернативного признака будет равна:

Таким образом, дисперсия альтернативного признака равняется произведению доли единиц, обладающих данным признаком, на долю единиц, не обладающих данным признаком.

А среднее квадратическое отклонение будет равно =.

Показатели относительные. Для целей сравнения колеблемости различных признаков в одной и той же совокупности или же при сравнении колеблемости одного и того же признака в нескольких совокупностях представляют интерес показатели вариации, выраженные в относительных величинах. Базой для сравнения служит средняя арифметическая. Эти показатели вычисляются как отношение размаха вариации, среднего линейного отклонения или среднего квадратического отклонения к средней арифметической или медиане.

Чаще всего они выражаются в процентах и определяют не только сравнительную оценку вариации, но и дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%. Различают следующие относительные показатели вариации:

1. Коэффициент осцилляции отражает относительную колеблемость крайних значений признака вокруг средней.

3. Коэффициент вариации оценивает типичность средних величин.

.

Чем меньше , тем однороднее совокупность по изучаемому признаку и типичнее средняя. Если ≤33%, то распределение близко к нормальному, а совокупность считается однородной. Из приведенного примера вторая совокупность однородна.

Виды дисперсий и правило сложения дисперсий. Наряду с изучением вариации признака по всей совокупности в целом часто бывает необходимо проследить количественные изменения признака по группам, на которые разделяется совокупность, а также и между группами. Такое изучение вариации достигается посредством вычисления и анализа различных видов дисперсии.

При этом можно определить три показателя колеблемости признака в совокупности:

1. Общую вариацию совокупности, которая является результатом действия всех причин. Эта вариация может быть измерена общей дисперсией (), характеризующей отклонения индивидуальных значений признака совокупности от общей средней

.

2. Вариацию групповых средних, выражающих отклонения групповых средних от общей средней и отражающих влияние того фактора, по которому произведена группировка. Эта вариация может быть измерена так называемой межгрупповой дисперсией (δ2)

,

где - групповые средние, а -общая средняя для всей совокупности, и - численность отдельных групп.

3. Остаточную (или внутригрупповую) вариацию, которая выражается в отклонении отдельных значений признака в каждой группе от их групповой средней и, следовательно, отражает влияние всех прочих факторов кроме положенного в основу группировки. Поскольку вариацию в каждой группе отражает групповая дисперсия

,

то для всей совокупности остаточную вариацию будет отражать средняя из групповых дисперсий. Эту дисперсию называют средней из внутригрупповых дисперсий () и рассчитывается она по формуле

Это равенство, имеющее строго математическое доказательство, известно, как правило сложения дисперсий.

Правило сложения дисперсий позволяет находить общую дисперсию по её компонентам, когда индивидуальные значения признака неизвестны, а в распоряжении имеются только групповые показатели.

Коэффициент детерминации. Правило сложения дисперсии позволяет выявить зависимость результатов от определенных факторов при помощи коэффициента детерминации.

Оно характеризует влияние признака, положенного в основание группировки, на вариацию результативного признака. Корреляционное отношение изменяется в пределах от 0 до 1. Если , то группировочный признак не оказывает влияния на результативный. Если , то результативный признак изменяется только в зависимости от признака, положенного в основание группировки, а влияние прочих факторных признаков равно нулю.

Показатели асимметрии и эксцесса. В области экономических явлений строго симметричные ряды встречаются крайне редко, чаще приходится иметь дело с асимметричными рядами.

В статистике для характеристики асимметрии пользуются несколькими показателями. Если учесть, что в симметричном ряду средняя арифметическая совпадает по значению с модой и медианой, то наиболее простым показателем асимметрии () будет разность между средней арифметической и модой, т.е.

Величину эксцесса рассчитывают по формуле

Если >0, то эксцесс считают положительным (распределение островершинно), если <0, то эксцесс считается отрицательным (распределение низковершинно).