Что значит медиана. Функция медиана в excel для выполнения статистического анализа

Функция МЕДИАНА в Excel используется для анализа диапазона числовых значений и возвращает число, которое является серединой исследуемого множества (медианой). То есть, данная функция условно разделяет множество чисел на два подмножества, первое из которых содержит числа меньше медианы, а второе – больше. Медиана является одним из нескольких методов определения центральной тенденции исследуемого диапазона.

Примеры использования функции МЕДИАНА в Excel

При исследовании возрастных групп студентов использовались данные случайно выбранной группы учащихся в ВУЗе. Задача – определить срединный возраст студентов.

Исходные данные:

Формула для расчета:


Описание аргумента:

  • B3:B15 – диапазон исследуемых возрастов.

Полученный результат:

То есть в группе есть студенты, возраст которых меньше 21 года и больше этого значения.



Сравнение функций МЕДИАНА и СРЗНАЧ для вычисления среднего значения

Во время вечернего обхода в больнице каждому больному была замерена температура тела. Продемонстрировать целесообразность использования параметра медиана вместо среднего значения для исследования ряда полученных значений.

Исходные данные:

Формула для нахождения среднего значения:

Формула для нахождения медианы:

Как видно из показателя среднего значения, в среднем температура у пациентов выше нормы, однако это не соответствует действительности. Медиана показывает, что как минимум у половины пациентов наблюдается нормальная температура тела, не превышающая показатель 36,6.

Внимание! Еще одним методом определения центральной тенденции является мода (наиболее часто встречающееся значение в исследуемом диапазоне). Чтобы определить центральную тенденцию в Excel следует использовать функцию МОДА. Обратите внимание: в данном примере значения медианы и моды совпадают:

То есть срединная величина, делящая одно множество на подмножества меньших и больших значений также является и наиболее часто встречающимся значением в множестве. Как видно, у большинства пациентов температура составляет 36,6.

Пример расчета медианы при статистическом анализе в Excel

Пример 3. В магазине работают 3 продавца. По результатам последних 10 дней необходимо определить работника, которому будет выдана премия. При выборе лучшего работника учитывается степень эффективности его работы, а не число проданных товаров.

Исходная таблица данных:


Для характеристики эффективности будем использовать сразу три показателя: среднее значение, медиана и мода. Определим их для каждого работника с использованием формул СРЗНАЧ, МЕДИАНА и МОДА соответственно:


Для определения степени разброса данных используем величину, которая является суммарным значением модуля разницы среднего значения и моды, среднего значения и медианы соответственно. То есть коэффициент x=|av-med|+|av-mod|, где:

  • av – среднее значение;
  • med – медиана;
  • mod – мода.

Рассчитаем значение коэффициента x для первого продавца:

Аналогично проведем расчеты для остальных продавцов. Полученные результаты:


Определим продавца, которому будет выдана премия:

Примечание: функция НАИМЕНЬШИЙ возвращает первое минимальное значение из рассматриваемого диапазона значений коэффициента x.


Коэффициент x является некоторой количественной характеристикой стабильности работы продавцов, которую ввел экономист магазина. С его помощью удалось определить диапазон с наименьшими отклонениями значений. Этот способ демонстрирует, как можно использовать сразу три метода определения центральной тенденции для получения наиболее достоверных результатов.

Особенности использования функции МЕДИАНА в Excel

Функция имеет следующий синтаксис:

МЕДИАНА(число1; [число2];...)

Описание аргументов:

  • число1 – обязательный аргумент, характеризующий первое числовое значение, содержащееся в исследуемом диапазоне;
  • [число2] – необязательный второй (и последующие аргументы, всего до 255 аргументов), характеризующий второе и последующие значения исследуемого диапазона.

Примечания 1:

  1. При расчетах удобнее передавать сразу весь диапазон исследуемых значений вместо последовательного ввода аргументов.
  2. В качестве аргументов принимаются данные числового типа, имена, содержащие числа, данные ссылочного типа и массивы (например, =МЕДИАНА({1;2;3;5;7;10})).
  3. При расчете медианы учитываются ячейки, содержащие пустые значения или логические ИСТИНА, ЛОЖЬ, которые будут интерпретированы как числовые значения 1 и 0 соответственно. Например, результат выполнения функции с логическими значениями в аргументах (ИСТИНА;ЛОЖЬ) эквивалентен результату выполнения с аргументами (1;0) и равен 0,5.
  4. Если один или несколько аргументов функции принимают текстовые значения, которые не могут быть преобразованы в числовые, или содержат коды ошибок, результатом выполнения функции будет код ошибки #ЗНАЧ!.
  5. Для определения медианы выборки могут быть использованы другие функции Excel: ПРОЦЕНТИЛЬ.ВКЛ, КВАРТИЛЬ.ВКЛ, НАИБОЛЬШИЙ Примеры использования:
  • =ПРОЦЕНТИЛЬ.ВКЛ(A1:A10;0,5), поскольку по определению медиана – 50-я процентиль.
  • =КВАРТИЛЬ.ВКЛ(A1:A10;2), так как медиана – 2-я квартиль.
  • =НАИБОЛЬШИЙ(A1:A9;СЧЁТ(A1:A9)/2), но только если количество чисел в диапазоне является нечетным числом.

Примечания 2:

  1. Если в исследуемом диапазоне все числа распределены симметрично относительно среднего значения, среднее арифметическое и медиана для данного диапазона будут эквивалентны.
  2. При больших отклонениях данных в диапазоне («разбросе» значений) медиана лучше отражает тенденцию распределения значений, чем среднее арифметическое. Отличным примером является использование медианы для определения реального уровня зарплат у населения государства, в котором чиновники получают на порядок больше обычных граждан.
  3. Диапазон исследуемых значений может содержать:
  • Нечетное количество чисел. В этом случае медианой будет являться единственное число, разделяющее диапазон на два подмножества больших и меньших значений соответственно;
  • Четное количество чисел. Тогда медиана вычисляется как среднее арифметическое для двух числовых значений, разделяющих множество на два указанных выше подмножества.

Мода и медиана – особого рода средние, которые используются для изучения структуры вариационного ряда. Их иногда называют структурными средними, в отличие от рассмотренных ранее степенных средних.

Мода – это величина признака (варианта), которая чаще всего встречается в данной совокупности, т.е. имеет наибольшую частоту.

Мода имеет большое практическое применение и в ряде случаев только мода может дать характеристику общественных явлений.

Медиана – это варианта, которая находится в середине упорядоченного вариационного ряда.

Медиана показывает количественную границу значения варьирующего признака, которой достигла половина единиц совокупности. Применение медианы наряду со средней или вместо нее целесообразно при наличии в вариационном ряду открытых интервалов, т.к. для вычисления медианы не требуется условное установление границ отрытых интервалов, и поэтому отсутствие сведений о них не влияет на точность вычисления медианы.

Медиану применяют также тогда, когда показатели, которые нужно использовать в качестве весов, неизвестны. Медиану применяют вместо средней арифметической при статистических методах контроля качества продукции. Сумма абсолютных отклонений варианты от медианы меньше, чем от любого другого числа.

Рассмотрим расчет моды и медианы в дискретном вариационном ряду:

Определить моду и медиану.

Мода Мо = 4 года, так как этому значению соответствует наибольшая частота f = 5.

Т.е. наибольшее число рабочих имеют стаж 4 года.

Для того, чтобы вычислить медиану, найдем предварительно половину суммы частот. Если сумма частот является числом нечетным, то мы сначала прибавляем к этой сумме единицу, а затем делим пополам:

Медианой будет восьмая по счету варианта.

Для того, чтобы найти, какая варианта будет восьмой по номеру, будем накапливать частоты до тех пор, пока не получим сумму частот, равную или превышающую половину суммы всех частот. Соответствующая варианта и будет медианой.

Ме = 4 года.

Т.е. половина рабочих имеет стаж меньше четырех лет, половина больше.

Если сумма накопленных частот против одной варианты равна половине сумме частот, то медиана определяется как средняя арифметическая этой варианты и последующей.

Вычисление моды и медианы в интервальном вариационном ряду

Мода в интервальном вариационном ряду вычисляется по формуле

где Х М0 - начальная граница модального интервала,

h м 0 – величина модального интервала,

f м 0 , f м 0-1 , f м 0+1 – частота соответственно модального интервала, предшествующего модальному и последующего.

Модальным называется такой интервал, которому соответствует наибольшая частота.

Пример 1

Группы по стажу

Число рабочих, чел

Накопленные частоты

Определить моду и медиану.

Модальный интервал , т.к. ему соответствует наибольшая частота f = 35. Тогда:

Хм 0 =6, 0 =35

4. Мода. Медиана. Генеральная и выборочная средняя

Мода на экране, медиана в треугольнике, а средние – это температура по больнице и в палате. Продолжаем наш практический курс занимательной статистики (Занятие 1) изучением центральных характеристик статистической совокупности , названия которых вы видите в заголовке. И начнём мы с его конца, поскольку о средних величинах речь зашла практически с первых же абзацев темы. Для подготовленных читателей оглавление :

  • Генеральная и выборочная средняя – вычисление по первичным данным и для сформированного дискретного вариационного ряда;
  • Мода – определение и нахождение для дискретного случая;
  • Медиана – общее определение, как найти медиану;
  • Средняя, мода и медиана интервального вариационного ряда – вычисление по первичным данным и по готовому ряду. Формулы моды и медианы,
  • Квартили, децили, перцентили – коротко о главном.

ну а «чайникам» лучше ознакомиться с материалом по порядку:

Итак, пусть исследуется некоторая генеральная совокупность объёма , а именно её числовая характеристика , не важно, дискретная или непрерывная (Занятия 2, 3 ).

Генеральной средней называется среднее арифметическое всех значений этой совокупности:

Если среди чисел есть одинаковые (что характерно для дискретного ряда ) , то формулу можно записать в более компактном виде:
, где
варианта повторяется раз;
варианта – раз;
варианта – раз;

варианта – раз.

Живой пример вычисления генеральной средней встретился в Примере 2 , но чтобы не занудничать, я даже не буду напоминать его содержание.

Далее. Как мы помним, обработка всей генеральной совокупности часто затруднена либо невозможна, и поэтому из неё организуют представительную выборку объема , и на основании исследования этой выборки делают вывод обо всей совокупности.

Выборочной средней называется среднее арифметическое всех значений выборки:

и при наличии одинаковых вариант формула запишется компактнее:
– как сумма произведений вариант на соответствующие частоты .

Выборочная средняя позволяет достаточно точно оценить истинное значение , чего вполне достаточно для многих исследований. При этом, чем больше выборка, тем точнее будет эта оценка.

Практику начнём, а точнее продолжим, с дискретного вариационного ряда и знакомого условия:

Пример 8

По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.

Как решать задачу? Если нам даны первичные данные (исходные необработанные значения), то их можно тупо просуммировать и разделить результат на объём выборки:
– среднестатистический квалификационный разряд рабочих цеха.

Но во многих задачах требуется составить вариационный ряд (см. Пример 4 ) :

– или же этот ряд предложен изначально (что бывает чаще). И тогда, мы, конечно, используем «цивилизованную» формулу:

Мода . Мода дискретного вариационного ряда – это варианта с максимальной частотой. В данном случае . Моду легко отыскать по таблице, и ещё легче на полигоне частот – это абсцисса самой высокой точки:


Иногда таковых значений несколько (с одинаковой максимальной частотой), и тогда модой считают каждое из них.

Если все или почти все варианты различны (что характерно для интервального ряда ), то модальное значение определяется несколько другим способом, о котором во 2-й части урока.

Медиана . Медиана вариационного ряда* – это значение, которая делит его на две равные части (по количеству вариант).

Но теперь нам нужно найти среднюю, моду и медиану.

Решение : чтобы найти среднюю по первичным данным, лучше всего просуммировать все варианты и разделить полученный результат на объём совокупности:
ден. ед.

Эти подсчёты, кстати, займут не так много времени и при использовании оффлайн калькулятора. Но если есть Эксель, то, конечно, забиваем в любую свободную ячейку =СУММ(, выделяем мышкой все числа, закрываем скобку ) , ставим знак деления / , вводим число 30 и жмём Enter . Готово.

Что касается моды, то её оценка по исходным данным, становится непригодна. Хоть мы и видим среди чисел одинаковые, но среди них запросто может найтись пять так шесть-семь вариант с одинаковой максимальной частотой, например, частотой 2. Кроме того, цены могут быть округлёнными. Поэтому модальное значение рассчитывается по сформированному интервальному ряду (о чём чуть позже) .

Чего не скажешь о медиане: забиваем в Эксель =МЕДИАНА(, выделяем мышью все числа, закрываем скобку ) и жмём Enter : . Причём, здесь даже ничего не нужно сортировать.

Но в Примере 6 была проведена сортировка по возрастанию (вспоминаем и сортируем – ссылка выше) , и это хорошая возможность повторить формальный алгоритм отыскания медианы. Делим объём выборки пополам:

И поскольку она состоит из чётного количества вариант, то медиана равна среднему арифметическому 15-й и 16-й варианты упорядоченного (!) вариационного ряда:

ден. ед.

Ситуация вторая . Когда дан готовый интервальный ряд (типичная учебная задача).

Продолжаем анализировать тот же пример с ботинками, где по исходным данным был составлен ИВР . Для вычисления средней потребуются середины интервалов:

– чтобы воспользоваться знакомой формулой дискретного случая:

отличный результат! Расхождение с более точным значением (), вычисленным по первичным данным, составляет всего 0,04.

По сути дела, здесь мы приблизили интервальный ряд дискретным, и это приближение оказалось весьма эффективным. Впрочем, особой выгоды тут нет, т.к. при современном программном обеспечении не составляет труда вычислить точное значение даже по очень большому массиву первичных данных. Но это при условии, что они нам известны:)

С другими центральными показателями всё занятнее.

Чтобы найти моду, нужно найти модальный интервал (с максимальной частотой) – в данной задаче это интервал с частотой 11, и воспользоваться следующей страшненькой формулой:
, где:

– нижняя граница модального интервала;
– длина модального интервала;
– частота модального интервала;
– частота предыдущего интервала;
– частота следующего интервала.

Таким образом:
ден. ед. – как видите, «модная» цена на ботинки заметно отличается от средней арифметической .

Не вдаваясь в геометрию формулы, просто приведу гистограмму относительных частот и отмечу :


откуда хорошо видно, что мода смещена относительно центра модального интервала в сторону левого интервала с бОльшей частотой. Логично.

Справочно разберу редкие случаи:

– если модальный интервал крайний, то либо ;

– если обнаружатся 2 модальных интервала, которые находятся рядом, например, и , то рассматриваем модальный интервал , при этом близлежащие интервалы (слева и справа) по возможности тоже укрупняем в 2 раза.

– если между модальными интервалами есть расстояние, то применяем формулу к каждому интервалу, получая тем самым 2 или бОльшее количество мод.

Вот такой вот депеш мод:)

И медиана. Если дан готовый интервальный ряд, то медиана рассчитывается чуть по менее страшной формуле, но сначала нудно (описка по Фрейду:)) найти медианный интервал – это интервал, содержащий варианту (либо 2 варианты), которая делит вариационный ряд на две равные части.

Выше я рассказал, как определить медиану, ориентируясь на относительные накопленные частоты , здесь же сподручнее рассчитать «обычные» накопленные частоты . Вычислительный алгоритм точно такой же – первое значение сносим слева (красная стрелка) , и каждое следующее получается как сумма предыдущего с текущей частотой из левого столбца (зелёные обозначения в качестве примера) :

Всем понятен смысл чисел в правом столбце? – это количество вариант, которые успели «накопиться» на всех «пройденных» интервалах, включая текущий.

Поскольку у нас чётное количество вариант (30 штук), то медианным будет тот интервал, который содержит 30/2 = 15-ю и 16-ю варианту. И ориентируясь по накопленным частотам, легко прийти к выводу, что эти варианты содержатся в интервале .

Формула медианы:
, где:
– объём статистической совокупности;
– нижняя граница медианного интервала;
– длина медианного интервала;
частота медианного интервала;
накопленная частота предыдущего интервала.

Таким образом:
ден. ед. – заметим, что медианное значение, наоборот, оказалось смещено правее, т.к. по правую руку находится значительное количество вариант:


И справочно особые случаи.

Cреднее арифметическое значение (далее по тексту — среднее), пожалуй, наиболее популярный статистический параметр. Этим понятием пользуются повсеместно — начиная от поговорки «средняя температура по больнице» и кончая серьезными научными трудами. Однако, как ни странно, среднее значение — коварное понятие, часто вводящее в заблуждение, вместо того чтобы придавать четкость изложению и вносить ясность.

Если говорить о научной работе, то статистический анализ данных применяется почти во всех прикладных науках, даже и в гуманитарных (например, психологии). Среднее значение вычисляется для признаков, измеряемых в так называемых непрерывных шкалах. Такими признаками являются, например, концентрации веществ в сыворотке крови, рост, вес, возраст. Среднее арифметическое можно легко вычислить, и этому учат еще в средней школе. Однако (в соответствии с положениями математической статистики) среднее значение является адекватной мерой центральной тенденции в выборке только в случае нормального (гауссова) распределения признака (рис. 1). Рис. 1. Нормальное (гауссово) распределение признака в выборке. Среднее (М) и медиана (Ме) совпадают

В случае же отклонения распределения от нормального закона среднее значение использовать некорректно, так как оно является слишком чувствительным параметром к так называемым «выбросам» — нехарактерным для изучаемой выборки, слишком большим или слишком малым значением (рис. 2). В этом случае для характеристики центральной тенденции в выборке должен применяться другой параметр — медиана. Медиана — это значение признака, справа и слева от которого находится равное число наблюдений (по 50%). Этот параметр (в отличие от среднего значения) устойчив к «выбросам». Заметим также, что медиана может использоваться и в случае нормального распределения — в этом случае медиана совпадает со средним значением.

Рис. 2. Распределение признака в выборке, отличное от нормального. Среднее (м) и медиана (МЕ) не совпадают

Для того, чтобы узнать, является ли распределение признака в выборке нормальным (гауссовым) или нет, т. е. для того, чтобы узнать, какой из параметров следует применять (среднее значение или медиану), существуют специальные статистические тесты.

Приведем пример. Скорость оседания эритроцитов в группе пациентов, недавно перенесших пневмонию, — 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Среднее значение для этой выборки равно 17,8, медиана — 12. Распределение (по тесту Шапиро—Уилка) нормальным не является (рис. 3), поэтому использовать надо медиану. Рис. 3. Пример

Как ни странно, но в некоторых областях экономики сторонний наблюдатель не может заметить хоть какого-то следа корректного применения математической статистики. Так, нам постоянно говорят о средней зарплате (например, в НИИ), и эти числа обычно удивляют не только рядовых сотрудников, но и руководителей подразделений (ныне называемых «менеджерами среднего звена»). Мы удивляемся, что средняя зарплата в Москве — 40 тыс. руб., но, конечно, понимаем, что нас «усреднили» с олигархами. Вот пример из жизни научных работников: зарплаты сотрудников лаборатории (тыс. руб.) — 3, 5, 5, 7, 11, 12, 16, 16, 21, 42, 58. Среднее значение — 17,8, медиана — 12. Согласитесь, что это разные числа!

Конечно, нельзя исключить, что замалчивание свойств среднего — лукавство, так как руководству всегда выгоднее представить ситуацию с зарплатой сотрудников лучше, чем она есть на самом деле.

Не пора ли научному сообществу призвать наших руководителей прекратить некорректное использование математической статистики?

Ольга Реброва,
докт. мед. наук, вице-президент
МОО «Общество специалистов доказательной медицины»

Для характеристики рядов распределения (структуры вариационных рядов), наряду со средней, используются т. н. структурные средние : мода и медиана . Мода и медиана наиболее часто используются в экономической практике.

Мода - варианта, которая наиболее часто встречается в ряду распределения (в данной совокупности).

В дискретных вариационных рядах мода определяется по наибольшей частоте. Предположим товар А реализуют в городе 9 фирм по следующим ценам в рублях:

44; 43; 44; 45; 43; 46; 42; 46;43. Так как чаще всего встречается цена 43 рубля, то она и будет модальной.

При характеристике социальных групп населения по уровню дохода следует использовать модальное значение, нежели среднее. Средняя будет занижать одни показатели и завышать другие - тем самым осредняя (уравнивания) доходы всех слоев населения.

В интервальных вариационных рядах моду определяют приближенно по формуле:

    ХМ0 - нижняя граница модального интервала;

    h Mo - величина (шаг, ширина) модального интервала;

    f 1 - локальная частота интервала, предшествующего модальному;

    f 2 - локальная частота модального интервала;

    f 3 - локальная частота интервала, следующего за модальным.

Распределение населения по уровню среднедушевого месячного дохода

Интервал 1000-3000 в данном распределении будет модальным, т.к. он имеет наибольшую частоту (f=35,5). Тогда по вышеуказанной формуле мода будет равна:

На графике (гистограмме распределения) моду определяют следующим образом: по оси ординат откладывают локальные частоты, а по оси абсцисс -интервалы либо центры интервалов. Выбирают самый высокий столбик, которому соответствует величина признака с наибольшей частотой в ряду распределения.

Мода применяется для решения некоторых практических задач. Так, например, при изучении товарооборота рынка берется модальная цена, для изучения спроса на обувь, одежду используют модальные размеры обуви и одежды.

Медиана - это численное значение признака у той единицы совокупности, которая находится в середине ранжированного ряда (построенного в порядке возрастания, либо убывания значений изучаемого признака). Медиану иногда называют серединной вариантой , т.к. она делит совокупность на две равные части таким образом, чтобы по обе ее стороны находилось одинаковое число единиц совокупности. Если всем единицам ряда присвоить порядковые номера, то порядковый номер медианы будет определяться по формуле (n+1):2 для рядов, где n - нечетное . Если же ряд с четным числом единиц, томедианой будет являться среднее значение между двумя соседними вариантами, определенными по формуле: n:2, (n+1):2, (n:2)+1.

В дискретных вариационных рядах с нечетным числом единиц совокупности - это конкретное численное значение в середине ряда.

Нахождение медианы в интервальных вариационных рядах требует предварительного определения интервала, в котором находится медиана, т.е. медианного интервала – этот интервал характеризуется тем, что его кумулятивная (накопленная) частота равна полусумме или превышает полусумму всех частот ряда.

    X Me -нижняя граница медианного интервала

    h Me -величина медианного интервала;

    S Me-1 -сумма накопленных частот интервала, предшествующего медианному интервалу;

    f Me -локальная частота медианного интервала.

По данным таблицы определим медианное значение среднедушевого дохода. Для этого необходимо определить какой интервал будет медианным. Используем формулу номера медианной единицы ряда, т.е. середины:

Дробное значение N (всегда при четном числе членов) равное 50,5% говорит о том, что середина ряда находится между 50% и 51%, т.е. в третьем интервале. Иными словами: медианным считается интервал, на который впервые приходится более половины суммы накопленных частот. Отсюда медиана:

Для того, чтобы определить графически интервал, в котором находится медиана, по оси ординат откладывают накопленные частоты, а по оси абсцисс - центры интервалов. Из точки на оси ординат, которой соответствует 50.5% суммы накопленных частот, проводят линию параллельно оси абсцисс до пересечения с кумулятой. Из точки пересечения опускают перпендикуляр на ось абсцисс.

Соотношение моды, медианы и средней арифметической указывает на характер распределения признака в совокупности, позволяет оценить его асимметрию. Если M 0

Из соотношения этих показателей следует сделать вывод о правосторонней асимметрии распределения населения по уровню среднедушевого денежного дохода:

Квартиль –это четвертая часть совокупности, определяется как и медиана, только сумму частот необходимо разделить на 4, а при определении квартильного интервала, кумулятивная частота должна быть больше или равна четверти суммы частот совокупности.

Дециль – делит совокупность на десять равных частей. Определяется аналогично как и квартиль, только сумму частот необходимо разделить на 10.