Что является оценкой математического ожидания св. Оценки для математического ожидания и дисперсии

ЦЕЛЬ ЛЕКЦИИ: ввести понятие оценки неизвестного параметра распределения и дать классификацию таких оценок; получить точечные и интервальные оценки математического ожидания и дисперсии.

На практике в большинстве случаев закон распределения случайной величины неизвестен, и по результатам наблюдений
необходимо оценить числовые характеристики (например, математическое ожидание, дисперсию или другие моменты) или неизвестный параметр, который определяет закон распределения (плотность распределения)
изучаемой случайной величины. Так, для показательного распределения или распределения Пуассона достаточно оценить один параметр, а для нормального распределения подлежат оценке уже два параметра – математическое ожидание и дисперсия.

Виды оценок

Случайная величина
имеет плотность вероятности
, где– неизвестный параметр распределения. В результате эксперимента получены значения этой случайной величины:
. Произвести оценку по существу означает, что выборочным значениям случайной величины необходимо поставить в соответствие некоторое значение параметра, т. е. создать некоторую функцию результатов наблюдений
, значение которой принимается за оценкупараметра. Индексуказывает на количество проведенных опытов.

Любая функция, зависящая от результатов наблюдений, называется статистикой . Так как результаты наблюдений являются случайными величинами, то и статистика тоже будет случайной величиной. Следовательно, оценку
неизвестного параметраследует рассматривать как случайную величину, а ее значение, вычисленное по экспериментальным данным объемом, – как одно из возможных значений этой случайной величины.

Оценки параметров распределений (числовых характеристик случайной величины) подразделяются на точечные и интервальные. Точечная оценка параметраопределяется одним числом, и ее точность характеризуется дисперсией оценки.Интервальной оценкой называют оценку, которая определяется двумя числами,и– концами интервала, накрывающего оцениваемый параметрс заданной доверительной вероятностью.

Классификация точечных оценок

Чтобы точечная оценка неизвестного параметра
была наилучшей с точки зрения точности, необходимо, чтобы она была состоятельной, несмещенной и эффективной.

Состоятельной называется оценка
параметра, если она сходится по вероятности к оцениваемому параметру, т. е.

. (8.8)

На основании неравенства Чебышева можно показать, что достаточным условием выполнения соотношения (8.8) является равенство

.

Состоятельность является асимптотической характеристикой оценки при
.

Несмещенной называется оценка
(оценка без систематической ошибки), математическое ожидание которой равно оцениваемому параметру, т. е.

. (8.9)

Если равенство (8.9) не выполняется, то оценка называется смещенной. Разность
называется смещением или систематической ошибкой оценки. Если же равенство (8.9) выполняется лишь при
, то соответствующая оценка называется асимптотически несмещенной.

Необходимо отметить, что если состоятельность – практически обязательное условие всех используемых на практике оценок (несостоятельные оценки используются крайне редко), то свойство несмещенности является лишь желательным. Многие часто применяемые оценки свойством несмещенности не обладают.

В общем случае точность оценки некоторого параметра , полученная на основании опытных данных
, характеризуется средним квадратом ошибки

,

который можно привести к виду

,

где –дисперсия,
– квадрат смещения оценки.

Если оценка несмещенная, то

При конечных оценки могут различаться средним квадратом ошибки. Естественно, что, чем меньше эта ошибка, тем теснее группируются значения оценки около оцениваемого параметра. Поэтому всегда желательно, чтобы ошибка оценки была по возможности наименьшей, т. е. выполнялось условие

. (8.10)

Оценку , удовлетворяющую условию (8.10), называют оценкой с минимальным квадратом ошибки.

Эффективной называется оценка
, для которой средний квадрат ошибки не больше среднего квадрата ошибки любой другой оценки, т. е.

где – любая другая оценка параметра.

Известно, что дисперсия любой несмещенной оценки одного параметра удовлетворяет неравенству Крамера – Рао

,

где
– условная плотность распределения вероятностей полученных значений случайной величины при истинном значении параметра.

Таким образом, несмещенная оценка
, для которой неравенство Крамера – Рао обращается в равенство, будет эффективной, т. е. такая оценка имеет минимальную дисперсию.

Точечные оценки математического ожидания и дисперсии

Если рассматривается случайная величина
, имеющая математическое ожиданиеи дисперсию, то оба эти параметра считаются неизвестными. Поэтому над случайной величиной
производитсянезависимых опытов, которые дают результаты:
. Необходимо найти состоятельные и несмещенные оценки неизвестных параметров и.

В качестве оценок иобычно выбираются соответственно статистическое (выборочное) среднее значение и статистическая (выборочная) дисперсия:

; (8.11)

. (8.12)

Оценка математического ожидания (8.11) является состоятельной согласно закону больших чисел (теорема Чебышева):

.

Математическое ожидание случайной величины

.

Следовательно, оценка является несмещенной.

Дисперсия оценки математического ожидания:

Если случайная величина
распределена по нормальному закону, то оценкаявляется также и эффективной.

Математическое ожидание оценки дисперсии

В то же время

.

Так как
, а
, то получаем

. (8.13)

Таким образом,
– смещенная оценка, хотя является состоятельной и эффективной.

Из формулы (8.13) следует, что для получения несмещенной оценки
следует видоизменить выборочную дисперсию (8.12) следующим образом:

которая считается "лучшей" по сравнению с оценкой (8.12), хотя при больших эти оценки практически равны друг другу.

Методы получения оценок параметров распределения

Часто на практике на основании анализа физического механизма, порождающего случайную величину
, можно сделать вывод о законе распределения этой случайной величины. Однако параметры этого распределения неизвестны, и их необходимо оценить по результатам эксперимента, обычно представленных в виде конечной выборки
. Для решения такой задачи чаще всего применяются два метода: метод моментов и метод максимального правдоподобия.

Метод моментов . Метод состоит в приравнивании теоретических моментов соответствующим эмпирическим моментам того же порядка.

Эмпирические начальные моменты -го порядка определяются формулами:

,

а соответствующие им теоретические начальные моменты -го порядка – формулами:

для дискретных случайных величин,

для непрерывных случайных величин,

где – оцениваемый параметр распределения.

Для получения оценок параметров распределения, содержащего два неизвестных параметра и, составляется система из двух уравнений

где и– теоретический и эмпирический центральные моменты второго порядка.

Решением системы уравнений являются оценки инеизвестных параметров распределенияи.

Приравняв теоретический эмпирический начальные моменты первого порядка, получаем, что оценкой математического ожидания случайной величины
, имеющей произвольное распределение, будет выборочное среднее, т. е.
. Затем, приравняв теоретический и эмпирический центральные моменты второго порядка, получим, что оценка дисперсии случайной величины
, имеющей произвольное распределение, определяется формулой

.

Подобным образом можно найти оценки теоретических моментов любого порядка.

Метод моментов отличается простотой и не требует сложных вычислений, но полученные этим методом оценки часто являются неэффективными.

Метод максимального правдоподобия . Метод максимального правдоподобия точечной оценки неизвестных параметров распределения сводится к отысканию максимума функции одного или нескольких оцениваемых параметров.

Пусть
– непрерывная случайная величина, которая в результатеиспытаний приняла значения
. Для получения оценки неизвестного параметранеобходимо найти такое значение, при котором вероятность реализации полученной выборки была бы максимальной. Так как
представляют собой взаимно независимые величины с одинаковой плотностью вероятности
, тофункцией правдоподобия называют функцию аргумента :

Оценкой максимального правдоподобия параметра называется такое значение, при котором функция правдоподобия достигает максимума, т. е. является решением уравнения

,

которое явно зависит от результатов испытаний
.

Поскольку функции
и
достигают максимума при одних и тех же значениях
, то часто для упрощения расчетов используют логарифмическую функцию правдоподобия и ищут корень соответствующего уравнения

,

которое называется уравнением правдоподобия .

Если необходимо оценить несколько параметров
распределения
, то функция правдоподобия будет зависеть от этих параметров. Для нахождения оценок
параметров распределения необходимо решить системууравнений правдоподобия

.

Метод максимального правдоподобия дает состоятельные и асимптотически эффективные оценки. Однако получаемые методом максимального правдоподобия оценки бывают смещенными, и, кроме того, для нахождения оценок часто приходится решать достаточно сложные системы уравнений.

Интервальные оценки параметров

Точность точечных оценок характеризуется их дисперсией. При этом отсутствуют сведения о том, насколько близки полученные оценки истинным значениям параметров. В ряде задач требуется не только найти для параметра подходящее численное значение, но и оценить его точность и надежность. Необходимо узнать, к каким ошибкам может привести замена параметраего точечной оценкойи с какой степенью уверенности следует ожидать, что эти ошибки не выйдут за известные пределы.

Такие задачи особенно актуальны при малом числе опытов , когда точечная оценкав значительной степени случайна и приближенная заменанаможет привести к значительным ошибкам.

Более полный и надежный способ оценивания параметров распределений заключается в определении не единственного точечного значения, а интервала, который с заданной вероятностью накрывает истинное значение оцениваемого параметра.

Пусть по результатам опытов получена несмещенная оценка
параметра. Необходимо оценить возможную ошибку. Выбирается некоторая достаточно большая вероятность
(например), такая, что событие с этой вероятностью можно считать практически достоверным событием, и находится такое значение, для которого

. (8.15)

В этом случае диапазон практически возможных значений ошибки, возникающей при замене на, будет
, а большие по абсолютной величине ошибки будут появляться лишь с малой вероятностью.

Выражение (8.15) означает, что с вероятностью
неизвестное значение параметрапопадет в интервал

. (8.16)

Вероятность
называетсядоверительной вероятностью , а интервал, накрывающий с вероятностьюистинное значение параметра, называетсядоверительным интервалом . Заметим, что неправильно говорить, что значение параметра лежит внутри доверительного интервала с вероятностью. Используемая формулировка (накрывает) означает, что хотя оцениваемый параметр и неизвестен, но он имеет постоянное значение и, следовательно, не имеет разброса, поскольку это не случайная величина.

Пусть над случайной величиной с неизвестными математическим ожиданием и дисперсией произведено независимых опытов, давших результаты – . Вычислим состоятельные и несмещенные оценки для параметров и .

В качестве оценки для математического ожидания возьмем среднее арифметическое опытных значений

. (2.9.1)

Согласно закону больших чисел эта оценка является состоятельной , при величина по вероятности. Эта же оценка является и несмещенной , поскольку

. (2.9.2)

Дисперсия этой оценки равна

. (2.9.3)

Можно показать, что для нормального закона распределения эта оценка является эффективной . Для других законов это может быть и не так.

Оценим теперь дисперсию. Выберем сначала для оценки формулу для статистической дисперсии

. (2.9.4)

Проверим состоятельность оценки дисперсии. Раскроем скобки в формуле (2.9.4)

.

При первое слагаемое сходится по вероятности к величине , в второе – к . Таким образом наша оценка сходится по вероятности к дисперсии

,

следовательно, она является состоятельной .

Проверим несмещенность оценки для величины . Для этого подставим в формулу (2.9.4) выражение (2.9.1) и учтем, что случайные величины независимы

,

. (2.9.5)

Прейдем в формуле (2.9.5) к флуктуациям случайных величин

Раскрывая скобки, получим

,

. (2.9.6)

Вычислим математическое ожидание величины (2.9.6), учитывая, что

. (2.9.7)

Соотношение (2.9.7) показывает, что величина , вычисленная по формуле (2.9.4) не является несмещенной оценкой для дисперсии . Ее математическое ожидание не равно, а несколько меньше . Такая оценка приводит к систематической ошибке в сторону уменьшения. Для ликвидации такого смещения нужно ввести поправку, умножив не величину . Тогда такая исправленная статистическая дисперсия может служить несмещенной оценкой для дисперсии

. (2.9.8)

Эта оценка является состоятельной также как и оценка , поскольку при величина .

На практике, вместо оценки (2.9.8) иногда удобнее применять эквивалентную оценку, связанную со вторым начальным статистическим моментом

. (2.9.9)

Оценки (2.9.8), (2.9.9) не являются эффективными. Можно показать, что в случае нормального закона распределения они будут асимптотически эффективными (при будут стремиться к минимально возможному значению).

Таким образом, можно сформулировать следующие правила обработки ограниченного по объему статистического материала. Если в независимых опытах случайная величина принимает значения с неизвестными математическим ожиданием и дисперсией , то для определения этих параметров следует пользоваться приближенными оценками

(2.9.10)

Конец работы -

Эта тема принадлежит разделу:

Конспект лекций по математике теория вероятностей математическая статистика

Кафедра высшей математики и информатики.. конспект лекций.. по математике..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Теория вероятностей
Теория вероятностей – раздел математики, в котором изучаются закономерности случайных массовых явлений. Случайным называется явление, которо

Статистическое определение вероятности
Событием называется случайное явление, которое в результате опыта может появится или не появится (двузначное явление). Обозначают события большими латинскими буквами

Пространство элементарных событий
Пусть с некоторым опытом связано множество событий, причем: 1) в результате опыта появляется одно и только одно

Действия на событиями
Суммой двух событий и

Перестановки
Число различных перестановок из элементов обозначается

Размещения
Размещением из элементов по

Сочетания
Сочетанием из элементов по

Формула сложения вероятностей для несовместных событий
Теорема. Вероятность суммы двух несовместных событий равна сумме вероятностей этих событий. (1

Формула сложения вероятностей для произвольных событий
Теорема. Вероятность суммы двух событий равна сумме вероятностей этих событий без вероятности их произведения.

Формула умножения вероятностей
Пусть даны два события и. Рассмотрим событие

Формула полной вероятности
Пусть – полная группа несовместных событий, их называют гипотезами. Рассмотрим некоторое событие

Формула вероятностей гипотез (Байеса)
Рассмотрим снова – полную группу несовместных гипотез и событие

Асимптотическая формула Пуассона
В тех случаях, когда число испытаний велико, а вероятность появления события

Случайные дискретные величины
Случайной называется величина, которая при повторении опыта может принимать неодинаковые числовые значения. Случайная величина называется дискретной,

Случайные непрерывные величины
Если в результате опыта случайная величина может принимать любое значение из некоторого отрезка или всей действительной оси, то она называется непрерывной. Законо

Функция плотности вероятности случайной непрерывной величины
Пусть. Рассмотрим точку и дадим ей приращени

Числовые характеристики случайных величин
Случайная дискретная или непрерывная величины считаются полностью заданными, если известны их законы распределения. В самом деле, зная законы распределения можно всегда вычислить вероятность попада

Квантили случайных величин
Квантилем порядка случайной непрерывной величины

Математическое ожидание случайных величин
Математическое ожидание случайной величины характеризует ее среднее значение. Все значения случайной величины группируются вокруг этого значения. Рассмотрим сначала случайную дискретную величину

Среднеквадратичное отклонение и дисперсия случайных величин
Рассмотрим сначала случайную дискретную величину. Числовые характеристики мода, медиана, квантили и математическое ожида

Моменты случайных величин
Кроме математического ожидания и дисперсии в теории вероятностей используются числовые характеристики более высоких порядков, которые называются моментами случайных величин.

Теоремы о числовых характеристиках случайных величин
Теорема 1. Математическое ожидание неслучайной величины равно самой этой величине. Доказательство:Пусть

Биномиальный закон распределения

Закон распределения Пуассона
Пусть случайная дискретная величина, принимающая значения

Равномерный закон распределения
Равномерным законом распределения случайной непрерывной величины называется закон функция плотности вероятности, которого

Нормальный закон распределения
Нормальным законом распределения случайной непрерывной величины называется закон функция плотност

Экспоненциальный закон распределения
Экспоненциальное или показательное распределение случайной величины применяется в таких приложениях теории вероятностей, как теория массового обслуживания, теория надежности

Системы случайных величин
На практике в приложениях теории вероятностей часто приходиться сталкиваться с задачами, в которых результаты эксперимента описываются не одной случайной величиной, а сразу несколькими случайными в

Система двух случайных дискретных величин
Пусть две случайные дискретные величины образуют систему. Случайная величина

Система двух случайных непрерывных величин
Пусть теперь систему образуют две случайные непрерывные величины. Законом распределения этой системы называется вероятно

Условные законы распределения
Пусть и зависимые случайные непрерывные велич

Числовые характеристики системы двух случайных величин
Начальным моментом порядка системы случайных величин

Система нескольких случайных величин
Полученные результаты для системы их двух случайных величии могут быть обобщены на случай систем, состоящих из произвольного числа случайных величин. Пусть система образована совокупностью

Нормальный закон распределения системы двух случайных величин
Рассмотрим систему двух случайных непрерывных величин. Законом распределения этой системы является нормальный закон расп

Предельные теоремы теории вероятностей
Основной целью дисциплины теория вероятностей является изучение закономерностей случайных массовых явлений. Практика показывает, что наблюдение массы однородных случайных явлений обнаружив

Неравенство Чебышева
Рассмотрим случайную величину с математическим ожиданием

Теорема Чебышева
Если случайные величины попарно независимы и имеют конечные ограниченные в совокупности дисперсии

Теорема Бернулли
При неограниченном увеличении числа опытов частота появления события сходится по вероятности к вероятности события

Центральная предельная теорема
При сложении случайных величин с любыми законами распределения, но с ограниченными в совокупности дисперсиями, закон расп

Основные задачи математической статистики
Рассмотренные выше законы теории вероятностей представляют собой математическое выражение реальных закономерностей, фактически существующих в различных случайных массовых явлениях. Изучая

Простая статистическая совокупность. Статистическая функция распределения
Рассмотрим некоторую случайную величину, закон распределения которой неизвестен. Требуется на основании опытных данных о

Статистический ряд. Гистограмма
При большом числе наблюдений (порядка сотен) генеральная совокупность становится неудобной и громоздкой для записи статистического материала. Для наглядности и компактности статистический материал

Числовые характеристики статистического распределения
В теории вероятностей рассматривались различные числовые характеристики случайных величин: математическое ожидание, дисперсию, начальные и центральные моменты различных порядков. Аналогичные числов

Выбор теоретического распределения по методу моментов
Во всяком статистическом распределении неизбежно присутствуют элементы случайности, связанные с ограниченностью числа наблюдений. При большом числе наблюдений эти элементы случайности сглаживаются,

Проверка правдоподобия гипотезы о виде закона распределения
Пусть заданное статистическое распределение аппроксимировано некоторой теоретической кривой или

Критерии согласия
Рассмотрим один из наиболее часто применяемых критериев согласия – так называемый критерий Пирсона. Предположи

Точечные оценки для неизвестных параметров распределения
В п.п. 2.1. – 2.7 мы подробно рассмотрели способы решения первой и второй основных задач математической статистики. Это задачи определения законов распределения случайных величин по опытным данным

Доверительный интервал. Доверительная вероятность
На практике при малом числе опытов над случайной величиной приближенная замена неизвестного параметра

Важнейшими числовыми характеристиками случайной величины Х являются её математическое ожидание m x =M и дисперсия σ 2 x =D[x] = M[(X – m x) 2 ] = M – . Число m x является средним значением случайной величины, около которого разбросаны значения величин Х , мерой этого разброса являются дисперсия D[x] и среднеквадратическое отклонение:

s x = (1.11)

Мы будем в дальнейшем рассмотривать важную задачу для исследования наблюдаемой случайной величины. Пусть имеется некоторая выборка (будем обозначать её S ) случайной величины Х . Требуется по имеющейся выборке оценить неизвестные значения m x и .

Теория оценок различных параметров занимает в математической статистике значительное место. Поэтому рассмотрим сначала общую задачу. Пусть требуется оценить некоторый параметр a по выборке S . Каждая такая оценка a* является некоторой функцией a*=a*(S) от значений выборки. Значения выборки случайны, поэтому и сама оценка a* является случайной величиной. Можно построить множество различных оценок (то есть функций) a* , но при этом желательно иметь «хорошую» или даже «наилучшую», в некотором смысле, оценку. К оценкам обычно предъявляются следующие три естественных требования.

1. Несмещённость. Математическое ожидание оценки a* должно равняться точному значению параметра: M = a . Другими словами, оценка a* не должна иметь систематической ошибки.

2. Состоятельность. При бесконечном увеличении объёма выборки, оценка a* должна сходиться к точному значению, то есть при увеличении числа наблюдений ошибка оценки стремится к нулю.

3. Эффективность. Оценка a* называется эффективной, если она не смещена и имеет минимально возможную дисперсию ошибки. В этом случае минимален разброс оценки a* относительно точного значения и оценка в определённом смысле является «самой точной».

К сожалению, не всегда удаётся построить оценку, удовлетворяющую всем трём требованиям одновременно.

Для оценки математического ожидания чаще всего применяется оценка.

= , (1.12)

то есть среднее арифметическое по выборке. Если случайная величина X имеет конечные m x и s x , то оценка (1.12) не смещена и состоятельна. Эта оценка эффективна, например, если X имеет нормальное распределение (рис.п.1.4, приложение 1). Для других распределений она может оказаться неэффективной. Например, в случае равномерного распределения (рис.п.1.1, приложение 1) несмещённой, состоятельной оценкой будет

(1.13)

В то же время оценка (1.13) для нормального распределения не будет ни состоятельной, ни эффективной, и будет даже ухудшаться с ростом объёма выборки.

Таким образом, для каждого типа распределения случайной величины Х следовало бы использовать свою оценку математического ожидания. Однако в нашей ситуации тип распределения может быть известен лишь предположительно. Поэтому будем использовать оценку (1.12), которая достаточно проста и имеет наиболее важные свойства несмещённости и состоятельности.

Для оценки математического ожидания по группированной выборке используется следующая формула:

= , (1.14)

которую можно получить из предыдущей, если считать все m i значений выборки, попавших в i –й интервал, равными представителю z i этого интервала. Эта оценка, естественно, грубее, но требует значительно меньшего объёма вычислений, особенно при большом объёме выборки.

Для оценки дисперсии чаще всего используется оценка:

= , (1.15)

Эта оценка не смещена и состоятельна для любой случайной величины Х , имеющей конечные моменты до четвёртого порядка включительно.

В случае группированной выборки используется оценка:

= (1.16)

Оценки (1.14) и (1.16), как правило, смещены и несостоятельны, так как их математические ожидания и пределы, к которым они сходятся, отличны от m x и в силу замены всех значений выборки, попавших в i –й интервал, на представителя интервала z i .

Отметим, что при больших n, коэффициент n /(n – 1) в выражениях (1.15) и (1.16) близок к единице, поэтому его можно опустить.

Интервальные оценки.

Пусть точное значение некоторого параметра равно a и найдена его оценка a*(S) по выборке S . Оценке a* соответствует точка на числовой оси (рис.1.5), поэтому такая оценка называется точечной . Все оценки, рассмотренные в предыдущем параграфе, точечные. Практически всегда, в силу случайности

a* ¹ a , и мы можем надеяться только на то, что точка a* находится где–то вблизи a . Но насколько близко? Любая другая точечная оценка будет иметь тот же недостаток – отсутствие меры надёжности результата.


Рис.1.5. Точечная оценка параметра.

Более определённым в этом отношении являются интервальные оценки . Интервальные оценка представляет собой интервал I b = (a , b) , в котором точное значение оцениваемого параметра находится с заданной вероятностью b . Интервал I b называется доверительным интервалом , а вероятность b называется доверительной вероятностью и может рассматриваться как надёжность оценки .

Доверительный интервал состоится по имеющейся выборке S , он случаен в том смысле, что случайны его границы a(S) и b(S) , которые мы будем вычислять по (случайной) выборке. Поэтому b есть вероятность того, что случайный интервал I b накроет неслучайную точку a . На рис. 1.6. интервал I b накрыл точку a , а I b * - нет. Поэтому не совсем правильно говорить, что a « попадает» в интервал.

Если доверительная вероятность b велика (например, b = 0,999 ), то практически всегда точное значение a находится в построенном интервале.


Рис.1.6. Доверительные интервалы параметра a для различных выборок.

Рассмотрим метод построения доверительного интервала для математического ожидания случайной величины Х, основанный на центральной предельной теореме .

Пусть случайная величина Х имеет неизвестное математическое ожидание m x и известную дисперсию . Тогда, в силу центральной предельной теоремы, среднее арифметическое:

= , (1.17)

результатов n независимых испытаний величины Х является случайной величиной, распределение которой при больших n , близко к нормальному распределению со средним m x и среднеквадратическим отклонением . Поэтому случайная величина

(1.18)

имеет распределение вероятностей, которое можно считать стандартным нормальным с плотностью распределения j(t) , график которой изображён на рис.1.7 (а также на рис.п.1.4, приложение 1).



Рис.1.7. Плотность распределения вероятностей случайной величины t .

Пусть задана доверительная вероятность b и t b - число, удовлетворяющее уравнению

b = Ф 0 (t b) – Ф 0 (-t b) = 2 Ф 0 (t b), (1.19)

где - функция Лапласа . Тогда вероятность попадания в интервал (-t b , t b) будет равна заштрихованной на рис.1.7. площади, и, в силу выражения (1.19), равна b . Следовательно

b = P(-t b < < t b) = P( – t b < m x < + t b ) =

= P( – t b < m x < + t b ) . (1.20)

Таким образом, в качестве доверительного интервала можно взять интервал

I b = ( – t b ; + t b ) , (1.21)

так как выражение (1.20) означает, что неизвестное точное значение m x находится в I b с заданной доверительной вероятностью b . Для построения I b нужно по заданному b найтиt b из уравнения (1.19). Приведём несколько значений t b , необходимых в дальнейшем :

t 0,9 = 1,645; t 0,95 = 1,96; t 0,99 = 2,58; t 0,999 = 3,3.

При выводе выражения (1.21) предполагалось, что известно точное значение среднеквадратического отклонения s х . Однако оно известно далеко не всегда. Воспользуемся поэтому его оценкой (1.15) и получим:

I b = ( – t b ; + t b ) . (1.22)

Соответственно, оценки и , полученные по группированной выборке, дают следующую формулу для доверительного интервала:

I b = ( – t b ; + t b ) . (1.23)

Пусть случайная выборка порождена наблюдаемой случайной величиной ξ, математическое ожидание и дисперсия которой неизвестны. В качестве оценок для этих характеристик было предложено использовать выборочное среднее

и выборочную дисперсию

. (3.14)

Рассмотрим некоторые свойства оценок математического ожидания и дисперсии.

1. Вычислим математическое ожидание выборочного среднего:

Следовательно, выборочное среднее является несмещенной оценкой для .

2. Напомним, что результаты наблюдений – независимые случайные величины, каждая из которых имеет такой же закон распределения, как и величина , а значит, , , . Будем предполагать, что дисперсия конечна. Тогда, согласно теореме Чебышева о законе больших чисел, для любого ε > 0 имеет место равенство ,

которое можно записать так: . (3.16) Сравнивая (3.16) с определением свойства состоятельности (3.11), видим, что оценка является состоятельной оценкой математического ожидания .

3. Найдем дисперсию выборочного среднего:

. (3.17)

Таким образом, дисперсия оценки математического ожидания уменьшается обратно пропорционально объему выборки.

Можно доказать, что если случайная величина ξ распределена нормально, то выборочное среднее является эффективной оценкой математического ожидания , то есть дисперсия принимает наименьшее значение по сравнению с любой другой оценкой математического ожидания. Для других законов распределения ξ это может быть и не так.

Выборочная дисперсия является смещенной оценкой дисперсии , так как . (3.18)

Действительно, используя свойства математического ожидания и формулу (3.17), найдем

.

Чтобы получить несмещенную оценку дисперсии, оценку (3.14) нужно исправить, то есть домножить на . Тогда получим несмещенную выборочную дисперсию

. (3.19)

Отметим, что формулы (3.14) и (3.19) отличаются лишь знаменателем, и при больших значениях выборочная и несмещенная дисперсии отличаются мало. Однако при малом объеме выборки следует пользоваться соотношением (3.19).

Для оценки среднего квадратического отклонения случайной величины используют так называемое “исправленное” среднее квадратическое отклонение, которое равно квадратному корню из несмещенной дисперсии: .

Интервальные оценки

В статистике имеются два подхода к оцениванию неизвестных параметров распределений: точечный и интервальный. В соответствии с точечным оцениванием, которое рассмотрено в предыдущем разделе, указывается лишь точка, около которой находится оцениваемый параметр. Желательно, однако, знать, как далеко может отстоять в действительности этот параметр от возможных реализаций оценок в разных сериях наблюдений.

Ответ на этот вопрос – тоже приближенный – дает другой способ оценивания параметров – интервальный. В соответствии с этим способом оценивания находят интервал, который с вероятностью, близкой к единице, накрывает неизвестное числовое значение параметра.

Понятие интервальной оценки

Точечная оценка является случайной величиной и для возможных реализаций выборки принимает значения лишь приближенно равные истинному значению параметра . Чем меньше разность , тем точнее оценка. Таким образом, положительное число , для которого , характеризует точность оценки и называется ошибкой оценки (или предельной ошибкой).

Доверительной вероятностью (или надежностью) называется вероятность β , с которой осуществляется неравенство , т. е.

. (3.20)

Заменив неравенство равносильным ему двойным неравенством , или , получим

Интервал , накрывающий с вероятностью β , , неизвестный параметр , называется доверительным интервалом (или интервальной оценкой), соответствующим доверительной вероятности β .

Случайной величиной является не только оценка , но и ошибка : ее значение зависит от вероятности β и, как правило, от выборки. Поэтому доверительный интервал случаен и выражение (3.21) следует читать так: “Интервал накроет параметр с вероятностью β ”, а не так: “Параметр попадет в интервал с вероятностью β ”.

Смысл доверительного интервала состоит в том, что при многократном повторении выборки объема в относительной доле случаев, равной β , доверительный интервал, соответствующий доверительной вероятности β , накрывает истинное значение оцениваемого параметра. Таким образом, доверительная вероятность β характеризует надежность доверительного оценивания: чем больше β , тем вероятнее, что реализация доверительного интервала содержит неизвестный параметр.

Пусть имеется случайная величина Х с математическим ожиданием m и дисперсией D , при этом оба эти параметра неизвестны. Над величиной Х произведено N независимых экспериментов, в результате которых была получена совокупность N численных результатов x 1 , x 2 , …, x N . В качестве оценки математического ожидания естественно предложить среднее арифметическое наблюдаемых значений

(1)

Здесь в качестве x i рассматриваются конкретные значения (числа), полученные в результате N экспериментов. Если взять другие (независимые от предыдущих) N экспериментов, то, очевидно, мы получим другое значение . Если взять еще N экспериментов, то мы получим еще одно новое значение . Обозначим через X i случайную величину, являющуюся результатом i -го эксперимента, тогда реализациями X i будут числа, полученные в результате этих экспериментов. Очевидно, что случайная величина X i будет иметь такую же плотность распределения вероятности, что и исходная случайная величина Х . Также считаем, что случайные величины X i и X j являются независимыми при i , не равном j (различные независимые друг относительно друга эксперименты). Поэтому формулу (1) перепишем в другом (статистическом) виде:

(2)

Покажем, что оценка является несмещенной:

Таким образом, математическое ожидание выборочного среднего равно истинному математическому ожиданию случайной величины m . Это достаточно предсказуемый и понятный факт. Следовательно, за оценку математического ожидания случайной величины можно принять выборочное среднее (2). Теперь возникает вопрос: что происходит с дисперсией оценки математического ожидания при увеличении числа экспериментов? Аналитические вычисления показывают, что

где - дисперсия оценки математического ожидания (2), а D - истинная дисперсия случайной величины X .

Из вышесказанного следует, что с ростом N (количества экспериментов) дисперсия оценки уменьшается, т.е. чем больше мы суммируем независимые реализации, тем ближе к математическому ожиданию мы получим оценку.


Оценки математического дисперсии

На первый взгляд наиболее естественной оценкой представляется

(3)

где вычисляется по формуле (2). Проверим, является ли оценка несмещенной. Формула (3) может быть записана следующим образом :

Подставим в эту формулу выражение (2):

Найдем математическое ожидание оценки дисперсии:

(4)

Так как дисперсия случайной величины не зависит от того, какое математическое ожидание у случайной величины, примем математическое ожидание равным 0, т.е. m = 0.

(5)
при . (6)