Спецификация модели множественной регрессии. Спецификация моделей множественной регрессии

Цель : необходимо научиться определять параметры уравнения множественной линейной регрессии, используя ме­тод наименьших квадратов (МНК), рассчитывать коэффициент множественной корреляции.

Ключевые слова : линейная модель множественной регрессии, матрица парных коэффициентов корреляции, коэффициент множественной детерминации, индекс корреляции.

План лекции:

1. Классическая нормальная линейная модель множественной регрессии.

2. Оценка параметров линейной модели множественной регрессии.

3. Множественная и частная корреляция.

1.Классическая нормальная линейная модель множественной регрессии.

Экономические явления, как правило, определяются большим числом одновременно действующих факторов. В качестве примера такой связи можно рассматривать зависимость доходности финансовых активов от следующих факторов: темпов прироста ВВП, уровня процентных ставок, уровня инфляции и уровня цен на нефть.

В связи с этим возникает задача исследования зависимости одной зависимой переменной у от нескольких объясняющих факторных переменных х 1 , х 2 ,…, х n , оказывающих на нее влияние. Эта задача решается с помощью множественного регрессионного анализа .

Как и в парной зависимости, используются разные виды уравнений множественной регрессии: линейные и нелинейные.

Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.

В линейной множественной регрессии параметры при количественной объясняющей переменной интерпретируется как среднее изменение результирующей переменной при единичном изменении самой объясняющей переменной и неизменных значениях остальных независимых переменных.

Пример. Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс.тг.

х 1 – среднемесячный доход на одного члена семьи, тыс.тг.

х 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс.тг. расходы на питание возрастут в среднем на 350 тг. при том же размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же доходах предполагает дополнительный рост расходов на питание на 730 тг.

В степенной функции коэффициенты b j являются коэффициентами эластичности. Они показывают, на сколько процентов в среднем изменяется результат с изменением соответствующего фактора на 1% при неизменности действия других факторов.

Пример. Предположим, что при исследовании спроса на мясо получено уравнение

,

где у – количество спроса на мясо,


х 1 – цена,

х 2 – доход.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса в среднем на 2,63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1,11%.

где b 0 , b 1 ,…,b k – параметры модели, а ε – случайный член, называется классической нормальной линейной регрессионной моделью , если выполняются следующие условия (называемые условиями Гаусса-Маркова):

1. Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю, т.е. .

2. Дисперсия случайного члена должна быть постоянной для всех наблюдений, т.е. .

3. Случайные члены должны быть статистически независимы (некоррелированы) между собой, .

4. - есть нормально распределенная случайная величина.

2.Оценка параметров линейной модели множественной регрессии.

Параметры уравнения множественной регрессии оцениваются методом наименьших квадратов. При его применении строится система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии.

Так, для уравнения система нормальных уравнений составит:

Ее решение может быть осуществлено методом Крамера:

,

где ∆ - определитель системы,

Частные определители.

,

а получаются путем замены соответствующего столбца определителя системы столбцом свободных членов.

Рассмотрим линейную модель зависимости результативного признака у от двух факторных признаков и . Эта модель имеет вид:

Для нахождения параметров и решается система нормальных уравнений:

3.Множественная и частная корреляция.

Многофакторная система требует множество показателей тесноты связей, имеющих разный смысл и применение. Основой измерения связей факторными признаками является матрица парных коэффициентов корреляции, которые определяются по формуле:

На основе парных коэффициентов корреляции вычисляется наиболее общий показатель тесноты связи всех входящих в уравнение регрессии факторов с результирующим признаком – коэффициент множественной детерминации как частное от деления определителя матрицы на опрделитель матрицы ∆: , где

;

.

Этим способом можно определить коэффициент детерминации, не вычисляя расчетных значений результативного признака для всех единиц совокупности, если совокупность состоит из сотен и тысяч единиц.

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Поведение отдельных экономических переменных контролировать нельзя, т. е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т. е. построить уравнение множественной регрессии:

Такого рода уравнение может использоваться при изучении потребления. Тогда коэффициенты - частныепроизводные потребления по соответствующим факторам :

в предположении, что все остальные постоянны.

В 30-е гг. XX в. Кейнс сформулировал свою гипотезу потребительской функции. С того времени исследователи неоднократно обращались к проблеме ее совершенствования. Современная потребительская функция чаще всего рассматривается как модель вида:

где С - потребление; у - доход; Р - цена, индекс стоимости жизни; М - наличные деньги; Z - ликвидные активы.

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций; при изучении функции издержек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов эконометрики. Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Построение уравнения множественной регрессия начинается с решения вопроса о спецификации модели. Спецификация модели включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Требования к факторам.

1 Они должны быть количественно измеримы.

2.Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Разновидностью интеркоррелированности факторов является мультиколлинеарность - наличие высокой линейной связи между всеми или несколькими факторами.

Причинами возникновения мультиколлинеарности между призанками являются:

1. Изучаемые факторные признаки, характеризуют одну и ту же сторону явления или процесса. Например, показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия;

2. Использование в качестве факторных признаков показателей, суммарное значение которых представляет собой постоянную величину;

3. Факторные признаки, являющиеся составными элементами друг друга;

4. Факторные признаки, по экономическому смыслу дублирующие друг друга.

5. Одним из индикаторов определения наличия мультиколлинеарности между признаками является превышение парным коэффициентом корреляции величины 0,8 (rxi xj) и др.

Мультиколлинеарность может привести к нежелательным последствиям:

1) оценки параметров становятся ненадежными, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только в величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

2) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;

3) нельзя определить изолированное влияние факторов на результативный показатель.

Включение в модель факторов с высокой интеркорреляцией (Ryx1Rx1x2) может привести к ненадежности оценок коэф-ов регрессии. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретированными. Включаемые во множ.регрессию факторы должны объяснить вариацию независимой переменной. Отбор факторов производится на основе качественного теоретико-экономического анализа, который обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Если факторы коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Классический метод наименьших квадратов (МНК) для модели множественной регрессии. Свойства оценок МНК для модели множественной регрессии и показатели качества подбора регрессии: коэффициент множественной корреляции, коэффициенты частной корреляции, коэффициент множественной детерминации

Мультиколлинœеарность факторов. Признаки мультиколлинœеарности и способы ее устранения. Гомоскедастичность и гетероскедастичность остатков. Графический метод обнаружения гетероскедастичности. Причины и последствия гетероскедастичности.

МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

На любой экономический показатель чаще всœего оказывает влияние не один, а несколько факторов. В этом случае вместо парной регрессии рассматривается множественная регрессия

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и в ряде других вопросов экономики. Сегодня множественная регрессия – один из наиболее распространенных методов в эконометрике. Основной целью множественной регрессии является построение модели с большим числом факторов, а также определœение влияния каждого фактора в отдельности и совокупного их воздействия на моделируемый показатель.

Множественный регрессионный анализ является развитием парного регрессионного анализа в случаях, когда зависимая переменная связана более чем с одной независимой переменной. Большая часть анализа является непосредственным расширением парной регрессионной модели, но здесь также появляются и некоторые новые проблемы, из которых следует выделить две. Первая проблема касается исследования влияния конкретной независимой переменной на зависимую переменную, а также разграничения её воздействия и воздействий других независимых переменных. Второй важной проблемой является спецификация модели, которая состоит в том, что крайне важно ответить на вопрос, какие факторы следует включить в регрессию (1), а какие – исключить из неё.

Самой употребляемой и наиболее простой из моделœей множественной регрессии является линœейная модель множественной регрессии:

Параметр α принято называть свободным членом и определяет значение y в случае, когда всœе объясняющие переменные равны нулю. При этом, как и в случае парной регрессии, факторы по своему экономическому содержанию часто не могут принимать нулевых значений, и значение свободного члена не имеет экономического смысла. При этом, в отличие от парной регрессии, значение каждого регрессионного коэффициента равно среднему изменению y при увеличении x j на одну единицу лишь при условии, что всœе остальные факторы остались неизменными. Величина ε представляет собой случайную ошибку регрессионной зависимости.

Получение оценок параметров уравнения регрессии (2) – одна из важнейших задач множественного регрессионного анализа. Самым распространенным методом решения этой задачи является метод наименьших квадратов (МНК). Его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений зависимой переменной y от её значений , получаемых по уравнению регрессии.

Пусть имеется n наблюдений объясняющих переменных и соответствующих им значений результативного признака:

Для однозначного определœения значений параметров уравнения (4) объём выборки n должен быть не меньше количества параметров, ᴛ.ᴇ. . В противном случае значения параметров не бывают определœены однозначно. В случае если n=p +1, оценки параметров рассчитываются единственным образом без МНК простой подстановкой значений (5) в выражение (4). Получается система (p +1) уравнений с таким же количеством неизвестных, которая решается любым способом, применяемым к системам линœейных алгебраических уравнений (СЛАУ). При этом с точки зрения статистического подхода такое решение задачи является ненадежным, поскольку измеренные значения переменных (5) содержат различные виды погрешностей. По этой причине для получения надежных оценок параметров уравнения (4) объём выборки должен значительно превышать количество определяемых по нему параметров. Практически, как было сказано ранее, объём выборки должен превышать количество параметров при x j в уравнении (4) в 6-7 раз.

Линейная модель множественной регрессии - понятие и виды. Классификация и особенности категории "Линейная модель множественной регрессии" 2017, 2018.

Множественный регрессионный анализ является расширением парного регрессионного анализа. О применяется в тех случаям, когда поведение объясняемой, зависимой переменной необходимо связать с влиянием более чем одной факторной, независимой переменной. Хотя определенная часть многофакторного анализа представляет собой непосредственное обобщение понятий парной регрессионной модели, при выполнении его может возникнуть ряд принципиально новых задач.

Так, при оценке влияния каждой независимой переменной необходимо уметь разграничивать ее воздействие на объясняемую переменную от воздействия других независимых переменных. При этом множественный корреляционный анализ сводится к анализу парных, частных корреляций. На практике обычно ограничиваются определением их обобщенных числовых характеристик, таких как частные коэффициенты эластичности, частные коэффициенты корреляции, стандартизованные коэффициенты множественной регрессии.

Затем решаются задачи спецификации регрессионной модели, одна из которых состоит в определении объема и состава совокупности независимых переменных, которые могут оказывать влияние на объясняемую переменную. Хотя это часто делается из априорных соображений или на основании соответствующей экономической (качественной) теории, некоторые переменные могут в силу индивидуальных особенностей изучаемых объектов не подходить для модели. В качестве наиболее характерных из них можно назвать мультиколлинеарность или автокоррелированность факторных переменных.

3.1. Анализ множественной линейной регрессии с помощью

метода наименьших квадратов (МНК)

В данном разделе полагается, что рассматривается модель регрессии, которая специфицирована правильно. Обратное, если исходные предположения оказались неверными, можно установить только на основании качества полученной модели. Следовательно, этот этап является исходным для проведения множественного регрессионного анализа даже в самом сложном случае, поскольку только он, а точнее его результаты могут дать основания для дальнейшего уточнения модельных представлений. В таком случае выполняются необходимые изменения и дополнения в спецификации модели, и анализ повторяется после уточнения модели до тех пор, пока не будут получены удовлетворительные результаты.

На любой экономический показатель в реальных условиях обычно оказывает влияние не один, а несколько и не всегда независимых факторов. Например, спрос на некоторый вид товара определяется не только ценой данного товара, но и ценами на замещающие и дополняющие товары, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии M (Y / Х = х ) = f (x ) рассматривается множественная регрессия

M (Y / Х1 = х1, Х2 = х2, …, Хр = Хр ) = f (x 1 , х 2 , …, х р ) (2.1)

Задача оценки статистической взаимосвязи переменных Y и Х 1 , Х 2 , ..., Х Р формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде

Y = f (B , X ) + 2

где X - вектор независимых (объясняющих) переменных; В - вектор параметров уравнения (подлежащих определению); - случайная ошибка (отклонение); Y - зависимая (объясняемая) переменная.

Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором независимых переменных X .

Рассмотрим самую употребляемую и наиболее простую для статистического анализа и экономической интерпретации модель множественной линейной регрессии. Для этого имеются, по крайней мере, две существенные причины.

Во-первых, уравнение регрессии является линейным, если система случайных величин (X 1 , X 2 , ..., Х Р , Y ) имеет совместный нормальный закон распределения. Предположение о нормальном распределении может быть в ряде случаев обосновано с помощью предельных теорем теории вероятностей. Часто такое предположение принимается в качестве гипотезы, когда при последующем анализе и интерпретации его результатов не возникает явных противоречий.

Вторая причина, по которой линейная регрессионная модель предпочтительней других, состоит в том, что при использовании ее для прогноза риск значительной ошибки оказывается минимальным.

Теоретическое линейное уравнение регрессии имеет вид:

или для индивидуальных наблюдений с номером i :

где i = 1, 2, ..., п.

Здесь В = (b 0 , b 1 ,b Р) - вектор размерности (р+1) неизвестных параметров b j , j = 0, 1, 2, ..., р , называется j -ым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменению X j . Другими словами, он отражает влияние на условное математическое ожидание M (Y / Х1 = х1, Х2 = х2, …, Хр = x р ) зависимой переменной Y объясняющей переменной Х j при условии, что все другие объясняющие переменные модели остаются постоянными. b 0 - свободный член, определяющий значение Y в случае, когда все объясняющие переменные X j равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.

Пусть имеется n наблюдений вектора объясняющих переменных X = (1 , X 1 , X 2 , ..., Х Р ) и зависимой переменной Y :

(1 , х i1 , x i2 , …, x ip , y i ), i = 1, 2, …, n.

Для того чтобы однозначно можно было бы решить задачу отыскания параметров b 0 , b 1 , … , b Р (т.е. найти некоторый наилучший вектор В ), должно выполняться неравенство n > p + 1 . Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между X и Y будет абсолютно точно соответствовать имеющимся наблюдениям. При этом, если n = p + 1 , то оценки коэффициентов вектора В рассчитываются единственным образом - путем решения системы p + 1 линейного уравнения:

где i = 1, 2, ..., п.

Например, для однозначного определения оценок параметров уравнения регрессии Y = b о + b 1 X 1 + b 2 X 2 достаточно иметь выборку из трех наблюдений (1 , х i 1 , х i 2 , y i), i = 1, 2, 3. В этом случае найденные значения параметров b 0 , b 1 , b 2 определяют такую плоскость Y = b о + b 1 X 1 + b 2 X 2 в трехмерном пространстве, которая пройдет именно через имеющиеся три точки.

С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка (х 41 , х 42 , х 43 , y 4) практически всегда будет лежать вне построенной плоскости (и, возможно, достаточно далеко). Это потребует определенной переоценки параметров.

Таким образом, вполне логичен следующий вывод: если число наблюдений больше минимально необходимой величины, т.е. n > p + 1 , то уже нельзя подобрать линейную форму, в точности удовлетворяющую всем наблюдениям. Поэтому возникает необходимость оптимизации, т.е. оценивания параметров b 0 , b 1 , …, b Р , при которых формула регрессии дает наилучшее приближение одновременно для всех имеющихся наблюдений.

В данном случае число  = n - p - 1 называется числом степеней свободы. Нетрудно заметить, что если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность надежного вывода (получения наиболее реалистичных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений превосходило число оцениваемых параметров, по крайней мере, в 3 раза.

Прежде чем перейти к описанию алгоритма нахождения оценок коэффициентов регрессии, отметим желательность выполнимости ряда предпосылок МНК, которые позволят обосновать характерные особенности регрессионного анализа в рамках классической линейной многофакторной модели.

МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

1. ОТБОР ФАКТОРОВ В МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ. ОЦЕНКА ПАРАМЕТРОВ МОДЕЛИ

При построении модели множественной регрессии для отображения зависимости между объясняемой переменной Y и независимыми (объясняющими) переменнымиX 1 ,X 2 , …,X k могут использоваться показательная, параболическая и многие другие функции. Однако наибольшее распространение получили модели линейной взаимосвязи, когда факторы входят в модель линейно.

Линейная модель множественной регрессии имеет вид

где k – количество включенных в модель факторов.

Коэффициент регрессии a j показывает, на какую величину в среднем изменится результативный признакY , если переменнуюX j увеличить на единицу измерения, т.е. является нормативным коэффициентом.

Анализ уравнения (1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи уравнения:

где Y – это вектор зависимой переменной размерности, представляющий собойn наблюдений значенийy i ;X – матрицаn наблюдений независимых переменныхX 1 , X 2 , …, X k , размерность матрицыX равна

; а - подлежащий оцениванию вектор неизвестных параметров

Таким образом,

Уравнение (1) содержит значения неизвестных параметров

. Эти величины оцениваются на основе выборочных

наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки.

Модель линейной регрессии, в которой вместо истинных значений параметров подставлены их оценки (а именно такие регрессии и применяются на практике), имеет вид

Оценка параметров модели множественной регрессии проводится с помощью метода наименьших квадратов. Формулу для вычисления

параметров регрессионного уравнения приведем без вывода:

Отбор факторов, включаемых в регрессию – один из важнейших этапов построения модели регрессии. Подходы к отбору факторов могут быть разные: один из них основан на анализе матрицы коэффициентов парной корреляции, другой – на процедурах пошагового отбора факторов.

Перед построением модели множественной регрессии вычисляются парные коэффициенты линейной корреляции между всеми исследуемыми переменными Y ,X 1 , X 2 , …, X m , и из них формируется матрица

Вначале анализируют коэффициенты корреляции, отражающие тесноту связи зависимой переменной со всеми включенными в анализ факторами, с целью отсева незначимых переменных.

Затем переходят к анализу остальных столбцов матрицы с целью выявления мультиколлинеарности.

Ситуация, когда два фактора связаны между собой тесной линейной связью (парный коэффициент корреляции между ними превышает по абсолютной величине 0,8), называется коллинеарностью факторов . Коллинеарные факторы фактически дублируют друг друга в модели, существенно ухудшая ее качество.

Наибольшие трудности возникают при наличии мультикоминеарности факторов, когда тесной связью одновременно связаны несколько факторов, т.е. когда нарушается одна из предпосылок регрессионного анализа, состоящая в том, что объясняющие переменные должны быть независимы.

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений. Мультиколлинеарность может

приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели;

стохастической , когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. В этом случае определитель матрицы не равен нулю, но очень мал. Экономическая интерпретация параметров уравнения регрессии при этом затруднена, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения. Оценки

параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.

Существует несколько способов для определения наличия или отсутствия мультиколлинеарности:

анализ матрицы коэффициентов парной корреляции. Явление мультиколлинеарности в исходных данных считают установленным, если коэффициент парной корреляции между двумя переменными больше 0,8:

исследование матрицы. Если определитель матрицы близок к нулю, это свидетельствует о наличии мультиколлинеарности.

Для выявления второй ситуации служит тест на мультиколлинеарность Фаррара-Глоубера. С помощью этого теста проверяют, насколько значимо определитель матрицы парных коэффициентов корреляции отличается от единицы. Если он равен нулю, то столбцы матрицыX линейно зависимы и вычислить оценку коэффициентов множественной регрессии по методу наименьших квадратов становится невозможно.

Этот алгоритм содержит три вида статистических критериев проверки наличия мультиколлинеарности:

1) всего массива переменных (критерий «хи-квадрат»);

2) каждой переменной с другими переменными (F -критерий);

3) каждой пары переменных (t -тест).

2) Вычислить наблюдаемое значение статистики Фаррара-Глоубера по формуле

Эта статистика имеет распределение (хи-квадрат).

3) Фактическое значение -критерия сравнить с табличным значением

при 0,5k (k – 1) степенях свободы и уровне значимостиα . ЕслиFG набл больше табличного, то в массиве объясняющих переменных

существует мультиколлинеарность.

2. Проверка наличия мультиколлинеарности каждой переменной другими переменными (F - критерий ):

где c ij – диагональные элементы матрицыC.

3) Фактические значения F -критериев сравнить с табличным значением

при v 1 =k ,v 2 =n – k – 1 степенях свободы и уровне значимостиα , гдеk

– количество факторов. Если F j >F табл , то соответствующая j -я независимая переменная мультиколлинеарна с другими.

3. Проверка наличия мультиколлинеарности каждой пары переменных (t -

тест).

1) Вычислить коэффициент детерминации для каждой переменной:

2) Найти частные коэффициенты корреляции:

где c ij - элемент матрицыС . содержащийся в i -й строке и j -м столбце;c ii иc jj – диагональные элементы матрицыС .

3) Вычислить t -критерии:

4) Фактические значения критериев t ij сравнить с табличнымt табл при (n –

мультиколлинеарность.

Разработаны различные методы устранения или уменьшения мультиколлинеарности. Самый простой из них, но не всегда самый эффективный, состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую переменную оставить, а какую удалить из анализа, решают исходя из экономических соображений.

Для устранения мультиколлинеарности можно также:

добавить в модель важный фактор для уменьшения дисперсии случайного члена;

изменить или увеличить выборку;

преобразовать мульти коллинеарные переменные и др.

Другой метод устранения или уменьшения мультиколлинеарности – использование стратегии шагового отбора, реализованной в ряде алгоритмов пошаговой регрессии.

Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии:

метод включения – дополнительное введение фактора;

метод исключения – отсев факторов из полного его набора.

В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции. Это позволяет последовательно отбирать факторы, оказывающие существенное влияние на результативный признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий сY вторым – тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т.д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсиюY.

Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t -критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьшее по модулю значение t -критерия. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если и среди них окажутся незначимые, то опять исключают фактор с наименьшим значением t -критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

Ни одна из этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.

Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F -критерий меньше табличного значения.

2. ОЦЕНКА КАЧЕСТВА МНОЖЕСТВЕННОЙ РЕГРЕССИИ

Качество модели регрессии проверяется на основе анализа остатков регрессии ε. Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод опенки коэффициентов. Согласно общим предположениям регрессионного анализа остатки должны вести себя как независимые (в действительности – почти независимые) одинаково распределенные случайные величины.

Исследование полезно начинать с изучения графика остатков. Он может показать наличие какой-то зависимости, не учтенной в модели. Скажем, при подборе простой линейной зависимости междуY иX график

остатков может показать необходимость перехода к нелинейной модели (квадратичной, полиномиальной, экспоненциальной) или включения в модель периодических компонент.

График остатков хорошо показывает и резко отклоняющиеся от модели наблюдения – выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как они могут грубо искажать значения оценок. Чтобы устранить эффект выбросов, надо либо удалить эти точки из анализируемых данных (эта процедура называется цензурированием), либо применять методы оценивания параметров, устойчивые к подобным грубым отклонениям.

Качество модели регрессии оценивается по следующим направлениям:

проверка качества уравнения регрессии;

проверка значимости уравнения регрессии;

анализ статистической значимости параметров модели;

проверка выполнения предпосылок МНК.

Для проверки качества уравнения регрессии вычисляют коэффициент множественной корреляции (индекс корреляции) R и коэффициент детерминацииR 2 . Чем ближе к единице значения этих характеристик, тем выше качество модели.