Понятие о множественной регрессии. классическая линейная модель множественной регрессии (клммр). определение параметров уравнения множественной регрессии методом наименьших квадратов. Спецификация модели множественной регрессии

Парная регрессия используется при моделировании, если влиянием других факторов, воздействующих на объект исследования можно пренебречь.

Например, при построении модели потребления того или иного товара от дохода, исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Однако, уверенности в справедливости данного утверждения нет.

Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента – метод, который используется в естественнонаучных исследованиях. Экономист лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство прочих условий для оценки влияния одного исследуемого фактора.

Как поступить в этом случае? Надо выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии.

Такого рода уравнения используется при изучении потребления.

Коэффициенты b j – частные производные у по факторами х i

При условии, что все остальные х i = const

Рассмотрим современную потребительскую функцию (впервые 30е годы предложил Кейнс Дж.М.) как модель вида С = f(y,P,M,Z)

c- потребление. у – доход

P – цена, индекс стоимости.

M – наличные деньги

Z – ликвидные активы

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства, в макроэкономических вопросах и других вопросах эконометрики.

В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике.

Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого их них в отдельности, а также совокупное воздействие на моделируемый показатель.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Она включает в себя два круга вопросов:

1. Отбор факторов;

2. Выбор уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Требования к факторам, включаемым во множественную регрессию:

1. они должны быть количественно измеримы, если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости: районы должны быть проранжированы).

2. факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда R у x 1

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются интерпретируемыми.

В уравнение предполагается, что факторы х 1 и х 2 независимы друг от друга, r х1х2 = 0, тогда параметр b 1 измеряет силу влияния фактора х 1 на результат у при неизменном значении фактора х 2 . Если r х1х2 =1, то с изменением фактора х 1 фактор х 2 не может оставаться неизменным. Отсюда b 1 и b 2 нельзя интерпретировать как показатели раздельного влияния х 1 и х 2 и на у.

Пример, рассмотрим регрессию себестоимости единицы продукции у (руб.) от заработной платы работника х (руб.) и производительности труда z (ед. в час).

у = 22600 - 5x - 10z + e

коэффициент b 2 = -10, показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается на 10 руб. при постоянном уровне оплаты.

Вместе с тем параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной х обусловлено высокой корреляцией между х и z (r х z = 0,95). Поэтому роста заработной платы при неизменности производительности труда (не учитывая инфляции) быть не может.

Включенные во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строиться модель с набором р факторов, то для нее рассчитывается показатель детерминации R 2 , которая фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других неучтенных в модели факторов оценивается как 1-R 2 c соответствующей остаточной дисперсией S 2 .

При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшается.

R 2 p +1 ≥ R 2 p и S 2 p +1 ≤ S 2 p .

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включенный в анализ фактор x р+1 не улучшает модель и практически является лишним фактором.

Если для регрессии, включающей 5 факторов R 2 = 0,857, и включенный 6 дало R 2 = 0,858, то нецелесообразно включать в модель этот фактор.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической не значимости параметров регрессии по критерию t-Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости.

Отбор факторов производиться на основе теоретико-экономического анализа. Однако, он часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов осуществляется в две стадии:

на первой – подбирают факторы, исходя из сущности проблемы.

на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Коэффициенты интеркоррелиции (т.е. корреляция между объясняющими переменными) позволяют исключить из моделей дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если r xixj ≥0,7.

Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, т.е. r х ixj = 0, коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Рассмотрим матрицу парных коэффициентов корреляции при изучении зависимости у = f(x, z, v)

y x z V
Y
X 0,8
Z 0,7 0,8
V 0,6 0,5 0,2

Очевидно, факторы x и z дублируют друг друга. В анализ целесообразно включит фактор z, а не х, так как корреляция z с у слабее чем корреляция фактора х с у (r у z < r ух), но зато слабее межфакторная корреляция (r zv < r х v)

Поэтому в данном случае в уравнение множественной регрессии включает факторы z и v . По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Но наиболее трудности возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарности факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК. Если рассмотренная регрессия у = a + bx + cx + dv + e, то для расчета параметров, применяется МНК:

S y = S факт +S e

или
=
+

общая сумма = факторная + остаточная

Квадратов отклонений

В свою очередь, при независимости факторов друг от друга, выполнимо равенство:

S = S x +S z + S v

Суммы квадратов отклонения, обусловленных влиянием соответствующих факторов.

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующего:

· затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

· оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарных факторов будем использовать определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов была бы единичной.

y = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + e

Если же между факторами существует полная линейная зависимость, то:

Чем ближе к 0 определитель, тем сильнее межколлинеарность факторов и ненадежны результаты множественной регрессии. Чем ближе к 1, тем меньше мультиколлинеарность факторов.

Оценка значимости мультиколлинеарности факторов может быть проведена методами испытания гипотезы 0 независимости переменных H 0:

Доказано, что величина
имеет приближенное распределение с степенями свободы. Если фактически значение превосходит табличное (критическое) то гипотеза H 0 отклоняется. Это означает, что , недиагональные коэффициенты указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение R 2 к 1, тем сильнее проявляется мультиколлинеарность. Сравнивая между собой коэффициенты множественной детерминации и т.п.

Можно выделить переменные, ответственные за мультиколлинеарность, следовательно, решить проблему отбора факторов, оставляя в уравнения факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд походов преодоления сильной межфакторной корреляции. Самый простой путь устранения МК состоит в исключении из модели одного или несколько факторов.

Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Если y = f(x 1 , x 2 , x 3), то возможно построение следующего совмещенного уравнения:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + e.

Это уравнение включает взаимодействие первого порядка (взаимодействие двух факторов).

Возможно включение в уравнение взаимодействий и более высокого порядка, если будет доказано их статистически значимость по F-критерию

b 123 x 1 x 2 х 3 – взаимодействие второго порядка.

Если анализ совмещенного уравнения показал значимость только взаимодействия факторов х 1 и х 3 , то уравнение будет имеет вид:

у = a + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 13 x 1 x 3 + e.

Взаимодействие факторов х 1 и х 3 означает, что на разных уровнях фактора х 3 влияние фактора х 1 на у будет неодинаково, т.е. оно зависит от значения фактора х 3 . На рис. 3.1 взаимодействие факторов представляет непараллельными линями связи с результатом у. И наоборот, параллельные линии влияние фактора х 1 на у при разных уровнях фактора х 3 означают отсутствие взаимодействия факторов х 1 и х 3 .

(х 3 =В 2)
(х 3 =В 1)
(х 3 =В 1)
(х 3 =В 2)
у
у
1
х 1
а
б
у
у
Х 1
Х 1

Рис 3.1. Графическая иллюстрация взаимодействия факторов.

а - х 1 влияет на у, причем это влияние одинаково при х 3 =В 1 , так и при х 3 =В 2 (одинаковый наклон линий регрессии), что означает отсутствие взаимодействия факторов х 1 и х 3 ;

б – с ростом х 1 результативный признак у возрастает при х 3 =В 1 , с ростом х 1 результативный признак у снижается при х 3 =В 2 . Между х 1 и х 3 существует взаимодействие.

Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинации азота и фосфора).

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к устранениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

Пусть, например, рассматривается двухфакторная регрессия вида a + b 1 x 1 + b 2 x 2 , для которой x 1 и x 2 обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например х 2) рассматривается как зависимая переменная. Предположим, известно, что . Постановляя это уравнение в искомое вместо х 2 , получим:

Если , то разделив обе части равенства на , получаем уравнение вида:

,

которое представляет собой приведенную форму уравнения для определения результативного признака у. Это уравнение может быть представлено в виде:

К нему для оценки параметров может быть применен МНК.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Походы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно разным методикам. В зависимости от того, какая методика построение уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построение уравнения множественной регрессии :

· метод исключения;

· метод включения;

· шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты – отсев факторов из полного его отбора (метод исключение), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется процедура отсева фактора. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строит регрессии. Если это отношение нарушено, то число степеней свободы остаточной вариаций очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения.

Классическая линейная модель множественной регрессии (КЛММР):

где y – регрессанд; x i – регрессоры; u – случайная составляющая.

Модель множественной регрессии является обобщением модели парной регрессии на многомерный случай.

Независимые переменные (х) предполагаются не случайными (детерминированными) величинами.

Переменная х 1 = x i 1 = 1 называется вспомогательной переменной для свободного члена и еще в уравнениях она называется параметром сдвиги.

«y» и «u» в (2) являются реализациями случайной величины.

Называется также параметром сдвига.

Для статистической оценки параметров регрессионной модели необходим набор (множество) данных наблюдений независимых и зависимых переменных. Данные могут быть представлены в виде пространственных данных или временных рядов наблюдений. Для каждого из таких наблюдений согласно линейной модели можно записать:

Векторно-матричная запись системы (3).

Введем следующие обозначения:

вектор-столбец независимой переменной (регрессанда)

размерность матрицы (n·1)

Матрица наблюдений независимых переменных (регрессоров):

размер (n×k)

Вектор-столбец параметров:

- матричная запись системы уравнений (3). Она проще и компактнее.

Сформируем предпосылки, которые необходимы при выводе уравнении для оценок параметров модели, изучения их свойств и тестирования качества модели. Эти предпосылки обобщают и дополняют предпосылки классической модели парной линейной регрессии (условия Гаусса – Маркова).

Предпосылка 1. независимые переменныене случайны и измеряются без ошибок. Это означает, что матрица наблюдений Х – детерминированная.

Предпосылка 2. (первое условие Гаусса – Маркова): Математическое ожидание случайной составляющей в каждом наблюдении равно нулю.

Предпосылка 3. (второе условие Гаусса – Маркова): теоретическая дисперсия случайной составляющей одинакова для всех наблюдений.

(Это гомоскедастичность)

Предпосылка 4. (третье условие Гаусса – Маркова): случайные составляющие модели не коррелированны для различных наблюдений. Это означает, что теоретическая ковариация

Предпосылки (3) и (4) удобно записать, используя векторные обозначения:

матрица - симметричная матрица. - единичная матрица размерности n, верхний индекс Т – транспонирование.

Матрица называется теоретической матрицей ковариаций (или ковариационной матрицей).

Предпосылка 5. (четвертое условие Гаусса – Маркова): случайная составляющая и объясняющие переменные не коррелированны (для модели нормальной регрессии это условие означает и независимость). В предположении, что объясняющие переменные не случайные, эта предпосылка в классической регрессионной модели всегда выполняется.

Предпосылка 6 . коэффициенты регрессии – постоянные величины.

Предпосылка 7 . уравнение регрессии идентифицируемо. Это означает, что параметры уравнения в принципе оцениваемы, или решение задачи оценивания параметров существует и единственно.

Предпосылка 8 . регрессоры не коллинеарны. В таком случае матрица наблюдений регрессоров должна быть полного ранга. (ее столбцы должны быть линейно независимы). Данная предпосылка тесно связана с предыдущей, так как при применении для оценивания коэффициентов МНК ее выполнение гарантирует идентифицируемость модели (если количество наблюдений больше количества оцениваемых параметров).

Предпосылка 9. Количество наблюдений больше количества оцениваемых параметров, т.е. n>k.

Все эти 1-9 предпосылки одинаково важны, и только при их выполнении можно применять классическую регрессионную модель на практике.

Предпосылка о нормальности случайной составляющей . При построении доверительных интервалов для коэффициентов модели и прогнозов зависимой переменной, проверки статистических гипотез относительно коэффициентов, разработке процедур для анализа адекватности (качества) модели в целом необходимо предположение о нормальном распределении случайной составляющей. С учетом этой предпосылки модель (1) называется классической многомерной линейной моделью регрессии.

Если предпосылки не выполняются, то необходимо строить так называемые обобщенные модели линейной регрессии. От того, насколько корректно (правильно) и осознанно используются возможности регрессионного анализа, зависит успех эконометрического моделирования, и, в конечном счете, обоснованность принимаемых решений.

Для построения уравнения множественной регрессии чаще используются следующие функции

1. линейная: .

2. степенная: .

3. экспоненциальная: .

4. гипербола:

В виду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при Х называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне.

Пример . Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

где у – расходы семьи за месяц на продукты питания, тыс.руб.;

х 1 – месячный доход на одного члена семьи, тыс.руб.;

х 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при томже размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Параметр а - не имеет экономической интерпретации.

При изучении вопросов потребления коэффициенты регрессии рассматривают как характеристики предельной склонности к потреблению. Например, если функции потребления С t имеет вид:

С t = a+b 0 R t + b 1 R t -1 +e,

то потребление в период времени t зависит от дохода того же периода R t и от дохода предшествующего периода R t -1 . Соответственно коэффициент b 0 обычно называют краткосрочной предельной склонностью к потреблению. Общим эффектом возрастания как текущего, так и предыдущего дохода будет рост потребления на b= b 0 + b 1 . Коэффициент b рассматривается здесь как долгосрочная склонность к потреблению. Так как коэффициенты b 0 и b 1 >0, то долгосрочная склонность к потреблению должна превосходить краткосрочную b 0 . Например, за период 1905 – 1951 гг. (за исключением военных лет) М.Фридман построил для США следующую функцию потребления: С t = 53+0,58 R t +0,32 R t -1 с краткосрочной предельной склонностью к потреблению 0,58 и с долгосрочной склонностью к потреблению 0,9.

Функция потребления может рассматриваться также в зависимости от прошлых привычек потребления, т.е. от предыдущего уровня потребления

С t-1: С t = a+b 0 R t +b 1 С t-1 +e,

В этом уравнении параметр b 0 также характеризует краткосрочную предельную склонность к потреблению, т.е. влияние на потребление единичного роста доходов того же периода R t . Долгосрочную предельную склонность к потреблению здесь измеряет выражение b 0 /(1- b 1).

Так, если уравнение регрессии составило:

С t = 23,4+0,46 R t +0,20 С t -1 +e,

то краткосрочная склонность к потреблению равна 0,46, а долгосрочная – 0,575 (0,46/0,8).

В степенной функции
коэффициенты b j являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1% при неизменности действия других факторов. Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления.

Предположим, что при исследовании спроса на мясо получено уравнение:

где у – количество спрашиваемого мяса; х 1 – его цена; х 2 – доход.

Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса на мясо в среднем на 2.63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1.11%.

В производственных функциях вида:

где P – количество продукта, изготавливаемого с помощью m производственных факторов (F 1 , F 2 , ……F m).

b – параметр, являющийся эластичностью количества продукции по отношению к количеству соответствующих производственных факторов.

Экономический смысл имеют не только коэффициенты b каждого фактора, но и их сумма, т.е. сумма эластичностей: В = b 1 +b 2 +……+b m . Эта величина фиксирует обобщенную характеристику эластичности производства. Производственная функция имеет вид

где Р – выпуск продукции; F 1 – стоимость основных производственных фондов; F 2­ ­ - отработано человеко-дней; F 3 – затраты на производство.

Эластичность выпуска по отдельным факторам производства составляет в среднем 0,3% с ростом F 1 на 1% при неизменном уровне других факторов; 0,2% - с ростом F 2­ ­ на 1% также при неизменности других факторов производства и 0,5% с ростом F 3 на 1% при неизменном уровне факторов F 1 и F 2 . Для данного уравнения В = b 1 +b 2 +b 3 = 1. Следовательно, в целом с ростом каждого фактора производства на 1% коэффициент эластичности выпуска продукции составляет 1%, т.е. выпуск продукции увеличивается на 1%, что в микроэкономике соответствует постоянной отдаче на масштаб.

При практических расчетах не всегда . Она может быть как больше, так и меньше 1. В этом случае величина В фиксирует приближенную оценку эластичности выпуска с ростом каждого фактора производства на 1% в условиях увеличивающейся (В>1) или уменьшающейся (В<1) отдачи на масштаб.

Так, если
, то с ростом значений каждого фактора производства на 1% выпуск продукции в целом возрастает приблизительно на 1.2%.

При оценке параметров модели по МНК мерой (критерием) количества подгонки эмпирической регрессионной модели к наблюдаемой выборке служит сумма квадратов ошибок (остатков).

Где е = (e1,e2,…..e n) T ;

Для уравнения применили равенство: .

Скалярная функция;

Система нормальных уравнений (1) содержит k линейных уравнений относительно k неизвестных i = 1,2,3……k

= (2)

Перемножив (2) получим развернутую форму записи систем нормальных уравнений

Оценка коэффициентов

Стандартизированные коэффициенты регрессии, их интерпретация. Парные и частные коэффициенты корреляции. Множественный коэффициент корреляции. Множественный коэффициент корреляции и множественный коэффициент детерминации. Оценка надежности показателей корреляции.

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.

Так, для уравнения система нормальных уравнений составит:

Ее решение может быть осуществлено методом определителей:

, ,…, ,

где D – главный определитель системы;

Dа, Db 1 , …, Db p – частные определители.

а Dа, Db 1 , …, Db p получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Возможен и иной подход в определении параметров множественной регрессии, когда на основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе:

где - стандартизованные переменные , для которых среднее значение равно нулю , а среднее квадратическое отклонение равно единице: ;

Стандартизованные коэффициенты регрессии.

Применяя МНК к уравнению множественной регрессии в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных вида

Решая ее методом определителей, найдем параметры – стандартизованные коэффициенты регрессии (b-коэффициенты).

Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор х i изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии b I сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.

Пример. Пусть функция издержек производства у (тыс. руб.) характеризуется уравнением вида

где х 1 – основные производственные фонды;

х 2 – численность занятых в производстве.

Анализируя его, мы видим, что при той же занятости дополнительный рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение численности занятых на одного человека способствует при той же технической оснащенности предприятий росту затрат в среднем на 1,1 тыс. руб. Однако это не означает, что фактор х 1 оказывает более сильное влияние на издержки производства по сравнению с фактором х 2 . Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Предположим, оно выглядит так:

Это означает, что с ростом фактора х 1 на одну сигму при неизменной численности занятых затрат на продукцию увеличиваются в среднем на 0,5 сигмы. Так как b 1 < b 2 (0,5 < 0,8), то можно заключить, что большее влияние оказывает на производство продукции фактор х 2 , а не х 1 , как кажется из уравнения регрессии в натуральном масштабе.

В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции r xy . Подобно тому, как в парной зависимости коэффициент регрессии и корреляции связаны между собой, так и в множественной регрессии коэффициенты «чистой» регрессии b i связаны со стандартизованными коэффициентами регрессии b i , а именно:

(3.1)

Это позволяет от уравнения регрессии в стандартизованном масштабе

(3.2)

переход к уравнению регрессии в натуральном масштабе переменных.

Ответы на экзаменационные билеты по эконометрике Яковлева Ангелина Витальевна

26. Линейная модель множественной регрессии

Построение модели множественной регрессии является одним из методов характеристики аналитической формы связи между зависимой (результативной) переменной и несколькими независимыми (факторными) переменными.

Модель множественной регрессии строится в том случае, если коэффициент множественной корреляции показал наличие связи между исследуемыми переменными.

Общий вид линейной модели множественной регрессии:

yi=?0+?1x1i+…+?mxmi+?i,

где yi – значение i-ой результативной переменной,

x1i…xmi – значения факторных переменных;

?0…?m – неизвестные коэффициенты модели множественной регрессии;

?i – случайные ошибки модели множественной регрессии.

При построении нормальной линейной модели множественной регрессии учитываются пять условий:

1) факторные переменные x1i…xmi – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии ?i;

3) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

4) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т.е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Это условие выполняется в том случае, если исходные данные не являются временными рядами;

5) на основании третьего и четвёртого условий часто добавляется пятое условие, заключающееся в том, что случайная ошибка модели регрессии – это случайная величина, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ?i~N(0, G2).

Общий вид нормальной линейной модели парной регрессии в матричной форме:

Y=X* ?+?,

– случайный вектор-столбец значений результативной переменной размерности (n*1);

– матрица значений факторной переменной размерности (n*(m+1)). Первый столбец является единичным, потому что в модели регрессии коэффициент ?0 умножается на единицу;

– вектор-столбец неизвестных коэффициентов модели регрессии размерности ((m+1)*1);

– случайный вектор-столбец ошибок модели регрессии размерности (n*1).

Включение в линейную модель множественной регрессии случайного вектора-столбца ошибок модели обусловлено тем, что практически невозможно оценить связь между переменными со 100-процентной точностью.

Условия построения нормальной линейной модели множественной регрессии, записанные в матричной форме:

1) факторные переменные x1j…xmj – неслучайные или детерминированные величины, которые не зависят от распределения случайной ошибки модели регрессии ?i . В терминах матричной записи Х называется детерминированной матрицей ранга (k+1), т.е. столбцы матрицы X линейно независимы между собой и ранг матрицы Х равен m+1

2) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

3) предположения о том, что дисперсия случайной ошибки модели регрессии является постоянной для всех наблюдений и ковариация случайных ошибок любых двух разных наблюдений равна нулю, записываются с помощью ковариационной матрицы случайных ошибок нормальной линейной модели множественной регрессии:

G2 – дисперсия случайной ошибки модели регрессии?;

In – единичная матрица размерности (n*n ).

4) случайная ошибка модели регрессии? является независимой и независящей от матрицы Х случайной величиной, подчиняющейся многомерному нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2: ??N(0;G2In.

В нормальную линейную модель множественной регрессии должны входить факторные переменные, удовлетворяющие следующим условиям:

1) данные переменные должны быть количественно измеримыми;

2) каждая факторная переменная должна достаточно тесно коррелировать с результативной переменной;

3) факторные переменные не должны сильно коррелировать друг с другом или находиться в строгой функциональной зависимости.

Из книги Большая Советская Энциклопедия (ЛИ) автора БСЭ

Из книги Пикап. Самоучитель по соблазнению автора Богачев Филипп Олегович

Из книги Ответы на экзаменационные билеты по эконометрике автора Яковлева Ангелина Витальевна

Из книги автора

Из книги автора

Из книги автора

9. Общая модель парной (однофакторной) регрессии Общая модель парной регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений.Регрессионным анализом называется

Из книги автора

10. Нормальная линейная модель парной (однофакторной) регрессии Общий вид нормальной (традиционной или классической) линейной модели парной (однофакторной) регрессии (Classical Normal Regression Model):yi=?0+?1xi+?i,где yi– результативные переменные, xi – факторные переменные, ?0, ?1 – параметры

Из книги автора

14. Оценка коэффициентов модели парной регрессии с помощью выборочного коэффициента регрессии Помимо метода наименьших квадратов, с помощью которого в большинстве случаев определяются неизвестные параметры модели регрессии, в случае линейной модели парной регрессии

Из книги автора

27. Классический метод наименьших квадратов для модели множественной регрессии. Метод Крамера В общем виде линейную модель множественной регрессии можно записать следующим образом:yi=?0+?1x1i+…+?mxmi+?i, где yi – значение i-ой результативной переменной,x1i…xmi – значения факторных

Из книги автора

28. Линейная модель множественной регрессии стандартизированного масштаба Помимо классического метода наименьших квадратов для определения неизвестных параметров линейной модели множественной регрессии?0…?m используется метод оценки данных параметров через

Из книги автора

31. Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными Частные коэффициенты корреляции для модели множественной регрессии с тремя и более факторными переменными позволяют определить степень зависимости между

Из книги автора

32. Построение частных коэффициентов корреляции для модели множественной регрессии через показатель остаточной дисперсии и коэффициент множественной детерминации Помимо рекуррентных формул, которые используются для построения частных коэффициентов корреляции для

Из книги автора

33. Коэффициент множественной корреляции. Коэффициент множественной детерминации Если частные коэффициенты корреляции модели множественной регрессии оказались значимыми, т. е. между результативной переменной и факторными модельными переменными действительно

Из книги автора

35. Проверка гипотезы о значимости коэффициентов регрессии и модели множественной регрессии в целом Проверка значимости коэффициентов регрессии означает проверку основной гипотезы об их значимом отличии от нуля.Основная гипотеза состоит в предположении о незначимости

Из книги автора

46. Проверка гипотезы о значимости нелинейной модели регрессии. Проверка гипотезы о линейной зависимости между переменными модели регрессии На нелинейные модели регрессии, которые являются внутренне линейными, т. е. сводимыми к линейному виду, распространяются все

Из книги автора

65. Обобщённая модель регрессии. Обобщённый метод наименьших квадратов. Теорема Айткена МНК-оценки неизвестных коэффициентов модели регрессии, чьи случайные ошибки подвержены явлениям гетероскедастичности или автокорреляции, не будут удовлетворять теореме

Если выбранная в качестве объясняющей переменной величина представляет собой действительно доминирующий фактор, то соответствующая парная регрессия достаточно полно описывает механизм причинно-следственной связи. Часто изменение y связано с влиянием не одного, а нескольких факторов. В этом случае в уравнение регрессии вводятся несколько объясняющих переменных. Такая регрессия называется множественной. Уравнение множественной регрессии позволяет лучше, полнее объяснить поведение зависимой переменной, чем парная регрессия, кроме того, оно дает возможность сопоставить эффективность влияния различных факторов.

Линейная модель множественной регрессии имеет вид:

где m – количество включенных в модель факторов. Коэффициент регрессии показывает, на какую величину в среднем изменится результативный признак y , если переменную увеличить на единицу измерения, т.е. является нормативным коэффициентом.

Уравнение линейной модели множественной регрессии в матричном виде имеет вид:

, (7.11)

где Y n х1 наблюдаемых значений зависимой переменной;

X – матрица размерности n х(m+1) наблюдаемых значений независимых переменных (дополнительно вводится фактор, состоящий из одних единиц для вычисления свободного члена);

α – вектор-столбец размерности (m+1) х1 неизвестных, подлежащих оценке коэффициентов регрессии;

ε – вектор-столбец размерности n х1 случайных отклонений.

Таким образом,

,, ,.

При применении МНК относительно случайной составляющей в модели (7.10) принимаются предположения, которые являются аналогами предположений, сделанных выше для МНК, применяемого при оценивании параметров парной регрессии. Обычно предполагается:

1. - детерминированные переменные.

2. - математическое ожидание случайной составляющей в любом наблюдении равно нулю.

3. - дисперсия случайного члена постоянна для всех наблюдений.

4. - в любых двух наблюдениях отсутствует систематическая связь между значениями случайной составляющей.

5. ~ - часто добавляется условие о нормальности распределения случайного члена.

Модель линейной множественной регрессии, для которой выполняются данные предпосылки, называется классической нормальной регрессионной моделью (Classical Normal Regression model).

Гипотезы, лежащие в основе модели множественной регрессии удобно записать в матричной форме:

1. Х – детерминированная матрица, имеет максимальный ранг (m+1) , ρ(Х)=m+1. Эта гипотеза означает, что в повторяющихся выборочных наблюдениях единственным источником случайных возмущений вектора Y являются случайные возмущения вектора ε, поэтому свойства оценок обусловлены матрицей наблюдений Х. Предположение относительно матрицы Х, ранг которой принимается равным (m+1) ,означает, что число наблюдений превышает число параметров (иначе невозможна оценка этих параметров) и не существует строгой линейной зависимости между объясняющими переменными. Это соглашение распространяется на все переменные Х, включая переменную, значение которой всегда равно единице, что соответствует первому столбцу матрицы Х. Если, например, одна объясняющая переменная будет равна другой, умноженной на некоторую константу, или одна будет линейно выражаться через несколько других, то ранг матрицы окажется меньше (m+1) , следовательно, ранг матрицы Х Т Х тоже будет меньше (m+1) . Наличие линейной зависимости между столбцами матрицы Х привело бы к вырождению симметрической матрицы Х Т Х, в результате чего перестала бы существовать обратная матрица (Х Т Х) -1 , которая играет решающую роль в процедуре оценивания.



3,4. , где I n – единичная матрица размером n xn . Так как ε - вектор-столбец, размерности n х1 , а ε Т – вектор-строка, произведение εε Т есть симметрическая матрица порядка n . Матрица ковариаций:

,

Элементы, стоящие на главной диагонали, свидетельствуют о том, что для всех i , это означает, что все имеют постоянную дисперсию . Элементы, не стоящие на главной диагонали дают нам для , так что значения попарно некоррелированы.

1. Основные определения и формулы

Множественная регрессия - регрессия между переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимые объясняющие переменные;

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

Число параметров при переменных

Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Уравнение множественной линейной регрессии в случае независимых переменных имеет вид а в случае двух независимых переменных - (двухфакторное уравнение).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов . Строится система нормальных уравнений:

Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

где - определитель системы;

- частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности :

Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

Тесноту совместного влияния факторов на результат оценивает коэффиц и ент (индекс) множественной корреляции :

Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции:

Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

При линейной зависимости совокупный коэффициент множественной ко р реляции определяется через матрицу парных коэффициентов корреляции:

где - определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

Частны е коэффициент ы корреляции характеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и которая будет иметь место, если устранить влияние на эти признаки фактора

Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов, можно определить как:

или по рекуррентной формуле:

Для двухфакторного уравнения:

или

Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парныйкоэффициент значит взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка.

Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент мн о жественной корреляции :

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции: Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как

Если число параметров при близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции , который содержит поправку на число степеней свободы:

Чем больше величина тем сильнее различия и

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

Значимость уравнения множественной регрессии в целом , так же как и в парной регрессии, оценивается с помощью - критерия Фишера :

Мерой для оценки включения фактора в модель служит частный -критерий . В общем виде для фактора частный -критерий определяется как

Для двухфакторного уравнения частные -критерии имеют вид:

Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

где - коэффициент чистой регрессии при факторе

- средняя квадратическая (стандартная) ошибка коэффициента регрессии которая может быть определена по формуле:

При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Для оценки мультиколлинеарности факторов может использоваться опред е литель матрицы между факторами . Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . При нарушении гомоскедастичности выполняются неравенства

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

Рис. 9.22 . Примеры гетероскедастичности:

а) дисперсия остатков растет по мере увеличения

б) дисперсия остатков достигает максимальной величины при средних значениях переменной и уменьшается при минимальных и максимальных значениях

в) максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений

Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

Последовательность применения теста Гольдфельда-Квандта :

1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2) Исключить из рассмотрения центральных наблюдений. При этом где - число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

3) Разделить совокупность из наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

4) Вычислить остаточную сумму квадратов для первой и второй групп и найти их отношение где При выполнении нулевой гипотезы о гомоскедастичности отношение будет удовлетворять -критерию Фишера со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина превышает тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (и с кусственными) переменными .

К оэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

2. Решение типовых задач

Пример 9. 2. По 15 предприятиям отрасли (табл. 9.4) изучается зависимость затрат на выпуск продукции (тыс. ден. ед.) от объема произведенной продукции (тыс. ед.) и расходов на сырье (тыс. ден. ед). Необходимо:

1) Построить уравнение множественной линейной регрессии.

2) Вычислить и интерпретировать:

Средние коэффициенты эластичности;

Парные коэффициенты корреляции, оценить их значимость на уровне 0,05;

Частные коэффициенты корреляции;

Коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент детерминации.

3) Оценить надежность построенного уравнения регрессии и целесообразность включения фактора после фактора и после

Таблица 9.4

x 1

x 2

Решение:

1) В Excel составим вспомогательную таблицу рис. 9.23.

Рис. 9.23 . Расчетная таблица многофакторной регрессии.

С помощью встроенных функций вычислим: =345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

Затем найдем коэффициенты множественной линейной регрессии и оформим вывод результатов как на рис. 9.24.

Рис. 9.24 . Решение задачи в MS Excel

Для вычисления значения коэффициента используем формулы

Формулы для вычисления параметров заносим в ячейки Е 20 , Е 2 1, Е 2 2. Так длявычисления параметра b 1 в Е 20 поместим формулу =(B20*B24-B21*B22)/(B23*B24-B22^2) и получим 29,83. Аналогично получаем значения =0,301 и Коэффициент =-31,25 (рис. 9.25.).

Рис. 9.25 . Вычисление параметров уравнения множественной регрессии (в с т роке формул формула для расчета b 2) .

Уравнение множественной линейной регрессии примет вид:

31,25+29,83+0,301

Таким образом, при увеличении объема произведенной продукции на 1 тыс. ед. затраты на выпуск этой продукции в среднем увеличатся на 29,83 тыс. ден. ед., а при увеличении расходов на сырье на 1 тыс. ден. ед. затраты увеличатся в среднем на 0,301 тыс. ден. ед.

2) Для вычисления средних коэффициентов эластичности воспользуемся формулой: Вычисляем: =0,884 и =0,184. Т.е. увеличение только объема произведенной продукции (от своего среднего значения) или только расходов на сырье на 1% увеличивает в среднем затраты на выпуск продукции на 0,884% или 0,184% соответственно. Таким образом, фактор оказывает большее влияние на результат, чем фактор

Для вычисления парных коэффициентов корреляции воспользуемся функцией «КОРРЕЛ» рис. 9.26.

Рис. 9.26 . Вычисление парных коэффициентов корреляции

Значения парных коэффициентов корреляции указывают на весьма тесную связь с и на тесную связь с В то же время межфакторная связь очень сильная (=0,88>0,7), что говорит о том, что один из факторов является неинформативным, т.е. в модель необходимо включать или или

З начимост ь парных коэффициентов корреляции оценим с помощью -критерия Стьюдента. =2,1604 определяем с помощью встроенной статистической функции СТЬЮДРАСПОБР взяв =0,05 и =-2=13.

Фактическое значение -критерия Стьюдента для каждого парного коэффициента определим по формулам: . Результат расчета представлен на рис. 9.27.

Рис. 9.27 . Результат расчета фактических значений -критерия Стьюдента

Получим =12,278; =7,1896; =6,845.

Так как фактические значения -статистики превосходят табличные, то парные коэффициенты корреляции не случайно отличаются от нуля, а статистически значимы.

Получим =0,81; =0,34; =0,21. Таким образом, фактор оказывает более сильное влияние на результат, чем

При сравнении значений коэффициентов парной и частной корреляции приходим к выводу, что из-за сильной межфакторной связи коэффициенты парной и частной корреляции отличаются довольно значительно.

Коэффициент множественной корреляции

Следовательно, зависимость от и характеризуется как очень тесная, в которой =93% вариации затрат на выпуск продукции определяются вариацией учтенных в модели факторов: объема произведенной продукции и расходов на сырье. Прочие факторы, не включенные в модель, составляют соответственно 7% от общей вариации

Скорректированный коэффициент множественной детерминации =0,9182 указывает на тесную связь между результатом и признаками.

Рис. 9.28 . Результаты расчета частных коэффициентов корреляции и коэфф и циента множественной корреляции

3) Оценим надежность уравнения регрессии в целом с помощью -критерия Фишера. Вычислим . =3,8853 определяем взяв =0,05, =2, =15-2-1=12 помощью встроенной статистической функции FРАСПОБР с такими же параметрами.

Так как фактическое значение больше табличного, то с вероятностью 95% делаем заключение о статистической значимости уравнения множественной линейной регрессии в целом.

Оценим целесообразность включения фактора после фактора и после с помощью частного -критерия Фишера по формулам

; .

Для этого в ячейку B32 заносим формулу для расчета F x 1 «=(B28- H24^2)*(15-3)/(1-B28) », а в ячейку B 33 формулу для расчета F x 2 «=(B28-H23^2)*(15-3)/(1-B28) », результат вычисления F x 1 = 22,4127, F x 2 = 1,5958. Табличное значение критерия Фишера определим с помощью встроенной функции FРАСПОБР с параметрами =0,05, =1, =12 «=FРАСПОБР(0,05; 1 ;12) », результат - =4,747. Так как =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Рис. 9.29 . Результаты расчета критерия Фишера

Низкое значение (немногим больше 1) свидетельствует о статистической незначимости прироста за счет включения в модель фактора после фактора Это означает, что парная регрессионная модель зависимости затрат на выпуск продукции от объема произведенной продукции является достаточно статистически значимой, надежной и что нет необходимости улучшать ее, включая дополнительный фактор (расходы на сырье).

3. Дополнительные сведения для решения задач с помощью MS Excel

Сводные данные основных характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Опис а тельная статистика . Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в ленте выбираем вкладку «Данные», в ней раздел «Анализ» (рис. 9.30.).

Рис. 9.30 . Вкладка данные диалоговое окно «Анализ данных»

2. В диалоговом окне «Анализ данных» выбрать Описательная стат и стика и нажать кнопку «ОК», в появившемся диалоговом окне заполните необходимые поля (рис. 9.31):

Рис. 9.31 . Диалоговое окно ввода параметров инструмента
« Описательная статистика »

Входной интервал - диапазон, содержащий данные результативного и объясняющих признаков;

Группирование - указать, как расположены данные (в столбцах или строках);

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Для получения информации Итоговой статистики, Уровня наде ж ности, -го наибольшего и наименьшего значений нужно установить соответствующие флажки в диалоговом окне.

Получаем следующую статистику (рис. 2.10).

Множественный регрессионный анализ является расширением парного регрессионного анализа. О применяется в тех случаям, когда поведение объясняемой, зависимой переменной необходимо связать с влиянием более чем одной факторной, независимой переменной. Хотя определенная часть многофакторного анализа представляет собой непосредственное обобщение понятий парной регрессионной модели, при выполнении его может возникнуть ряд принципиально новых задач.

Так, при оценке влияния каждой независимой переменной необходимо уметь разграничивать ее воздействие на объясняемую переменную от воздействия других независимых переменных. При этом множественный корреляционный анализ сводится к анализу парных, частных корреляций. На практике обычно ограничиваются определением их обобщенных числовых характеристик, таких как частные коэффициенты эластичности, частные коэффициенты корреляции, стандартизованные коэффициенты множественной регрессии.

Затем решаются задачи спецификации регрессионной модели, одна из которых состоит в определении объема и состава совокупности независимых переменных, которые могут оказывать влияние на объясняемую переменную. Хотя это часто делается из априорных соображений или на основании соответствующей экономической (качественной) теории, некоторые переменные могут в силу индивидуальных особенностей изучаемых объектов не подходить для модели. В качестве наиболее характерных из них можно назвать мультиколлинеарность или автокоррелированность факторных переменных.

3.1. Анализ множественной линейной регрессии с помощью

метода наименьших квадратов (МНК)

В данном разделе полагается, что рассматривается модель регрессии, которая специфицирована правильно. Обратное, если исходные предположения оказались неверными, можно установить только на основании качества полученной модели. Следовательно, этот этап является исходным для проведения множественного регрессионного анализа даже в самом сложном случае, поскольку только он, а точнее его результаты могут дать основания для дальнейшего уточнения модельных представлений. В таком случае выполняются необходимые изменения и дополнения в спецификации модели, и анализ повторяется после уточнения модели до тех пор, пока не будут получены удовлетворительные результаты.

На любой экономический показатель в реальных условиях обычно оказывает влияние не один, а несколько и не всегда независимых факторов. Например, спрос на некоторый вид товара определяется не только ценой данного товара, но и ценами на замещающие и дополняющие товары, доходом потребителей и многими другими факторами. В этом случае вместо парной регрессии M (Y / Х = х ) = f (x ) рассматривается множественная регрессия

M (Y / Х1 = х1, Х2 = х2, …, Хр = Хр ) = f (x 1 , х 2 , …, х р ) (2.1)

Задача оценки статистической взаимосвязи переменных Y и Х 1 , Х 2 , ..., Х Р формулируется аналогично случаю парной регрессии. Уравнение множественной регрессии может быть представлено в виде

Y = f (B , X ) + 2

где X - вектор независимых (объясняющих) переменных; В - вектор параметров уравнения (подлежащих определению); - случайная ошибка (отклонение); Y - зависимая (объясняемая) переменная.

Предполагается, что для данной генеральной совокупности именно функция f связывает исследуемую переменную Y с вектором независимых переменных X .

Рассмотрим самую употребляемую и наиболее простую для статистического анализа и экономической интерпретации модель множественной линейной регрессии. Для этого имеются, по крайней мере, две существенные причины.

Во-первых, уравнение регрессии является линейным, если система случайных величин (X 1 , X 2 , ..., Х Р , Y ) имеет совместный нормальный закон распределения. Предположение о нормальном распределении может быть в ряде случаев обосновано с помощью предельных теорем теории вероятностей. Часто такое предположение принимается в качестве гипотезы, когда при последующем анализе и интерпретации его результатов не возникает явных противоречий.

Вторая причина, по которой линейная регрессионная модель предпочтительней других, состоит в том, что при использовании ее для прогноза риск значительной ошибки оказывается минимальным.

Теоретическое линейное уравнение регрессии имеет вид:

или для индивидуальных наблюдений с номером i :

где i = 1, 2, ..., п.

Здесь В = (b 0 , b 1 ,b Р) - вектор размерности (р+1) неизвестных параметров b j , j = 0, 1, 2, ..., р , называется j -ым теоретическим коэффициентом регрессии (частичным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменению X j . Другими словами, он отражает влияние на условное математическое ожидание M (Y / Х1 = х1, Х2 = х2, …, Хр = x р ) зависимой переменной Y объясняющей переменной Х j при условии, что все другие объясняющие переменные модели остаются постоянными. b 0 - свободный член, определяющий значение Y в случае, когда все объясняющие переменные X j равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.

Пусть имеется n наблюдений вектора объясняющих переменных X = (1 , X 1 , X 2 , ..., Х Р ) и зависимой переменной Y :

(1 , х i1 , x i2 , …, x ip , y i ), i = 1, 2, …, n.

Для того чтобы однозначно можно было бы решить задачу отыскания параметров b 0 , b 1 , … , b Р (т.е. найти некоторый наилучший вектор В ), должно выполняться неравенство n > p + 1 . Если это неравенство не будет выполняться, то существует бесконечно много различных векторов параметров, при которых линейная формула связи между X и Y будет абсолютно точно соответствовать имеющимся наблюдениям. При этом, если n = p + 1 , то оценки коэффициентов вектора В рассчитываются единственным образом - путем решения системы p + 1 линейного уравнения:

где i = 1, 2, ..., п.

Например, для однозначного определения оценок параметров уравнения регрессии Y = b о + b 1 X 1 + b 2 X 2 достаточно иметь выборку из трех наблюдений (1 , х i 1 , х i 2 , y i), i = 1, 2, 3. В этом случае найденные значения параметров b 0 , b 1 , b 2 определяют такую плоскость Y = b о + b 1 X 1 + b 2 X 2 в трехмерном пространстве, которая пройдет именно через имеющиеся три точки.

С другой стороны, добавление в выборку к имеющимся трем наблюдениям еще одного приведет к тому, что четвертая точка (х 41 , х 42 , х 43 , y 4) практически всегда будет лежать вне построенной плоскости (и, возможно, достаточно далеко). Это потребует определенной переоценки параметров.

Таким образом, вполне логичен следующий вывод: если число наблюдений больше минимально необходимой величины, т.е. n > p + 1 , то уже нельзя подобрать линейную форму, в точности удовлетворяющую всем наблюдениям. Поэтому возникает необходимость оптимизации, т.е. оценивания параметров b 0 , b 1 , …, b Р , при которых формула регрессии дает наилучшее приближение одновременно для всех имеющихся наблюдений.

В данном случае число  = n - p - 1 называется числом степеней свободы. Нетрудно заметить, что если число степеней свободы невелико, то статистическая надежность оцениваемой формулы невысока. Например, вероятность надежного вывода (получения наиболее реалистичных оценок) по трем наблюдениям существенно ниже, чем по тридцати. Считается, что при оценивании множественной линейной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений превосходило число оцениваемых параметров, по крайней мере, в 3 раза.

Прежде чем перейти к описанию алгоритма нахождения оценок коэффициентов регрессии, отметим желательность выполнимости ряда предпосылок МНК, которые позволят обосновать характерные особенности регрессионного анализа в рамках классической линейной многофакторной модели.