Текст книги "Основы эконометрики в среде GRETL. Учебное пособие"
![](/books_files/covers/thumbs_240/osnovy-ekonometriki-v-srede-gretl-uchebnoe-posobie-263691.jpg)
Автор книги: Александра Малова
Жанр: Управление и подбор персонала, Бизнес-Книги
сообщить о неприемлемом содержимом
Текущая страница: 1 (всего у книги 5 страниц) [доступный отрывок для чтения: 1 страниц]
А. С. Малова
Основы эконометрики в среде GRETL
Учебное пособие
![](logo.jpg)
[email protected]
Введение
Цель данного пособия – познакомить читателя с основами проведения эконометрических исследований в среде GRETL. Основная аудитория данной книги – студенты бакалавриата, обучающиеся по направлениям «Экономика», «Бизнес-информатика», «Управление персоналом», «Менеджмент», однако она может быть полезна и студентам других направлений, а также представителям бизнес-сообщества, которые по роду своей деятельности столкнулись с необходимостью проведения эконометрических исследований. Данное учебное пособие – это попытка практического изложения основ эконометрики с минимальными теоретическими выкладками, при этом предполагается, что недостаток теоретических знаний должен быть восполнен читателем самостоятельно с помощью учебников по основам эконометрики. Для обеспечения связи практических навыков с теоретическими знаниями в области эконометрики ко всем рассматриваемым темам даются ссылки на литературу. При этом основная задача данного пособия – помочь читателю в освоении эконометрики, изложить некоторые технические аспекты проведения исследований с использованием среды GRETL. Почему именно GRETL? Данный эконометрический пакет является бесплатным программным продуктом, который, с одной стороны, доступен любому пользователю, а с другой – обладает достаточно обширными возможностями для анализа данных и проведения эмпирических исследований. Немаловажным является и то, что в GRETL имеется значительный пул данных из большинства классических зарубежных учебников по основам эконометрики, что позволит достаточно легко переключиться с простейших примеров, рассмотренных в данном пособии, на более сложные содержательные задачи и кейсы из учебников.
В данном пособии весь материал излагается с точки зрения практики – то есть все основные разделы курса эконометрики для бакалавриантов даны в примерах и задачах. Поскольку невозможно приобрести навык проведения эконометрических расчетов, только изучая учебник, предполагается, что читатель должен иметь возможность проделать все излагаемые действия на практике. С этой целью в пособии использовались данные из учебника J. M. Wooldridge «Basic econometrics», которые доступны в GRETL. Все наборы данных при первом обращении к ним в пособии обозначены ссылками и указателями на источник.
Перед тем как начать осваивать основы эконометрики в среде GRETL, необходимо скачать и установить на свой компьютер сам статистический пакет. Он доступен по ссылке http://GRETL.sourceforge.net/. Вся информация о том, как установить GRETL, приводится на сайте, поэтому нет нужды в подробном изложении, стоит лишь сказать, что программа имеет версию как под ОС Windows, так и под Mac OS, а также что библиотеки данных должны быть установлены отдельно, для этого нужно перейти по ссылке http://GRETL.sourceforge.net/GRETL_data.html.
Удачи в проведении интересных, содержательных и полезных эконометрических исследований!
1. Линейная регрессионная модель
Для начала введем некоторые обозначения. Предположим, что некоторая величина Y зависит от величин . Введем понятие регрессионного уравнения – это уравнение вида
, где
. Через n обозначим число наблюдений, по которым строится регрессия, k – число регрессоров в модели,
– случайная величина, которая носит название ошибки регрессии.
Модель такого вида называется классической линейной регрессионной моделью (ЛРМ) в случае, если выполняются следующие предпосылки:
1. ,
– линейная спецификация модели, где
– коэффициенты модели, которые подлежат определению,
,
– ошибки модели.
2. ,
– детерминированные величины.
3. – математическое ожидание ошибок равно нулю,
, дисперсия ошибок не зависит от номера наблюдения.
4. ,
– совместное математическое ожидание ошибок разных наблюдений равно нулю.
5. Если выполняется дополнительная предпосылка о нормальном распределении ошибок , то классическая линейная регрессионная модель называется нормальной линейной регрессионной моделью (НЛРМ).
Подробнее о предпосылках линейной регрессионной модели можно прочесть в [2, 3].
2. Оценка линейной регрессионной модели
Рассмотрим множественную линейную регрессию
,
,
где – средний уровень заработной платы в час в долларах,
– образование в годах,
– общий стаж работы в годах,
– опыт работы у текущего работодателя, в годах,
– ошибка регрессии, n – число наблюдений [файл с данными wage1.gdt].
Для того чтобы оценить предложенную модель по методу наименьших квадратов (МНК), используем команду меню Модель – Метод наименьших квадратов.
В появившемся диалоговом окне в поле Зависимая переменная помещаем переменную (для этого выделяем ее курсором в списке переменных и нажимаем на стрелку, соответствующую окну Зависимая переменная. Данный способ перемещения переменных справедлив для всех операций с диалоговыми окнами).
Для дальнейшего удобства можно поставить галочку в окошке Установить по умолчанию. Это делается для того, чтобы при изменении спецификации исследуемой модели зависимая переменная не менялась. В окно Регрессоры отправляем регрессоры модели – это переменные ,
,
.
![](_22.jpg)
Рис. 2.1
После этого нажимаем ОК. В результате коэффициенты модели были оценены методом наименьших квадратов. Результат оценки представлен на рис. 2.2.
![](_23.jpg)
Рис. 2.2
Для того чтобы понимать, какие результаты позволяет получить GRETL, разберем информацию, представленную на распечатке по строкам сверху вниз.
В первой строке указывается метод оценки и количество наблюдений, по которым производилась оценка. Достаточно часто случается, что количество наблюдений, по которым производилась оценка, не совпадает с числом наблюдений в исходной выборке, даже если она не была ограничена. Это может быть связано, например, с наличием пропусков в данных.
Вторая строка напоминает нам о том, какая переменная была выбрана в качестве зависимой.
После двух первых строк следуют подтаблицы непосредственно с результатами оценивания. В первой подтаблице указаны регрессоры, включенные в модель, напротив каждого из них указывается его коэффициент (столбец Коэффициенты), стандартная ошибка оценки коэффициента (столбец Ст. ошибка), значение статистики Стьюдента для коэффициента (столбец t-статистика) и вероятность ошибки I рода (столбец P-значение). Стоит отметить, что константа тоже является регрессором, и для нее также рассчитываются все указанные характеристики.
По распечатке, представленной на рис. 2.2, мы можем выписать получившееся уравнение регрессии:
![](_24.jpg)
Аналогично можно получить оцененное уравнение и в GRETL, для этого выбираем в меню регрессии Файл – Просмотреть как уравнение.
![](_25.jpg)
Рис. 2.3
Однако для того, чтобы иметь возможность дать интерпретацию коэффициентам регрессии и строить прогнозы, необходимо проверить, является ли полученная модель адекватной.
Для этого, в свою очередь, необходимо провести ряд эконометрических тестов, а именно проверить значимость регрессии в целом, значимость отдельных коэффициентов регрессии, оценить качество полученного регрессионного уравнения. Вообще говоря, перед проверкой значимости и качества уравнения необходимо провести тесты на выполнение основных предпосылок линейной регрессионной модели (гомоскедастичность, отсутствие автокорреляции). На данном этапе мы будем считать эти тесты проведенными и вернемся к вопросам выполнения предпосылок ЛРМ позднее.
3. Тест Фишера (Fisher test)
Для начала проверим гипотезу о незначимости регрессии в целом. Тест позволит понять, является ли построенная модель адекватной с точки зрения статистики. Для этой цели воспользуемся тестом Фишера [3].
![](_26.jpg)
Сформулируем гипотезы для проверки незначимости регрессии в целом в рассматриваемом примере [файл с данными wage1.gdt] модели ,
:
![](_28.jpg)
как минимум один из коэффициентов отличен от нуля.
Для принятия решения о том, какую гипотезу нужно отвергнуть, построим F-статистику. Для этого нам должны быть известны (помимо уже имеющихся параметров n – объем выборки и k – число регрессоров в модели) величины RSS и ESS. В явном виде в распечатке на рис. 2.2 дано значение ESS – сумма квадратов остатков, которая составляет ESS = 4966,3, а также из распечатки известен коэффициент детерминации (подробнее о коэффициенте детерминации и его интерпретации можно прочесть в § 7).
Если вспомнить, что ,1 а
, то можно путем простых алгебраических преобразований найти необходимую нам величину RSS. При этом
. Отсюда можно вычислить
. Критическое значение F-статистики возьмем на уровне значимости 5 %:
(чтобы получить это значение, в основном меню GRETL нужно выбрать Инструменты – Критические значения – Фишера и ввести необходимое число степеней свободы и правостороннюю вероятность либо посмотреть в статистических таблицах распределения Фишера для уровня значимости 5 %, например в [7]).
![](_36.jpg)
Рис. 3.1
![](_37.jpg)
Рис. 3.2
Уровень значимости, на котором принимается решение о том, какую гипотезу не отвергать, остается на усмотрение исследователя. Как правило, если нет представления, какой именно уровень значимости брать, предлагается выбирать 5 %. В случаях работы с маленьким по объему выборками (от 30 до 100 наблюдений) предлагается брать уровень значимости 10 %. Для больших выборок (более 1000 наблюдений) можно взять уровень значимости 1 %. В нашем случае объем выборки средний (526 наблюдений, эта информация дана в первой строке распечатки на рис. 2.2.), поэтому можно было принять .
Сравниваем расчетное значение F-статистики с критическим , то есть 78,2 > 2,6. Следовательно, можно сделать вывод, что гипотеза
о незначимости регрессии в целом отвергается.
Тест Фишера можно провести также в полуавтоматическом режиме и в автоматическом режиме. Полуавтоматический режим состоит в том, что нам не нужно вручную вычислять значение расчетной F-статистики, оно дано в распечатке на рис. 2.2. В этом случае нужно лишь выяснить критическое значение F-статистики и сравнить расчетное значение с критическим.
В автоматическом режиме нужно также воспользоваться распечаткой GRETL и посмотреть на р-значение статистики Фишера на рис. 2.2 (в распечатке р-значение (F)). В р-значении содержится вероятность ошибки I рода. Таким образом, р-значение (F) для теста Фишера – это вероятность ошибки I рода при тестировании гипотезы . По существу это вероятность ошибиться, отвергнув гипотезу H0. Для принятия решения, можно ли отвергнуть гипотезу H0, нужно сравнить р-значение с заданным уровнем значимости a. Уровень значимости задает вероятность ошибки I рода, то есть, грубо говоря, какую долю ошибок мы готовы себе позволить, отвергнув гипотезу H0. Если р-значение меньше принятого уровня значимости, то маловероятно, что мы ошибемся, отвергая гипотезу H0 в ситуации, когда р-значение больше уровня значимости, вероятна ошибка в случае отклонения нулевой гипотезы, поэтому ее стоит принять. Отсюда можно сделать вывод, что р-значение показывает вероятность ошибиться, отвергнув гипотезу H0, при том, что она верна. Эта интерпретация р-значения справедлива для всех статистических тестов, и мы будем иметь ее в виду в дальнейшем. В данном случае р-значение (F)
(р-значение (F) в распечатке представляет собой «3,41e-41» – это компьютерный способ записи числа
, которое практически равно 0). Это говорит о том, что можно отвергнуть гипотезу H0 (вероятность ошибки близка к 0).
Стоит обратить внимание еще на один полезный факт. При расчете F-статистики вручную мы использовали формулу . Используя соотношение
, можно переписать расчетную статистику через коэффициент детерминации, не используя квадраты остатков
.
4. Тест Стьюдента (t-test)
После того как мы проверили незначимость регрессионного уравнения в целом, рассмотрим, как проверять незначимость коэффициентов при отдельных регрессорах. Для этой цели воспользуемся тестом Стьюдента [3].
![](_46.jpg)
Проверим незначимость коэффициента при переменной . Сформулируем гипотезы теста для указанной переменной [файл с данными wage1.gdt]. Они будут выглядеть следующим образом:
![](_47.jpg)
![](_48.jpg)
Значение оцененного коэффициента при этой переменной находится в столбце «Коэффициент» – . Для того чтобы вычислить расчетную t-статистикy, необходимо знать значение стандартной ошибки для коэффициента, оно содержится в столбце «Ст. ошибка». Для переменной
стандартная ошибка
. Отсюда можем вычислить
. Для принятия решения о том, можно ли отвергнуть гипотезу H0, сравним значение
с критическим значением статистики
. Примем уровень значимости
. Как уже было сказано, объем выборки составляет 526 наблюдений, то есть n = 526. Число регрессоров в модели составляет 4 (константа тоже регрессор), то есть, k = 4. Отсюда следует, что нужно искать критическое значение из двустороннего распределения Стьюдента
на уровне значимости 5 % (одностороннее распределение 2,5 %) с 522 степенями свободы. Для поиска критического значения из распределения Стьюдента можно воспользоваться статистическими таблицами, например из [7]. Но можно воспользоваться возможностями GRETL. Для этого в основном меню выберем Инструменты – Критические значения.
![](_55.jpg)
Рис. 4.1
В открывшемся окне «Критические значения» выберем вкладку, соответствующую распределению Стьюдента, и введем нужные параметры распределения.
![](_56.jpg)
Рис. 4.2
Стоит обратить внимание на то, что в GRETL предполагается для распределения Стьюдента вводить не двустороннюю вероятность, а только правостороннюю вероятность, то есть в нашем случае это 2,5 %. После нажатия клавиши ОК получаем искомое критическое значение .
![](_58.jpg)
Рис. 4.3
После этого сравниваем расчетное и критическое значение статистик для переменной . В нашем случае
(|11,68 | > 1,96), отсюда можно сделать вывод, что гипотеза H0 отвергается, то есть можно говорить о том, что регрессор
значим.
Рассмотренный способ проверки гипотезы незначимости коэффициента при отдельном регрессоре позволяет соотнести теоретические знания о проверке незначимости с практикой. Однако ту же самую процедуру можно несколько упростить. Обратим внимание, что в столбце t-статистика для всех переменных уже указаны расчетные значения статистики. Так, например, для переменной указано полученное нами значение
. Это несколько сокращает процедуру проверки, однако сравнение расчетного и критического значения t-статистики все же приходится проделывать самостоятельно.
Существует еще более простой и быстрый способ проверки незначимости коэффициента.
В рассматриваемом примере p-значение переменной составляет
, то есть практически равно 0. В этом случае, p-значение переменной
меньше заданного уровня значимости
. Это значит, что можно отвергнуть гипотезу H0, то есть коэффициент при регрессоре
значим.
Аналогичную проверку незначимости мы можем провести для коэффициентов остальных регрессоров. На 5 %-ном уровне значимости можно утверждать, что коэффициент при и константа – значимы, коэффициент при
на 5 %-ном уровне не значим, однако он является значимым на 10 %-ном уровне значимости.
![](_63.jpg)
В программе GRETL предусмотрена визуализация значимости коэффициентов при отдельных регрессорах на разных уровнях значимости. Для этого справа от каждого регрессора расположены звездочки:
• Наличие одной звездочки говорит о том, что коэффициент значим только на 10 %-ном уровне.
• Наличие двух звездочек говорит о значимости коэффициента на 5 %-ном уровне.
• Три звездочки информируют о значимости коэффициента на 1 %-ном уровне.
• Отсутствие звездочек говорит о незначимости коэффициента на 10 %-ном уровне.
Мы проверили незначимость коэффициентов при всех регрессорах, включенных в модель. Если мы хотим ориентироваться на 5 %-ный уровень значимости, то нужно удалить переменную с незначимым коэффициентом. Для того чтобы это сделать в окне с построенной моделью (в нашем случае это окно Модель 1, но, вообще говоря, это может быть Модель № в зависимости от того, сколько вы моделей построили до этого), выбираем пункт меню Правка – Изменить модель.
![](_64.jpg)
Рис. 4.4
В открывшемся окне выделяем переменную и красной стрелкой удаляем ее из независимых переменных.
![](_65.jpg)
Рис. 4.5
Обновленная модель представлена на рис. 4.6.
![](_66.jpg)
Рис. 4.6
Как видно из распечатки, все коэффициенты регрессии в обновленной модели значимы на 1 %-ном уровне (следовательно, и на 5 %-ном уровне они тоже значимы). Возможности t-теста не ограничиваются только проверкой незначимости коэффициентов при регрессорах. На самом деле проверка незначимости коэффициента является частным случаем проверки равенства коэффициента при регрессоре конкретному значению [2, 3].
![](_67.jpg)
Разберем это на примере. Проверим, а можем ли мы округлить коэффициент при переменной до 0,2. Сформулируем гипотезы для проверки этого предположения:
![](_68.jpg)
![](_69.jpg)
Для проверки такого рода гипотезы уже нельзя воспользоваться рассчитанным в GRETL значением t-статистики, а также р-значением, поэтому вычислим значение t-статистики для переменной самостоятельно:
. Значение критической точки Стьюдента составит
.
Сравниваем расчетную статистику и критическую и получаем, что , то есть (|–0,56 | < 1,96). В этом случае, мы можем принять нулевую гипотезу и округление коэффициента перед
до 0,2 будет статистически корректно. Аналогичные гипотезы мы можем проверять для остальных коэффициентов регрессии.
![](_74.jpg)
Проверить, может ли коэффициент при регрессоре равняться заданному значению, позволяет также доверительный интервал [2, 3].
![](_75.jpg)
Используя данные из распечатки на рис. 4.6, можно построить доверительные интервалы для всех коэффициентов самостоятельно либо воспользоваться встроенной функцией GRETL для построения доверительного интервала.
Для этого в окне модели вызовем пункт меню Анализ – Доверительные интервалы для коэффициентов.
![](_76.jpg)
Рис. 4.7
Результатом работы данной функции является следующее окно (рис. 4.8).
![](_77.jpg)
Рис. 4.8
Истинное значение коэффициента при переменной с вероятностью 95 % накрывается интервалом
.
![](_79.jpg)
Нужно обратить внимание на то, что с помощью доверительного интервала можно проверять незначимость коэффициентов при регрессорах. В случае, если доверительный интервал накрывает 0 (то есть истинное значение коэффициента может принимать нулевое значение), можно сделать вывод о том, что коэффициент не значим.
Еще одна возможность для проверки гипотез с помощью теста Стьюдента – это односторонние гипотезы [2, 3].
![](_80.jpg)
Разберем, как проводится односторонний t-тест на примере. Проверим, верно ли, что коэффициент перед переменной можно считать большим 0,2.
![](_68.jpg)
![](_81.jpg)
Значение расчетной статистики для этого теста будет такое же, как и в предыдущем тесте (проверка равенства коэффициента заданному значению). Критическая точка составит . Сравнивая расчетное значение статистики с критическим, получаем
, то есть –0,56 < 1,65. Значит, гипотеза H0 принимается.
По сути, все разновидности t-теста и построение доверительного интервала для коэффициента – это две стороны одной медали. Полезные результаты можно получать и тем и другим способом, выбор способа ответа на вопросы о незначимости коэффициента при регрессоре и соотношения коэффициента регрессора с заданным значением возлагается на исследователя.
5. Проверка гипотезы о совместной незначимости коэффициентов
В рассматриваемой нами модели зависимости заработной платы после проверки незначимости коэффициентов при отдельных регрессорах осталось две независимых переменных: образование и опыт работы у текущего работодателя. Однако с экономической точки зрения очевидно, что на уровень заработной платы сотрудника могут влиять и некоторые другие факторы, например, уровень интеллекта (IQ), возраст, образование и заработок родителей, общий уровень знаний и проч. Когда мы отбираем регрессоры для модели, мы, с одной стороны, должны руководствоваться соображениями экономической обоснованности и осмысленности, а с другой – нужно иметь в виду и эконометрические аспекты. Так, например, нужно помнить, что если не включить существенные регрессоры в модель, оценка для дисперсии ошибок модели получится смещенная, и тогда тесты на незначимость будут работать некорректно. Если же включить несущественную переменную, оценки для коэффициентов хоть и будут несмещенные, но получатся неэффективными. Таким образом, отбирая регрессоры для модели, нужно учитывать как содержательные аспекты, так и эконометрические.
Предположим, что с точки зрения экономического смысла мы определились с регрессорами и решили построить следующую модель [файл с данными wage2.gdt]:
![](_84.jpg)
![](_85.jpg)
где – средняя заработная плата в месяц в долларах,
– среднее число рабочих часов в неделю,
– уровень IQ в баллах,
– индекс знания своей области деятельности в баллах,
– уровень образования в годах,
– опыт работы в годах,
– опыт работы у текущего работодателя в годах,
– образование матери,
– образование отца2.
На рис. 5.1 дана распечатка оцененной регрессии. По распечатке можно сделать вывод, что в целом регрессия значима, но не все коэффициенты значимы по отдельности.
![](_91.jpg)
На 5 %-ном уровне значимости сразу несколько коэффициентов перестают быть значимыми. Если бы не значим был лишь один коэффициент в модели, его можно было бы исключить, но в случае незначимости нескольких коэффициентов можно ли исключить соответствующие регрессоры из модели на том основании, что коэффициент каждого из них в отдельности не значим на 5 %-ном уровне? Чтобы ответить на этот вопрос, нужно вспомнить о том, что существенные регрессоры исключать из модели некорректно, но оставлять несущественные регрессоры в модели тоже не является правильным. Поэтому для того, чтобы понять, можно ли исключить все регрессоры, чьи коэффициенты не значимы на 5 %-ном уровне, или нужно исключить только некоторые из них и какие именно, необходимо провести тест на совместную незначимость коэффициентов при регрессорах [2, 3].
![](_92.jpg)
Данный тест можно проводить несколькими способами в GRETL, рассмотрим каждый из них на примере рассматриваемой модели.
Сформулируем гипотезу о совместной незначимости регрессоров ,
.
![](_93.jpg)
![](_94.jpg)
не так
Результаты оценивания регрессии без ограничения приведены на рис. 5.1, сумма квадратов остатков данной модели .
![](_96.jpg)
Рис. 5.1
Оценим регрессию с ограничением, то есть исключим из нее переменные с коэффициентами, подозрительными на совместную незначимость. Для этого можно, очевидно, по новой оценить модель, но можно и в существующей модели выбрать пункт меню Правка – Изменить модель и удалить регрессоры с коэффициентами, подозрительными на совместную незначимость. Результат оценивания модели с ограничением представлен на рис. 5.2.
Сумма квадратов остатков в модели с ограничением .
Далее рассчитаем значение F-статистики:
![](_98.jpg)
Критическое значение статистики составляет , таким образом,
, гипотеза о совместной незначимости коэффициентов при этих регрессорах на 5 %-ном уровне значимости принимается. Оба регрессора могут быть исключены из модели, и тогда окончательной спецификацией будет модель с ограничением:
![](_101.jpg)
![](_102.jpg)
![](_103.jpg)
Рис. 5.2
Тест на совместную незначимость коэффициентов также можно провести автоматически. Для этого, после того как было оценено исходное уравнение, в меню окна результатов нужно выбрать Тесты – Избыточные переменные.
![](_104.jpg)
Рис. 5.3
После этого в меню можно выбрать одну из опций оценивания: оценить сокращенную модель (аналог того теста, который был показан выше) или проверить избыточность переменных с использованием теста Вальда [9].
Результат оценивания с использованием сокращенной модели представлен на рис. 5.4.
![](_105.jpg)
Рис. 5.4
При данном методе проверки также рассчитывается F-статистика и ее значение совпадает с тем, что было получено вручную. При этом приводится оцененный вариант короткой модели (модели с ограничением). Нулевая гипотеза состоит в том, что указанные на этапе тестирования переменные нулевые. Для проверки этой гипотезы можно воспользоваться рассчитанным значением F-статистики и сравнить его с критической точкой, как это было проделано, а можно обратить внимание на р-значение = 0,254184, то есть вероятность ошибиться, отвергнув нулевую гипотезу о незначимости коэффициентов, составляет примерно 0,26. Так как р-значение > 0,05 (больше зафиксированного уровня значимости), мы принимаем нулевую гипотезу, указанные коэффициенты не значимы на 5 %-ном уровне, и соответствующие регрессоры нужно исключить из модели. Корректный вариант модели – модель с ограничением.
Аналогично можно провести тест на избыточные переменные, используя тест Вальда (рис. 5.5).
![](_107.jpg)
Рис. 5.5
Результаты тестирования полностью совпадают с предыдущими вариантами теста.
Внимание! Это не конец книги.
Если начало книги вам понравилось, то полную версию можно приобрести у нашего партнёра - распространителя легального контента. Поддержите автора!Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?