Читать книгу "Основы эконометрики в среде GRETL. Учебное пособие"

Текст добавлен: 20 июня 2023, 16:54

Автор книги: Александра Малова

Жанр: Управление и подбор персонала, Бизнес-Книги

сообщить о неприемлемом содержимом

Авторские права соблюдены

Текущая страница: 1 (всего у книги 5 страниц) [доступный отрывок для чтения: 1 страниц]

Скачать книгу

Шрифт:

- 100% +

А. С. Малова
Основы эконометрики в среде GRETL
Учебное пособие

ebooks@prospekt.org

Введение

Цель данного пособия – познакомить читателя с основами проведения эконометрических исследований в среде GRETL. Основная аудитория данной книги – студенты бакалавриата, обучающиеся по направлениям «Экономика», «Бизнес-информатика», «Управление персоналом», «Менеджмент», однако она может быть полезна и студентам других направлений, а также представителям бизнес-сообщества, которые по роду своей деятельности столкнулись с необходимостью проведения эконометрических исследований. Данное учебное пособие – это попытка практического изложения основ эконометрики с минимальными теоретическими выкладками, при этом предполагается, что недостаток теоретических знаний должен быть восполнен читателем самостоятельно с помощью учебников по основам эконометрики. Для обеспечения связи практических навыков с теоретическими знаниями в области эконометрики ко всем рассматриваемым темам даются ссылки на литературу. При этом основная задача данного пособия – помочь читателю в освоении эконометрики, изложить некоторые технические аспекты проведения исследований с использованием среды GRETL. Почему именно GRETL? Данный эконометрический пакет является бесплатным программным продуктом, который, с одной стороны, доступен любому пользователю, а с другой – обладает достаточно обширными возможностями для анализа данных и проведения эмпирических исследований. Немаловажным является и то, что в GRETL имеется значительный пул данных из большинства классических зарубежных учебников по основам эконометрики, что позволит достаточно легко переключиться с простейших примеров, рассмотренных в данном пособии, на более сложные содержательные задачи и кейсы из учебников.

В данном пособии весь материал излагается с точки зрения практики – то есть все основные разделы курса эконометрики для бакалавриантов даны в примерах и задачах. Поскольку невозможно приобрести навык проведения эконометрических расчетов, только изучая учебник, предполагается, что читатель должен иметь возможность проделать все излагаемые действия на практике. С этой целью в пособии использовались данные из учебника J. M. Wooldridge «Basic econometrics», которые доступны в GRETL. Все наборы данных при первом обращении к ним в пособии обозначены ссылками и указателями на источник.

Перед тем как начать осваивать основы эконометрики в среде GRETL, необходимо скачать и установить на свой компьютер сам статистический пакет. Он доступен по ссылке http://GRETL.sourceforge.net/. Вся информация о том, как установить GRETL, приводится на сайте, поэтому нет нужды в подробном изложении, стоит лишь сказать, что программа имеет версию как под ОС Windows, так и под Mac OS, а также что библиотеки данных должны быть установлены отдельно, для этого нужно перейти по ссылке http://GRETL.sourceforge.net/GRETL_data.html.

Удачи в проведении интересных, содержательных и полезных эконометрических исследований!

1. Линейная регрессионная модель

Для начала введем некоторые обозначения. Предположим, что некоторая величина Y зависит от величин . Введем понятие регрессионного уравнения – это уравнение вида , где . Через n обозначим число наблюдений, по которым строится регрессия, k – число регрессоров в модели, – случайная величина, которая носит название ошибки регрессии.

Модель такого вида называется классической линейной регрессионной моделью (ЛРМ) в случае, если выполняются следующие предпосылки:

1. , – линейная спецификация модели, где – коэффициенты модели, которые подлежат определению, , – ошибки модели.

2. , – детерминированные величины.

3. – математическое ожидание ошибок равно нулю, , дисперсия ошибок не зависит от номера наблюдения.

4. , – совместное математическое ожидание ошибок разных наблюдений равно нулю.

5. Если выполняется дополнительная предпосылка о нормальном распределении ошибок , то классическая линейная регрессионная модель называется нормальной линейной регрессионной моделью (НЛРМ).

Подробнее о предпосылках линейной регрессионной модели можно прочесть в [2, 3].

2. Оценка линейной регрессионной модели

Рассмотрим множественную линейную регрессию

, ,

где – средний уровень заработной платы в час в долларах, – образование в годах, – общий стаж работы в годах, – опыт работы у текущего работодателя, в годах, – ошибка регрессии, n – число наблюдений [файл с данными wage1.gdt].

Для того чтобы оценить предложенную модель по методу наименьших квадратов (МНК), используем команду меню Модель – Метод наименьших квадратов.

В появившемся диалоговом окне в поле Зависимая переменная помещаем переменную (для этого выделяем ее курсором в списке переменных и нажимаем на стрелку, соответствующую окну Зависимая переменная. Данный способ перемещения переменных справедлив для всех операций с диалоговыми окнами).

Для дальнейшего удобства можно поставить галочку в окошке Установить по умолчанию. Это делается для того, чтобы при изменении спецификации исследуемой модели зависимая переменная не менялась. В окно Регрессоры отправляем регрессоры модели – это переменные , , .

Рис. 2.1

После этого нажимаем ОК. В результате коэффициенты модели были оценены методом наименьших квадратов. Результат оценки представлен на рис. 2.2.

Рис. 2.2

Для того чтобы понимать, какие результаты позволяет получить GRETL, разберем информацию, представленную на распечатке по строкам сверху вниз.

В первой строке указывается метод оценки и количество наблюдений, по которым производилась оценка. Достаточно часто случается, что количество наблюдений, по которым производилась оценка, не совпадает с числом наблюдений в исходной выборке, даже если она не была ограничена. Это может быть связано, например, с наличием пропусков в данных.

Вторая строка напоминает нам о том, какая переменная была выбрана в качестве зависимой.

После двух первых строк следуют подтаблицы непосредственно с результатами оценивания. В первой подтаблице указаны регрессоры, включенные в модель, напротив каждого из них указывается его коэффициент (столбец Коэффициенты), стандартная ошибка оценки коэффициента (столбец Ст. ошибка), значение статистики Стьюдента для коэффициента (столбец t-статистика) и вероятность ошибки I рода (столбец P-значение). Стоит отметить, что константа тоже является регрессором, и для нее также рассчитываются все указанные характеристики.

По распечатке, представленной на рис. 2.2, мы можем выписать получившееся уравнение регрессии:

Аналогично можно получить оцененное уравнение и в GRETL, для этого выбираем в меню регрессии Файл – Просмотреть как уравнение.

Рис. 2.3

Однако для того, чтобы иметь возможность дать интерпретацию коэффициентам регрессии и строить прогнозы, необходимо проверить, является ли полученная модель адекватной.

Для этого, в свою очередь, необходимо провести ряд эконометрических тестов, а именно проверить значимость регрессии в целом, значимость отдельных коэффициентов регрессии, оценить качество полученного регрессионного уравнения. Вообще говоря, перед проверкой значимости и качества уравнения необходимо провести тесты на выполнение основных предпосылок линейной регрессионной модели (гомоскедастичность, отсутствие автокорреляции). На данном этапе мы будем считать эти тесты проведенными и вернемся к вопросам выполнения предпосылок ЛРМ позднее.

3. Тест Фишера (Fisher test)

Для начала проверим гипотезу о незначимости регрессии в целом. Тест позволит понять, является ли построенная модель адекватной с точки зрения статистики. Для этой цели воспользуемся тестом Фишера [3].

Сформулируем гипотезы для проверки незначимости регрессии в целом в рассматриваемом примере [файл с данными wage1.gdt] модели , :

как минимум один из коэффициентов отличен от нуля.

Для принятия решения о том, какую гипотезу нужно отвергнуть, построим F-статистику. Для этого нам должны быть известны (помимо уже имеющихся параметров n – объем выборки и k – число регрессоров в модели) величины RSS и ESS. В явном виде в распечатке на рис. 2.2 дано значение ESS – сумма квадратов остатков, которая составляет ESS = 4966,3, а также из распечатки известен коэффициент детерминации (подробнее о коэффициенте детерминации и его интерпретации можно прочесть в § 7).

Если вспомнить, что ,¹ а , то можно путем простых алгебраических преобразований найти необходимую нам величину RSS. При этом . Отсюда можно вычислить . Критическое значение F-статистики возьмем на уровне значимости 5 %: (чтобы получить это значение, в основном меню GRETL нужно выбрать Инструменты – Критические значения – Фишера и ввести необходимое число степеней свободы и правостороннюю вероятность либо посмотреть в статистических таблицах распределения Фишера для уровня значимости 5 %, например в [7]).

Рис. 3.1

Рис. 3.2

Уровень значимости, на котором принимается решение о том, какую гипотезу не отвергать, остается на усмотрение исследователя. Как правило, если нет представления, какой именно уровень значимости брать, предлагается выбирать 5 %. В случаях работы с маленьким по объему выборками (от 30 до 100 наблюдений) предлагается брать уровень значимости 10 %. Для больших выборок (более 1000 наблюдений) можно взять уровень значимости 1 %. В нашем случае объем выборки средний (526 наблюдений, эта информация дана в первой строке распечатки на рис. 2.2.), поэтому можно было принять .

Сравниваем расчетное значение F-статистики с критическим , то есть 78,2 > 2,6. Следовательно, можно сделать вывод, что гипотеза о незначимости регрессии в целом отвергается.

Тест Фишера можно провести также в полуавтоматическом режиме и в автоматическом режиме. Полуавтоматический режим состоит в том, что нам не нужно вручную вычислять значение расчетной F-статистики, оно дано в распечатке на рис. 2.2. В этом случае нужно лишь выяснить критическое значение F-статистики и сравнить расчетное значение с критическим.

В автоматическом режиме нужно также воспользоваться распечаткой GRETL и посмотреть на р-значение статистики Фишера на рис. 2.2 (в распечатке р-значение (F)). В р-значении содержится вероятность ошибки I рода. Таким образом, р-значение (F) для теста Фишера – это вероятность ошибки I рода при тестировании гипотезы . По существу это вероятность ошибиться, отвергнув гипотезу H₀. Для принятия решения, можно ли отвергнуть гипотезу H₀, нужно сравнить р-значение с заданным уровнем значимости a. Уровень значимости задает вероятность ошибки I рода, то есть, грубо говоря, какую долю ошибок мы готовы себе позволить, отвергнув гипотезу H₀. Если р-значение меньше принятого уровня значимости, то маловероятно, что мы ошибемся, отвергая гипотезу H₀ в ситуации, когда р-значение больше уровня значимости, вероятна ошибка в случае отклонения нулевой гипотезы, поэтому ее стоит принять. Отсюда можно сделать вывод, что р-значение показывает вероятность ошибиться, отвергнув гипотезу H₀, при том, что она верна. Эта интерпретация р-значения справедлива для всех статистических тестов, и мы будем иметь ее в виду в дальнейшем. В данном случае р-значение (F) (р-значение (F) в распечатке представляет собой «3,41e-41» – это компьютерный способ записи числа , которое практически равно 0). Это говорит о том, что можно отвергнуть гипотезу H₀ (вероятность ошибки близка к 0).

Стоит обратить внимание еще на один полезный факт. При расчете F-статистики вручную мы использовали формулу . Используя соотношение , можно переписать расчетную статистику через коэффициент детерминации, не используя квадраты остатков .

4. Тест Стьюдента (t-test)

После того как мы проверили незначимость регрессионного уравнения в целом, рассмотрим, как проверять незначимость коэффициентов при отдельных регрессорах. Для этой цели воспользуемся тестом Стьюдента [3].

Проверим незначимость коэффициента при переменной . Сформулируем гипотезы теста для указанной переменной [файл с данными wage1.gdt]. Они будут выглядеть следующим образом:

Значение оцененного коэффициента при этой переменной находится в столбце «Коэффициент» – . Для того чтобы вычислить расчетную t-статистикy, необходимо знать значение стандартной ошибки для коэффициента, оно содержится в столбце «Ст. ошибка». Для переменной стандартная ошибка . Отсюда можем вычислить . Для принятия решения о том, можно ли отвергнуть гипотезу H₀, сравним значение с критическим значением статистики . Примем уровень значимости . Как уже было сказано, объем выборки составляет 526 наблюдений, то есть n = 526. Число регрессоров в модели составляет 4 (константа тоже регрессор), то есть, k = 4. Отсюда следует, что нужно искать критическое значение из двустороннего распределения Стьюдента на уровне значимости 5 % (одностороннее распределение 2,5 %) с 522 степенями свободы. Для поиска критического значения из распределения Стьюдента можно воспользоваться статистическими таблицами, например из [7]. Но можно воспользоваться возможностями GRETL. Для этого в основном меню выберем Инструменты – Критические значения.

Рис. 4.1

В открывшемся окне «Критические значения» выберем вкладку, соответствующую распределению Стьюдента, и введем нужные параметры распределения.

Рис. 4.2

Стоит обратить внимание на то, что в GRETL предполагается для распределения Стьюдента вводить не двустороннюю вероятность, а только правостороннюю вероятность, то есть в нашем случае это 2,5 %. После нажатия клавиши ОК получаем искомое критическое значение .

Рис. 4.3

После этого сравниваем расчетное и критическое значение статистик для переменной . В нашем случае (|11,68 | > 1,96), отсюда можно сделать вывод, что гипотеза H₀ отвергается, то есть можно говорить о том, что регрессор значим.

Рассмотренный способ проверки гипотезы незначимости коэффициента при отдельном регрессоре позволяет соотнести теоретические знания о проверке незначимости с практикой. Однако ту же самую процедуру можно несколько упростить. Обратим внимание, что в столбце t-статистика для всех переменных уже указаны расчетные значения статистики. Так, например, для переменной указано полученное нами значение . Это несколько сокращает процедуру проверки, однако сравнение расчетного и критического значения t-статистики все же приходится проделывать самостоятельно.

Существует еще более простой и быстрый способ проверки незначимости коэффициента.

В рассматриваемом примере p-значение переменной составляет , то есть практически равно 0. В этом случае, p-значение переменной меньше заданного уровня значимости . Это значит, что можно отвергнуть гипотезу H₀, то есть коэффициент при регрессоре значим.

Аналогичную проверку незначимости мы можем провести для коэффициентов остальных регрессоров. На 5 %-ном уровне значимости можно утверждать, что коэффициент при и константа – значимы, коэффициент при на 5 %-ном уровне не значим, однако он является значимым на 10 %-ном уровне значимости.

В программе GRETL предусмотрена визуализация значимости коэффициентов при отдельных регрессорах на разных уровнях значимости. Для этого справа от каждого регрессора расположены звездочки:

• Наличие одной звездочки говорит о том, что коэффициент значим только на 10 %-ном уровне.

• Наличие двух звездочек говорит о значимости коэффициента на 5 %-ном уровне.

• Три звездочки информируют о значимости коэффициента на 1 %-ном уровне.

• Отсутствие звездочек говорит о незначимости коэффициента на 10 %-ном уровне.

Мы проверили незначимость коэффициентов при всех регрессорах, включенных в модель. Если мы хотим ориентироваться на 5 %-ный уровень значимости, то нужно удалить переменную с незначимым коэффициентом. Для того чтобы это сделать в окне с построенной моделью (в нашем случае это окно Модель 1, но, вообще говоря, это может быть Модель № в зависимости от того, сколько вы моделей построили до этого), выбираем пункт меню Правка – Изменить модель.

Рис. 4.4

В открывшемся окне выделяем переменную и красной стрелкой удаляем ее из независимых переменных.

Рис. 4.5

Обновленная модель представлена на рис. 4.6.

Рис. 4.6

Как видно из распечатки, все коэффициенты регрессии в обновленной модели значимы на 1 %-ном уровне (следовательно, и на 5 %-ном уровне они тоже значимы). Возможности t-теста не ограничиваются только проверкой незначимости коэффициентов при регрессорах. На самом деле проверка незначимости коэффициента является частным случаем проверки равенства коэффициента при регрессоре конкретному значению [2, 3].

Разберем это на примере. Проверим, а можем ли мы округлить коэффициент при переменной до 0,2. Сформулируем гипотезы для проверки этого предположения:

Для проверки такого рода гипотезы уже нельзя воспользоваться рассчитанным в GRETL значением t-статистики, а также р-значением, поэтому вычислим значение t-статистики для переменной самостоятельно: . Значение критической точки Стьюдента составит .

Сравниваем расчетную статистику и критическую и получаем, что , то есть (|–0,56 | < 1,96). В этом случае, мы можем принять нулевую гипотезу и округление коэффициента перед до 0,2 будет статистически корректно. Аналогичные гипотезы мы можем проверять для остальных коэффициентов регрессии.

Проверить, может ли коэффициент при регрессоре равняться заданному значению, позволяет также доверительный интервал [2, 3].

Используя данные из распечатки на рис. 4.6, можно построить доверительные интервалы для всех коэффициентов самостоятельно либо воспользоваться встроенной функцией GRETL для построения доверительного интервала.

Для этого в окне модели вызовем пункт меню Анализ – Доверительные интервалы для коэффициентов.

Рис. 4.7

Результатом работы данной функции является следующее окно (рис. 4.8).

Рис. 4.8

Истинное значение коэффициента при переменной с вероятностью 95 % накрывается интервалом .

Нужно обратить внимание на то, что с помощью доверительного интервала можно проверять незначимость коэффициентов при регрессорах. В случае, если доверительный интервал накрывает 0 (то есть истинное значение коэффициента может принимать нулевое значение), можно сделать вывод о том, что коэффициент не значим.

Еще одна возможность для проверки гипотез с помощью теста Стьюдента – это односторонние гипотезы [2, 3].

Разберем, как проводится односторонний t-тест на примере. Проверим, верно ли, что коэффициент перед переменной можно считать большим 0,2.

Значение расчетной статистики для этого теста будет такое же, как и в предыдущем тесте (проверка равенства коэффициента заданному значению). Критическая точка составит . Сравнивая расчетное значение статистики с критическим, получаем , то есть –0,56 < 1,65. Значит, гипотеза H₀ принимается.

По сути, все разновидности t-теста и построение доверительного интервала для коэффициента – это две стороны одной медали. Полезные результаты можно получать и тем и другим способом, выбор способа ответа на вопросы о незначимости коэффициента при регрессоре и соотношения коэффициента регрессора с заданным значением возлагается на исследователя.

5. Проверка гипотезы о совместной незначимости коэффициентов

В рассматриваемой нами модели зависимости заработной платы после проверки незначимости коэффициентов при отдельных регрессорах осталось две независимых переменных: образование и опыт работы у текущего работодателя. Однако с экономической точки зрения очевидно, что на уровень заработной платы сотрудника могут влиять и некоторые другие факторы, например, уровень интеллекта (IQ), возраст, образование и заработок родителей, общий уровень знаний и проч. Когда мы отбираем регрессоры для модели, мы, с одной стороны, должны руководствоваться соображениями экономической обоснованности и осмысленности, а с другой – нужно иметь в виду и эконометрические аспекты. Так, например, нужно помнить, что если не включить существенные регрессоры в модель, оценка для дисперсии ошибок модели получится смещенная, и тогда тесты на незначимость будут работать некорректно. Если же включить несущественную переменную, оценки для коэффициентов хоть и будут несмещенные, но получатся неэффективными. Таким образом, отбирая регрессоры для модели, нужно учитывать как содержательные аспекты, так и эконометрические.

Предположим, что с точки зрения экономического смысла мы определились с регрессорами и решили построить следующую модель [файл с данными wage2.gdt]:

где – средняя заработная плата в месяц в долларах, – среднее число рабочих часов в неделю, – уровень IQ в баллах, – индекс знания своей области деятельности в баллах, – уровень образования в годах, – опыт работы в годах, – опыт работы у текущего работодателя в годах, – образование матери, – образование отца².

На рис. 5.1 дана распечатка оцененной регрессии. По распечатке можно сделать вывод, что в целом регрессия значима, но не все коэффициенты значимы по отдельности.

На 5 %-ном уровне значимости сразу несколько коэффициентов перестают быть значимыми. Если бы не значим был лишь один коэффициент в модели, его можно было бы исключить, но в случае незначимости нескольких коэффициентов можно ли исключить соответствующие регрессоры из модели на том основании, что коэффициент каждого из них в отдельности не значим на 5 %-ном уровне? Чтобы ответить на этот вопрос, нужно вспомнить о том, что существенные регрессоры исключать из модели некорректно, но оставлять несущественные регрессоры в модели тоже не является правильным. Поэтому для того, чтобы понять, можно ли исключить все регрессоры, чьи коэффициенты не значимы на 5 %-ном уровне, или нужно исключить только некоторые из них и какие именно, необходимо провести тест на совместную незначимость коэффициентов при регрессорах [2, 3].

Данный тест можно проводить несколькими способами в GRETL, рассмотрим каждый из них на примере рассматриваемой модели.

Сформулируем гипотезу о совместной незначимости регрессоров , .

не так

Результаты оценивания регрессии без ограничения приведены на рис. 5.1, сумма квадратов остатков данной модели .

Рис. 5.1

Оценим регрессию с ограничением, то есть исключим из нее переменные с коэффициентами, подозрительными на совместную незначимость. Для этого можно, очевидно, по новой оценить модель, но можно и в существующей модели выбрать пункт меню Правка – Изменить модель и удалить регрессоры с коэффициентами, подозрительными на совместную незначимость. Результат оценивания модели с ограничением представлен на рис. 5.2.

Сумма квадратов остатков в модели с ограничением .

Далее рассчитаем значение F-статистики:

Критическое значение статистики составляет , таким образом, , гипотеза о совместной незначимости коэффициентов при этих регрессорах на 5 %-ном уровне значимости принимается. Оба регрессора могут быть исключены из модели, и тогда окончательной спецификацией будет модель с ограничением:

Рис. 5.2

Тест на совместную незначимость коэффициентов также можно провести автоматически. Для этого, после того как было оценено исходное уравнение, в меню окна результатов нужно выбрать Тесты – Избыточные переменные.

Рис. 5.3

После этого в меню можно выбрать одну из опций оценивания: оценить сокращенную модель (аналог того теста, который был показан выше) или проверить избыточность переменных с использованием теста Вальда [9].

Результат оценивания с использованием сокращенной модели представлен на рис. 5.4.

Рис. 5.4

При данном методе проверки также рассчитывается F-статистика и ее значение совпадает с тем, что было получено вручную. При этом приводится оцененный вариант короткой модели (модели с ограничением). Нулевая гипотеза состоит в том, что указанные на этапе тестирования переменные нулевые. Для проверки этой гипотезы можно воспользоваться рассчитанным значением F-статистики и сравнить его с критической точкой, как это было проделано, а можно обратить внимание на р-значение = 0,254184, то есть вероятность ошибиться, отвергнув нулевую гипотезу о незначимости коэффициентов, составляет примерно 0,26. Так как р-значение > 0,05 (больше зафиксированного уровня значимости), мы принимаем нулевую гипотезу, указанные коэффициенты не значимы на 5 %-ном уровне, и соответствующие регрессоры нужно исключить из модели. Корректный вариант модели – модель с ограничением.