Текст книги "Как предсказать курс доллара. Эффективные методы прогнозирования с использованием Excel и EViews"
Автор книги: Владимир Брюков
Жанр: Личные финансы, Бизнес-Книги
Возрастные ограничения: +12
сообщить о неприемлемом содержимом
Текущая страница: 2 (всего у книги 14 страниц) [доступный отрывок для чтения: 5 страниц]
Контрольные вопросы и задания к главе 1
1. Чем отличается строго стационарные процессы от стационарных процессов в широком смысле?
2. Может ли стационарный процесс иметь тренд или какие-либо строго периодические колебания?
3. Чем нестационарный процесс отличается от стационарного? Может ли у нестационарного процесса быть тренд?
4. Если Вы пришли к выводу о нестационарности данного временного ряда, то, что можно сказать об устойчивости его средней, дисперсии и автоковариации. Дайте определение средней, дисперсии и автоковариации.
Глава 2.
Метод наименьших квадратов и решение уравнения регрессии в Excel
2.1. Характеристика метода наименьших квадратов и его применение при прогнозировании курса доллара
Как мы выяснили в главе 1, динамика курса валют представляет собой временной ряд, имеющий не только тренд, но и случайную компоненту, поэтому в качестве метода оценки параметров прогностической модели, как правило, используется регрессионный анализ. Как известно, задачей регрессионного анализа является определение аналитического выражения (математической формулы), аппроксимирующего связь между зависимой переменной Y (ее называют также результативным признаком) и независимыми (их называют также факторными) переменными X1, X2…Xn. При этом форма связи результативного признака Y с факторами X1, X2…Xn, либо с одним фактором X, получила название уравнения регрессии. В качестве метода аппроксимации (приближения) в уравнении регрессии используется метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонений фактических значений Y от его предсказываемых значений, рассчитанных по определенной математической формуле. Причем, решение уравнения регрессии относительно интересующих нас переменных у (курс доллара) и х (время или порядковый номер месяца), по сути, заключается в подборе прямой линии к совокупности данных, состоящих из пар данных, характеризующих динамику курса доллара и соответствующие порядковые номера месяцев. При этом линию, которая лучше всего подойдет к этим данным, выбирают так, чтобы сумма квадратов значений вертикальных отклонений зависимой переменной (фактического курса доллара) от линии, рассчитанной по уравнению регрессии (предсказанный курс доллара), была минимальной.
Математические подробности оценки параметров уравнения регрессии методом наименьших квадратов
В самом общем виде формулу МНК можно представить следующим образом (2.1):
где Yt и Yрасч. – фактические и расчетные значения зависимой (результативной) переменной для различных моментов времени;
– минимальная сумма квадратов отклонений (остатков) фактических значений Y от его расчетных (предсказываемых) значений.
Поскольку Yрасч. =a +bX (где а – свободный член уравнения регрессии, а b – коэффициент регрессии), то уравнение (2.1) примет следующий вид (2.1.1):
Для отыскания параметров a и b, при которых функция f(a,b) принимает минимальное значение, необходимо найти частные производные по каждому из параметров этой функции a и b и приравнять их нулю. Если минимальную сумму квадратов отклонений (остатков) e2 обозначить через S, то в результате мы получим систему нормальных уравнений МНК для прямой (2.1.2):
Преобразовав систему уравнений (2.1.2) получим (2.1.3):
Решив систему уравнений (2.1.3) методом последовательного исключения переменных найдем следующие оценки параметров:
С помощью оцененного таким образом уравнения регрессии можно предсказать, как в среднем изменится признак Y в результате роста факторов X1, X2…Xt (или одного фактора X). В зависимости от того, какая математическая функция используется для прогнозирования результирующей переменной Y, различают линейную и нелинейную регрессию. При этом в основе линейной регрессии лежит уравнение линейного тренда, а в основе нелинейной регрессии – целое семейство уравнений нелинейных трендов (полиномиальный второй, третьей и прочих степеней, степенной, экспоненциальный, логарифмический и другие). В случае если результативный признак Y зависит от одного фактора X, то такое уравнение регрессии называется парным, а если Y зависит от нескольких факторов X1, X2…Xt – то уравнением множественной регрессии.
Практически в любом учебнике по общей теории статистики и по эконометрике можно более подробно познакомиться со спецификой уравнений регрессии. (См., например, учебник «Эконометрика» под ред. И.И. Елисеевой. – 2-е изд., пер. и доп. – М,: Финансы и статистика, 2006, стр. 43-132).
Существуют формулы, по которым можно самостоятельно найти параметры, как уравнения линейной регрессии, так и различных видов уравнений нелинейной регрессии. Однако с внедрением в широкую практику компьютеров и соответствующих компьютерных программ уже нет необходимости оценивать параметры уравнения регрессии вручную, тем более что этот процесс довольно трудоемкий.
2.2. Решение уравнения регрессии в Excel с учетом фактора времени. Интерпретация и оценка значимости полученных параметров
Поэтому далее остановимся на изучении алгоритма решения уравнений регрессии с применением соответствующих вычислительных программ. При этом работу с уравнениями регрессии в компьютерных программах можно разделить на три этапа.
На первом, подготовительном этапе необходимо определиться с набором факторов, которые необходимо включить в уравнение регрессии, а также с его аналитической формой, что в ряде случаев требует предварительной обработки данных. Например, в случае выбора степенного уравнения регрессии вместо исходных данных нужно взять их логарифмы.
Второй этап состоит из собственно решения уравнения регрессии и нахождения его параметров.
На третьем этапе проводится оценка и тестирования общего качества уравнения регрессии, проверка статистической значимости каждого из коэффициентов регрессии, определяются их доверительные интервалы, а также принимается окончательное решение об адекватности или неадекватности полученного уравнения регрессии.
Как известно, одним из наиболее распространенных способов определения тренда в динамике курса валюты является построение его зависимости от фактора времени T. Так, если в качестве зависимой переменной Y мы возьмем ежемесячный курс доллара, а в качестве независимой переменной T – время (в данном случае порядковые номера месяцев, начиная с июня 1992 г.=1), то у нас получится следующее уравнение парной линейной регрессии:
Y расч. =a + bT (2.2);
где a – свободный член уравнения регрессии; b – линейной коэффициент регрессии, показывающий, как изменение величины независимой переменной (фактора) T в среднем способствует изменению зависимой переменной (результативного признака) Y; Y расч. – расчетное значение результативного признака, вычисляемое по формуле (2.2).
Минимизируем сумму квадратов отклонений (остатков) Y факт. от Y расч.,то есть от фактических значений курса доллара от его расчетных значений. В результате формулу МНК (2.1.1) для линейной регрессии можно в данном случае представить в виде формулы (2.3):
Уравнение (2.3) в принципе можно решить самостоятельно, если найти его параметры согласно формулам (2.1.4) и (2.1.5), но в целях ускорения этого процесса мы будем его решать с помощью Пакета анализа Excel. Кстати, желающие лучше усвоить суть МНК могут сначала самостоятельно в «ручном режиме» решить данное уравнение регрессии, а затем сверить свои результаты с теми, что мы получим в Excel.
Для того чтобы подготовить исходные данные к решению данного уравнения регрессии разместим в Excel два столбца исходных данных. В первом столбце, который озаглавим Time, поместим порядковые номера месяцев, начиная с июня 1992 г. (с номером =1) и кончая апрелем 2010 г. (с номером =215). Во втором столбце, который озаглавим USDOLLAR, поместим данные по курсу доллара на конец месяца, начиная с июня 1992 г. и заканчивая апрелем 2010 г. (последние данные, имевшиеся на тот момент, когда писались эти строки). Таким образом столбец Time представляет собой независимую переменную, которая в формуле (5) обозначена символом T, а столбец USDOLLAR является зависимой переменной Yфакт. Далее переходим к решению уравнения регрессии в Пакете анализа Excel, о том, как это делается, можно прочитать ниже – в алгоритме действий № 3.
Алгоритм действий № 3 «Как решить уравнение регрессии в Excel»
Шаг 1. Ввод в уравнение исходных данных
Делается это следующим образом: сначала в Microsoft Excel 2007 г. в верхней панели инструментов выбирается опция Данные (в Microsoft Excel 1997-2003 гг. нужно выбрать опцию Сервис), потом в появившемся окне Анализ данных – опция Регрессия. После чего появляется новое окно – Регрессия (см. рис. 2.1), в котором в графе Входной интервал y выделяем (с помощью мышки) столбец данных USDOLLAR (ячейки $C$1:$C$216). Здесь же в графе Входной интервал Х» выделяем столбец данных Time(ячейки $B$1:$B$216), то есть независимую переменную T из нашего уравнения регрессии (5).
Шаг 2. Дополнительные опции
Если бы мы хотели получить уравнение регрессии без свободного члена, который в формуле (2.2) обозначен символом a, то тогда нам следовало бы выбрать еще и опцию КОНСТАНТА-НОЛЬ. Однако в данном случае в использовании этой опции нет необходимости.
Опцию Остатки следует выбирать тогда, когда есть необходимость, чтобы в выходных данных содержалась информация об отклонении расчетных y от их фактических значений. При этом остатки находятся по следующей формуле (2.4):
Остатки = Yрасч.– Yфакт. (7); где Yрасч. – расчетные, Yфакт. – фактические значения результативного признака.
Опцию МЕТКИ применяют для того, чтобы переменные, включенные в уравнение регрессии, в выводе итогов были обозначены в виде заголовков соответствующих столбцов.
По умолчанию оценка в Excel параметров уравнения регрессии делается с 95% уровнем надежности. Однако в случае необходимости в опции Уровень надежности можно поставить цифру 99, что означает задание для программы оценить коэффициенты регрессии с 99% уровнем надежности. В результате в выводе итогов мы получим данные, характеризующие как в целом уравнение регрессии, так и верхние и нижние интервальные оценки коэффициентов данного уравнения с 95% и 99 % уровнями надежности. При 95% уровне надежности существует риск, что в 5 % случаях оценки коэффициентов уравнения регрессии могут оказаться неточными, а при 99% уровне надежности этот риск равен 1%.
Шаг 3. Вывод итогов
На заключительном этапе выбираем в параметрах вывода (окно РЕГРЕСССИЯ) опцию выходной интервал, в которой указываем соответствующую ячейку Excel ($H$2), далее щелкаем по надписи ОК и получаем ВЫВОД ИТОГОВ (см. рис 2.1, где можно увидеть все заданные нами параметры уравнения регрессии). В случае необходимости вывод итогов можно получить на отдельном листе (см. опцию НОВЫЙ РАБОЧИЙ ЛИСТ) или в новой книге Excel (см. опцию НОВАЯ РАБОЧАЯ КНИГА).
Рис. 2.1. Диалоговое окно РЕГРЕССИЯ для вывода итогов при решении в Excel уравнения регрессии
Результаты решения уравнения регрессии, которые в программе Excel выдаются в виде единой таблицы под заголовком ВЫВОД ИТОГОВ, у нас представлены в виде трех блоков (см. табл. 2.2-2.4). Так, в табл. 2.2 сгенерированы результаты по регрессионной статистике, в табл. 2.3 дается дисперсионный анализ, а в табл. 2.4 оценивается статистическая значимость коэффициентов регрессии .
Параметры, представленные в табл. 2.2, оценивают уровень аппроксимации фактических данных, полученный с помощью данного уравнения регрессии. Так, параметр Множественный R обозначает множественный коэффициент корреляции R, который характеризует тесноту связи между результативным признаком Y и факторами переменными X1, X2…Xn. Данный коэффициент изменяется в пределах от 0 до 1, причем, чем ближе к 1, тем теснее корреляционная связь между переменными, включенными в уравнение регрессии. Множественный коэффициент корреляции равен квадратному корню, извлеченному из коэффициента детерминации R2, который у нас также приводится в регрессионной статистике. Множественный коэффициент R также находят по формуле (2.5):
где Y факт. – фактическое, а Y расч. – расчетное (предсказанное по уравнению регрессии) значение результативного признака.
Зная величину коэффициента корреляции R, можно дать качественную оценку силы связи между зависимой и независимыми переменными, включенными в данное уравнение. С целью классификации силы связи обычно используют шкалу Чеддока (см. табл. 2.1).
Таблица 2.1. Шкала Чеддока для классификации силы связи
В случае между переменными существует функциональная связь, то R=1, а если корреляционная связь отсутствует, то R=0. Поскольку в таблице 2.2 множественный коэффициент корреляции R равен 0,8456, то согласно таблице Чеддока, связь между переменными, включенными в уравнение регрессии можно считать высокой. Следует также заметить, что если коэффициент множественной корреляции меньше 0,7, то это означает, что величина коэффициента детерминации R2 (о нем мы расскажем ниже) будет меньше 50%, а потому регрессионные модели с таким коэффициентом детерминации не имеют большого практического значения.
Однако самым важным является другой параметр регрессионной статистики – R-квадрат (его мы выделили жирным шрифтом), обозначающий коэффициент детерминации R2. Коэффициент детерминации R2 характеризует долю дисперсии результативного признака Y, объясняемую уравнением регрессии, в общей дисперсии результативного признака. Коэффициент детерминации R2 находится по формуле (2.6):
где Y i – фактическое, а Y расч. – расчетное (по уравнению регрессии) значение результативного признака (зависимой переменной), D объясн. – объясненная дисперсия, а D общ. – общая дисперсия результативного признака Y.
Коэффициент детерминации R2, как и множественный коэффициент корреляции R, изменяется в пределах от 0 до 1. Если R2 равен 1, то доля объясненной дисперсии составляет 100%, а, следовательно, связь между зависимой переменной Y и независимой переменными X 1, X 2…X t носит функциональный характер. В том случае, когда R2равен 0, то какая-либо связь между переменными в данном уравнении регрессии отсутствует.
Величина коэффициента детерминации R2 является одним из важнейших критериев при оценке качества уравнения регрессии. Так, при выборе из нескольких уравнений регрессии предпочтение (при прочих равных условиях) отдается тому, у которого коэффициент детерминации R2 ближе к 1. И это вполне понятно: чем выше коэффициент детерминации у данного уравнения регрессии, тем выше у него уровень аппроксимации и соответственно ниже доля необъясненной дисперсии. В нашем случае коэффициент детерминации R2 = 0,7151, а потому можно сделать вывод, что в период с июня 1992 года по апрель 2010 г. 71,51% ежемесячных колебаний курса доллара (зависимая переменная Y), согласно данному уравнению регрессии, объяснялись изменением порядкового номера месяца (независимая переменная Т).
Другой параметр регрессионной статистики – Нормированный R-квадрат. Дело в том, что при добавлении в уравнении регрессии дополнительных факторов (независимых переменных) величина коэффициента детерминации R2 соответственно растет. Поэтому для того чтобы сделать сравнения коэффициентов детерминации между уравнениями регрессии с разным числом факторов более сопоставимыми, используется нормированный R2, величина которого корректируется в сторону уменьшения при добавлении в уравнение дополнительных факторов. Пакете анализа EXcel нормированный R2 вычисляют по формуле (2.7):
где n – количество наблюдений; k – количество переменных в уравнении регрессии.
В нашем случае расчет по этой формуле будет следующим:
Еще один параметр регрессионной статистики Стандартная ошибка или остаточное стандартное отклонение, которое можно найти по формуле (2.8):
где n – количество наблюдений; k – количество переменных в уравнении регрессии.
Наблюдения – этот параметр регрессионной статистике показывает число наблюдений n, которых у нас в данном случае 215 (то есть равен числу месяцев с июня 1992 г. по апрель 2010 г., по которым у нас есть данные)
Таблица 2.2. Регрессионная статистика
В таблице 2.3 дается дисперсионный анализ, то есть анализ изменения результативного признака под воздействием включенных в уравнение регрессии факторов.
При этом столбцы данной таблицы имеют следующую интерпретацию.
Столбец df (degrees of freedom) сообщает число степеней свободы.
Причем, для строки Регрессия число степеней свободы равно количеству факторов kфакт., включенных в уравнение регрессии. В нашем случае dfрегр.=k =1.
Для строки Остаток число степеней свободы определяется число наблюдений и количеством факторов, включенных в уравнении регрессии. При этом dfост. находится по следующей формуле:
df ост. = n-(k +1) (2.9); где n – число наблюдений, k – количество факторов.
В нашем случае df ост. = 215-(1 +1)=213.
Для строки ИТОГО число степеней свободы находится по следующей формуле:
df итого = df регр. + df ост (2.10)
В нашем случае df итого = 1 +213=214
Столбец SS означает сумму квадратов отклонений.
Для строки РЕГРЕССИЯ данный столбец обозначает сумму квадратов отклонений рассчитанных (предсказанных) значений результативного признака от его среднего, рассчитанного по фактическим данным (2.11):
Для строки ОСТАТОК cтолбец SS обозначает сумму квадратов отклонений фактических данных от их расчетных значений (2.12):
Для строки ИТОГО cтолбец SS обозначает сумму квадратов отклонений фактических данных от их среднего (2.13):
SS2итого можно также найти, сложив SS2регр. с SS2ост. =21779,45+8676,619=30456,07
Столбец MS означает дисперсию на одну степень свободы, которая находится по формуле (2.14):
Для строки РЕГРЕССИЯ – это факторная или объясненная дисперсия D факт.= MS факт.=21779,45/1=21779,45
Для строки ОСТАТОК – это остаточная дисперсия D ост.= MS ост.= 8676,619/213=40,7353
В столбце F дается фактический F-критерий Фишера, который находится путем сопоставления факторной и остаточной дисперсии на одну степень свободы. При этом F-критерий Фишера рассчитывается по формуле (2.15):
Если нулевая гипотеза (об отсутствии связи между переменными, включенными в уравнение регрессии) справедлива, то факторная и остаточная дисперсия не отличаются друг от друга. Поэтому для того чтобы уравнение регрессии было признано значимым, для нулевой гипотезы требуется опровержение, а для этого необходимо, чтобы факторная дисперсия превышала остаточную дисперсию в несколько раз. Статистиками разработаны соответствующие таблицы критических значений F-критерия при разных уровнях значимости нулевой гипотезы и различном числе степеней свободы. При этом следует иметь в виду, что табличное значение F-критерия – это максимальная величина отношения факторной дисперсии к остаточной дисперсии, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Если фактический (то есть рассчитанный для этого уравнения регрессии) F-критерий больше его табличного значения, то нулевая гипотеза об отсутствии связи между результативном признаком и факторами отклоняется. И в этом случае делается вывод о существенности этой связи.
5.В столбце значимость F показывается уровень значимости, который соответствует величине фактического F-критерия Фишера, вычисленного для данного уравнения регрессии. В нашем случае значимость F факт. практически равна нулю, то есть F факт. больше F табл. (значения F-критерия Фишера при уровне значимости 0,05 или 5% можно найти в любом учебнике по статистике) при 1% и 5 % уровне значимости. Отсюда можно сделать вывод, о статистической значимости уравнения регрессии, поскольку связь между включенными в него факторами в данном случае доказана.
В тех случаях, когда значимость F бывает больше, например, 0,01, но меньше 0,05, то тогда делается вывод, что F факт. меньше F табл. при 1% уровне значимости, но больше F табл при 5 % уровне значимости. Следовательно, в этой ситуации нулевая гипотеза об отсутствии связи между результативным признаком и факторами, включенными в уравнение регрессии, на 1% уровне значимости не отклоняется, но отклоняется на 5 % уровне значимости. Таким образом, в этом случае каждый исследователь должен сам решить, считать ли 5% уровень значимости F-критерия достаточным для того чтобы сделать вывод о статистической значимости данного уравнения регрессии. При этом следует иметь в виду, что если значимость F-критерия выше 0,05, то есть F факт. меньше F табл. при 5% уровне значимости, то в этой ситуации уравнение регрессии, как правило, считается статистически незначимым.
Таблица 2.3 «Дисперсионный анализ»
В таблице 2. 4 сгенерированы коэффициенты уравнения регрессии и оценки их статистической значимости.
1. При этом в столбце Коэффициенты представлены коэффициенты уравнения регрессии. На пересечении этого столбца со строкой Y-пересечение дан свободный член, который в формуле линейного уравнения регрессии (6) обозначен символом а =1,995805.
Во второй строке данного столбца, обозначенной как Time (независимая переменная – порядковый номер месяца), сгенерирован коэффициент уравнения регрессии, который в формуле (6) представлен символом b =0,162166.
Таким образом, данные, представленные в столбце Коэффициенты, дают нам возможность составить – путем подстановки соответствующих цифр в формулу (2.2) – следующее уравнение линейной парной регрессии:
y = 0,1622x + 1,9958;
где независимая переменная x означает порядковый номер месяца (июнь 1992 г. =1, а апрель 2010 г. = 215), а зависимая переменная y – ежемесячное значение курса доллара.
При этом экономическая интерпретация данного линейного уравнения следующая: в период с июня 1992 по апрель 2010 г. курс доллара к рублю ежемесячно рос со средней скоростью 16,22 коп. при исходном уровне временного ряда в размере одного рубля и 99,58 коп. В свою очередь, геометрическая интерпретация данного линейного уравнения следующая: свободный член уравнения =1,9958 показывает точку пересечения линии тренда с осью Y, а коэффициент уравнения 0,1622x равен углу наклона линии тренда к оси X.
Таблица 2.4. Коэффициенты уравнения регрессии и их статистическая значимость
2. В столбце СТАНДАРТНАЯ ОШИБКА сгенерированы стандартные ошибки свободного члена и коэффициента регрессии, значения которых даны в предыдущем столбце табл. 4. При этом стандартная ошибка свободного члена уравнения регрессии находится по формуле (2.16):
где MS ост.= D ост. – остаточная дисперсия на одну степень свободы. Для нашего случая стандартная ошибка свободного члена уравнения регрессии вычисляется следующим образом:
В свою очередь, стандартная ошибка коэффициента регрессии оценивается по формуле (2.17):
Для нашего случая стандартная ошибка коэффициента регрессии рассчитывается таким образом:
3. В столбце t-СТАТИСТИКА даны расчетные значения t-критерия. При этом для свободного члена t-статистика вычисляется по формуле (2.18):
где a – коэффициент свободного члена уравнения.
В нашем случае t-статистика находится следующим образом:
Для коэффициента регрессии t-статистика рассчитывается по формуле (2.19):
где b – коэффициент регрессии
В нашем случае t-статистика находится следующим образом:
4. В столбце Р-ЗНАЧЕНИЕ сгенерированы уровни значимости, соответствующие вычисленным в предыдущем столбце значениям t-статистики.
В Excel Р-значение находится с помощью следующей функции:
СТЬЮДРАСП (Х=tст.;df=n-k-1;хвосты=2);
где в опции Х дается t-статистика, для которой нужно вычислить двустороннее распределение; в опции df – число степеней свободы; в опции хвосты – цифра 2 для двустороннего распределения.
В данном случае для свободного члена уравнения эта функция приобретает следующий вид: СТЬЮДРАСП (2,284573;215-1-1=213;2)= 0,023323
Следовательно, Р-значение коэффициента свободного члена уравнения показывает, что данный коэффициент значим лишь при 5% уровне значимости, но не значим при 1% уровне значимости.
Для коэффициента регрессии Р-значение в Excel находится следующим образом: СТЬЮДРАСП (23,12267;215-1-1=213;2)= 5,4E-60=0,0
Следовательно, Р-значение коэффициента регрессии показывает, что данный коэффициент значим не только при 5% уровне значимости, но и при 1% уровне значимости.
5. Столбцы Нижние 95% и Верхние 95% показывают соответственно нижние и верхние интервалы значений коэффициентов при 95 % уровне значимости. Для расчета доверительных интервалов сначала находится критическое значение t-критерия, которое в Excel находится с помощью функции СТЬЮДРАСПОБР (α =0,05 ;df=n-k-1); где в опции α – величина риска, коэффициент регрессии (или свободный член) не окажутся в рамках установленных доверительных интервалов); в опции df – число степеней свободы.
Таким образом для 95% уровня надежности t-критерий = СТЬЮДРАСПОБР (α =0,05 ;df=215-1-1)= 1,9712
Далее для свободного члена уравнения находим:
Значение столбца Нижние 95%=Коэффициент – Стандартная ошибка* t-критерий=1,995805– (0,873601*1,9712)= 0,273794.
Значение столбца ВЕРХНИЕ 95%=Коэффициент + Стандартная ошибка* t-критерий=1,995805 + (0,873601*1,9712)= 3,717815.
Для коэффициента регрессии Time находим:
Значение столбца Нижние 95%=Коэффициент – Стандартная ошибка* t-критерий=0,162166– (0,007013*1,9712)= 0,148342.
Значение столбца ВЕРХНИЕ 95%=Коэффициент + Стандартная ошибка* t-критерий=0,162166+ (0,007013*1,9712)= 0,175991.
6. Столбцы Нижние 99% и Верхние 99% показывают соответственно нижние и верхние интервалы значений коэффициентов при 99 % уровне значимости. При этом значения столбца Нижние 99% и Верхние 99% находятся аналогичным образом, как и значения столбцов Нижние 95% и Верхние 95%.
Единственное отличие, это расчет t-критерия для 99% уровня надежности. При этом t-критерий = СТЬЮДРАСПОБР (α =0,01 ;df=215-1-1)= 3,3368. Найденный t-критерий используют при нахождении 99% доверительных интервалов для свободного члена и коэффициента регрессии. Правда, с коэффициентом свободного члена у нас возникает довольно серьезная проблема. Дело в том, что при 99% уровне надежности у коэффициента свободного члена при переходе от столбца Нижние 99% к столбцу Верхние 99% происходит смена знака от минуса к плюсу. Вполне очевидно, что в практических расчетах столь неоднозначно изменяющийся коэффициент уравнения (он может быть как положительным, так и отрицательным, также равным 0) невозможно использовать. Поэтому для 99 % уровня надежности коэффициент свободного члена уравнения считается статистически незначимым, в то время как для 95 % уровня надежности данный коэффициент считается статистически значимым, поскольку в последнем случае при переходе от столбца Нижние 95% к столбцу Верхние 95% смена знака происходит от минуса к плюсу
Алгоритм действий № 4 «Оценка статистической значимости уравнения регрессии и его коэффициентов»
Суммируя вышесказанное, приведем краткий алгоритм принятия решения о статистической значимости уравнения регрессии на основе ВЫВОДА ИТОГОВ в Excel.
Шаг 1. Принятие решения о значимости уравнения регрессии
1.1 Чем ближе R-квадрат к 1, тем лучше, что дает отличный критерий для выбора одного из нескольких уравнений регрессии.
Значимость F должна быть меньше 0,05 – при 95% уровне надежности; при 99% должна быть меньше 0,01 ‑ при 99% уровне надежности уровне.
Шаг 2. Принятие решения о значимости коэффициентов уравнения регрессии
P-Значение должно быть меньше 0,05 – при 95% уровне надежности; при 99% P-Значение должно быть меньше 0,01 ‑ при 99% уровне надежности уровне.
Коэффициенты регрессии и свободного члена при переходе от столбца Нижние и Верхние (при заданном уровне надежности) не должны менять свой знак. Если смена знака происходит, то коэффициенты данного уравнения признаются статистически незначимыми.
Исходя из этого краткого алгоритма, мы отметили жирным шрифтом в ВЫВОДЕ ИТОГОВ (см. табл. 2.5) именно те пункты, на которые следует обратить внимание. При этом те пункты, которые не являются статистически значимыми при данном уровне надежности, мы не только выделили жирным шрифтом, но еще и подчеркнули.
Таблица 2.5. ВЫВОД ИТОГОВ и принятие решения о статистической значимости уравнения регрессии и значимости его коэффициентов
Таким образом, взяв за основу данные из таблицы 2.5 и действуя по алгоритму № 4, мы дадим ответы на все четыре пункта последнего:
1.1. Поскольку коэффициент детерминации R2 для данного уравнения регрессии оказался равен 0,71511, то отсюда можно сделать вывод, что оно в 71,51% случаях в состоянии объяснить ежемесячные колебания курса доллара.
1.2. Значимость F равна 5,4E-60 или =0, а, следовательно, уравнение регрессии статистически значимо как при 95% уровне надежности, так и при 99% уровне надежности.
2.1. P-Значение для коэффициента свободного члена уравнения равно 0,023323, а следовательно этот коэффициент статистически значим лишь при 95% уровне надежности, но не значим при 99% уровне надежности, поскольку он больше 0,01. P-Значение для коэффициента регрессии равно 0, а, следовательно, этот коэффициент статистически значим как при 95% уровне надежности, так и при 99% уровне надежности .
2.2. Коэффициент свободного члена (константа) уравнения при переходе от столбца Нижние 99,0% к столбцу Верхние 99,0% меняет знак с минуса на плюс, а потому статистически не значим при 99% уровне надежности. При 95% уровне надежности смены знаков не происходит, а потому свободный член уравнения при данном уровне надежности статистически значим. Коэффициент регрессии статистически значим как при 95%, так и при 99% уровне надежности, поскольку и в том и другом случае смены знака у данного коэффициента не происходит. Следовательно, на основании таблицы 5 можно сделать вывод, что в целом уравнение регрессии и все его коэффициенты статистически значимы при 95% уровне надежности.
Как мы уже говорили ранее, уравнение регрессии – в отличие от обычных уравнений, оценивающих функциональную, то есть жестко детерминированную связь между переменными – дает прогноз зависимой переменной с учетом воздействия случайного фактора. Поэтому фактические значения результативного признака практически всегда отличаются от его расчетных (теоретических) значений. При этом случайная компонента (остаток) находится следующим образом.
Сначала находится прогнозируемый курс доллара, например, на апрель 2010 г. С учетом того, что порядковый номер апреля 2010 равен 215 (при июне 1992 г. =1), предсказываемый на этот месяц курс доллара может быть найден следующим образом:
Y расч.=0,1622*215++ 1,9958=36,8616
e = Y факт. – Y расч.= -7,573
Следовательно, прогноз, сделанный по данному уравнению регрессии, в апреле 2010 г. оказался выше фактического курса доллара на 7 руб. 57,3 коп. Вполне очевидно, что это слишком большая величина отклонения, чтобы данное уравнение регрессии можно было бы использовать для прогноза валютного курса. В свою очередь, чем ближе теоретические значения подходят к фактическим данным, тем лучше качество прогностической модели. Поскольку разница между фактическим и предсказываемым значением курса доллара (yфакт. – yрасч.) может быть как величиной положительной, так и отрицательной, то ошибка аппроксимации (подгонки модели к фактическим данным) следует определять как в абсолютных цифрах по модулю, так и в процентах модулю.
Правообладателям!
Данное произведение размещено по согласованию с ООО "ЛитРес" (20% исходного текста). Если размещение книги нарушает чьи-либо права, то сообщите об этом.Читателям!
Оплатили, но не знаете что делать дальше?