Первая разность в эконометрике. Временные ряды в эконометрических исследованиях. На Тему: Временные ряды. Тренды. Автокорреляция

Приветствую всех читателей!

Статистический анализ, как известно, занимается сбором и обработкой реальных данных. Дело полезное, а зачастую и выгодное, т.к. правильные выводы позволяют избежать ошибок и потерь в будущем, а иногда и правильно угадать это самое будущее. Собранные данные отражают состояние некоторого наблюдаемого явления. Данные часто (но не всегда) имеют числовой вид и с ними можно проделывать различные математические манипуляции, извлекая тем самым дополнительную информацию.

Однако не все явления измеряются в количественной шкале типа 1, 2, 3 … 100500 … Не всегда явление может принимать бесконечное или большое количество различных состояний. Например, пол у человека может быть либо М, либо Ж. Стрелок либо попадает в цель, либо не попадает. Голосовать можно либо «За», либо «Против» и т.д. и т.п. Другими словами, такие данные отражают состояние альтернативного признака – либо «да» (событие наступило), либо «нет» (событие не наступило). Наступившее событие (положительный исход) еще называют «успехом». Такие явления также могут носить массовый и случайный характер. Следовательно, их можно измерять и делать статистически обоснованные выводы.

Эксперименты с такими данными называются схемой Бернулли , в честь известного швейцарского математика, который установил, что при большом количестве испытаний соотношение положительных исходов и общего количества испытаний стремится к вероятности наступления этого события.

Переменная альтернативного признака

Для того, чтобы в анализе задействовать математический аппарат, результаты подобных наблюдений следует записать в числовом виде. Для этого положительному исходу присваивают число 1, отрицательному – 0. Другими словами, мы имеем дело с переменной, которая может принимать только два значения: 0 или 1.

Какую пользу отсюда можно извлечь? Вообще-то не меньшую, чем от обычных данных. Так, легко подсчитать количество положительных исходов – достаточно просуммировать все значения, т.е. все 1 (успехи). Можно пойти далее, но для этого потребуется ввести парочку обозначений.

Первым делом нужно отметить, что положительные исходы (которые равны 1) имеют некоторую вероятность появления. Например, выпадение орла при подбрасывании монеты равно ½ или 0,5. Такая вероятность традиционно обозначается латинской буквой p . Следовательно, вероятность наступления альтернативного события равна 1 — p , которую еще обозначают через q , то есть q = 1 – p . Указанные обозначения можно наглядно систематизировать в виде таблички распределения переменной X .

Теперь у нас есть перечень возможных значений и их вероятности. Можно приступить к расчету таких замечательных характеристик случайной величины, как математическое ожидание и дисперсия . Напомню, что математическое ожидание рассчитывается, как сумма произведений всех возможных значений на соответствующие им вероятности:

Вычислим матожидание, используя обозначения в таблицы выше.

Получается, что математическое ожидание альтернативного признака равно вероятности этого события – p .

Теперь определим, что такое дисперсия альтернативного признака. Также напомню, что дисперсия – есть средний квадрат отклонений от математического ожидания. Общая формула (для дискретных данных) имеет вид:

Отсюда дисперсия альтернативного признака:

Нетрудно заметить, что эта дисперсия имеет максимум 0,25 (при p=0,5) .

Среднее квадратическое отклонение – корень из дисперсии:

Максимальное значение не превышает 0,5.

Как видно, и математическое ожидание, и дисперсия альтернативного признака имеют очень компактный вид.

Биномиальное распределение случайной величины

Теперь рассмотрим ситуацию под другим углом. Действительно, кому интересно, что среднее выпадение орлов при одном бросании равно 0,5? Это даже невозможно представить. Интересней поставить вопрос о числе выпадения орлов при заданном количестве подбрасываний.

Другими словами, исследователя часто интересует вероятность наступления некоторого числа успешных событий. Это может быть количество бракованных изделий в проверяемой партии (1- бракованная, 0 — годная) или количество выздоровлений (1 – здоров, 0 – больной) и т.д. Количество таких «успехов» будет равно сумме всех значений переменной X , т.е. количеству единичных исходов.

Случайная величина B называется биномиальной и принимает значения от 0 до n (при B = 0 — все детали годные, при B = n – все детали бракованные). Предполагается, что все значения x независимы между собой. Рассмотрим основные характеристики биномиальной переменной, то есть установим ее математическое ожидание, дисперсию и распределение.

Матожидание биномиальной переменной получить очень легко. Вспомним, что есть сумма математических ожиданий каждой складываемой величины, а оно у всех одинаковое, поэтому:

Например, математическое ожидание количества выпавших орлов при 100 подбрасываниях равно 100 × 0,5 = 50.

Теперь выведем формулу дисперсии биномиальной переменной. есть сумма дисперсий. Отсюда

Среднее квадратическое отклонение, соответственно

Для 100 подбрасываний монеты среднеквадратическое отклонение равно

И, наконец, рассмотрим распределение биномиальной величины, т.е. вероятности того, что случайная величина B будет принимать различные значения k , где 0≤ k ≤n . Для монеты эта задача может звучать так: какова вероятность выпадения 40 орлов при 100 бросках?

Чтобы понять метод расчета, представим, что монета подбрасывается всего 4 раза. Каждый раз может выпасть любая из сторон. Мы задаемся вопросом: какова вероятность выпадения 2 орлов из 4 бросков. Каждый бросок независим друг от друга. Значит, вероятность выпадения какой-либо комбинации будет равна произведению вероятностей заданного исхода для каждого отдельного броска. Пусть О – это орел, Р – решка. Тогда, к примеру, одна из устраивающих нас комбинаций может выглядеть как ООРР, то есть:

Вероятность такой комбинации равняется произведению двух вероятностей выпадения орла и еще двух вероятностей не выпадения орла (обратное событие, рассчитываемое как 1 — p ), т.е. 0,5×0,5×(1-0,5)×(1-0,5)=0,0625. Такова вероятность одной из устраивающих нас комбинации. Но вопрос ведь стоял об общем количестве орлов, а не о каком-то определенном порядке. Тогда нужно сложить вероятности всех комбинаций, в которых присутствует ровно 2 орла. Ясно, все они одинаковы (от перемены мест множителей произведение не меняется). Поэтому нужно вычислить их количество, а затем умножить на вероятность любой такой комбинации. Подсчитаем все варианты сочетаний из 4 бросков по 2 орла: РРОО, РОРО, РООР, ОРРО, ОРОР, ООРР. Всего 6 вариантов.

Следовательно, искомая вероятность выпадения 2 орлов после 4 бросков равна 6×0,0625=0,375.

Однако подсчет подобным образом утомителен. Уже для 10 монет методом перебора получить общее количество вариантов будет очень трудно. Поэтому умные люди давно изобрели формулу, с помощью которой рассчитывают количество различных сочетаний из n элементов по k , где n – общее количество элементов, k – количество элементов, варианты расположения которых и подсчитываются. Формула сочетания из n элементов по k такова:

Подобные вещи проходят в разделе комбинаторики. Всех желающих подтянуть знания отправляю туда. Отсюда, кстати, и название биномиального распределения (формула выше является коэффициентом в разложении бинома Ньютона).

Формулу для определения вероятности легко обобщить на любое количество n и k . В итоге формула биномиального распределения имеет следующий вид.

Словами: количество подходящих под условие комбинаций умножить на вероятность одной из них.

Для практического использования достаточно просто знать формулу биномиального распределения. А можно даже и не знать – ниже показано, как определить вероятность с помощью Excel. Но лучше все-таки знать.

Рассчитаем по этой формуле вероятность выпадения 40 орлов при 100 бросках:

Или всего 1,08%. Для сравнения вероятность наступления математического ожидания этого эксперимента, то есть 50 орлов, равна 7,96%. Максимальная вероятность биномиальной величины принадлежит значению, соответствующему математическому ожиданию.

Расчет вероятностей биномиального распределения в Excel

Если использовать только бумагу и калькулятор, то расчеты по формуле биноминального распределения, несмотря на отсутствие интегралов, даются довольно тяжело. К примеру значение 100! – имеет более 150 знаков. Вручную рассчитать такое невозможно. Раньше, да и сейчас тоже, для вычисления подобных величин использовали приближенные формулы. В настоящий момент целесообразно использовать специальное ПО, типа MS Excel. Таким образом, любой пользователь (даже гуманитарий по образованию) вполне может вычислить вероятность значения биномиально распределенной случайной величины.

Для закрепления материала задействуем Excel пока в качестве обычного калькулятора, т.е. произведем поэтапное вычисление по формуле биномиального распределения. Рассчитаем, например, вероятность выпадения 50 орлов. Ниже приведена картинка с этапами вычислений и конечным результатом.

Как видно, промежуточные результаты имеют такой масштаб, что не помещаются в ячейку, хотя везде и используются простые функции типа: ФАКТР (вычисление факториала), СТЕПЕНЬ (возведение числа в степень), а также операторы умножения и деления. Более того, этот расчет довольно громоздок, во всяком случаен не является компактным, т.к. задействовано много ячеек. Да и разобраться с ходу трудновато.

В общем в Excel предусмотрена готовая функция для вычисления вероятностей биномиального распределения. Функция называется БИНОМ.РАСП.

Число успехов – количество успешных испытаний. У нас их 50.

Число испытаний – количество подбрасываний: 100 раз.

Вероятность успеха – вероятность выпадения орла при одном подбрасывании 0,5.

Интегральная – указывается либо 1, либо 0. Если 0, то рассчитается вероятность P(B=k) ; если 1, то рассчитается функция биномиального распределения, т.е. сумма всех вероятностей от B=0 до B=k включительно.

Нажимаем ОК и получаем тот же результат, что и выше, только все рассчиталось одной функцией.

Очень удобно. Эксперимента ради вместо последнего параметра 0 поставим 1. Получим 0,5398. Это значит, что при 100 подкидываниях монеты вероятность выпадения орлов в количестве от 0 до 50 равна почти 54%. А поначалу то казалось, что должно быть 50%. В общем, расчеты производятся легко и быстро.

Настоящий аналитик должен понимать, как ведет себя функция (каково ее распределение), поэтому произведем расчет вероятностей для всех значений от 0 до 100. То есть зададимся вопросом: какова вероятность, что не выпадет ни одного орла, что выпадет 1 орел, 2, 3, 50, 90 или 100. Расчет приведен в нижеследующей самодвигающейся картинке. Синяя линия – само биномиальное распределение, красная точка – вероятность для конкретного числа успехов k.

Кто-то может спросить, а не похоже ли биномиальное распределение на… Да, очень похоже. Еще Муавр (в 1733 г.) говорил, что биномиальное распределение при больших выборках приближается к (не знаю, как это тогда называлось), но его никто не слушал. Только Гаусс, а затем и Лаплас через 60-70 лет вновь открыли и тщательно изучили нормальной закон распределения. На графике выше отлично видно, что максимальная вероятность приходится на математическое ожидание, а по мере отклонения от него, резко снижается. Также, как и у нормального закона.

Биномиальное распределение имеет большое практическое значение, встречается довольно часто. С помощью Excel расчеты проводятся легко и быстро. Так что можно смело использовать.

На этом предлагаю распрощаться до следующей встречи. Всех благ, будьте здоровы!

Временной ряд - это совокупность значений какого-либо показателя за несколько последовательных моментов или периодов времени. Каждое значение (уровень) временного ряда формируется под воздействием большого числа факторов, которые можно условно разделить на три группы:

Тенденция характеризует долговременное воздействие факторов на динамику показателя. Тенденция может быть возрастающей (рис. 4.1,а) или убывающей (рис. 4.1,6).

Циклические колебания могут носить сезонный характер или отражать динамику конъюнктуры рынка (рис. 4.2), а также фазу бизнес- цикла, в которой находится экономика страны.

Рис. 4.1. Тенденции временного ряда: а -возрастающая; б - убывающая

Рис. 4.2.

Реальные данные часто содержат все три компоненты. В большинстве случаев временной ряд можно представить как сумму или произведение трендовой Т, циклической S и случайной Е компонент. В случае их суммы имеет место аддитивная модель временного ряда:

в случае произведения - мультипликативная модель:

Основные задачи эконометрического исследования отдельного временного ряда - получение количественного выражения каждой из компонент и использование этой информации для прогноза будущих значений ряда или построение модели взаимосвязи двух или более временных рядов.

Сначала рассмотрим основные подходы к анализу отдельного временного ряда. Такой ряд помимо случайной составляющей может содержать либо только тенденцию, либо только сезонную (циклическую) компоненту, либо все компоненты вместе. Для того чтобы выявить наличие той или иной неслучайной компоненты, исследуется корреляционная зависимость между последовательными уровнями временного ряда, или автокорреляция уровней ряда. Основная идея такого анализа заключается в том, что при наличии во временном ряде тенденции и циклических колебаний значения каждого последующего уровня ряда зависят от предыдущих.

Количественно автокорреляцию можно измерить с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во времени. Коэффициент автокорреляции уровней ряда первого порядка позволяет измерить зависимость между соседними уровнями ряда tut - 1, т.е. при лаге 1, и вычисляется по следующей формуле:

где в качестве средних величин берутся значения:

В первом случае в формуле (4.4) усредняются значения ряда, начиная со второго до последнего, во втором - значения ряда с первого до предпоследнего.

Формулу (4.3) можно представить как формулу выборочного коэффициента корреляции:

где в качестве переменной х берется ряд у { , у 2 , ..., у„, а в качестве переменной у - ряду ь у2. -,Уп- 1 -

Если значение коэффициента (4.3) (или (4.5)) близко к единице, это указывает на очень тесную зависимость между соседними уровнями временного ряда и наличие во временном ряде сильной линейной тенденции.

Аналогично определяются коэффициенты автокорреляции более высоких порядков. Так, коэффициент автокорреляции второго порядка, который характеризует тесноту связи между уровнями у, иу,_ 2 , определяется по формуле:

В качестве одной средней величины в (4.6) берут среднюю уровней ряда с третьего до последнего, а в качестве другой - среднюю всех уровней ряда, кроме последних двух:

Величина сдвига между уровнями ряда, относительно которой рассчитывается коэффициент автокорреляции, называется лагом. С возрастанием лага число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается. Для обеспечения статистической достоверности максимальный лаг, как считают некоторые известные эконометристы, не должен превышать четверти общего объема выборки.

Коэффициент автокорреляции строится по аналогии с линейным коэффициентом корреляции, и поэтому он характеризует тесноту только линейной связи текущего и предыдущего уровней ряда. По нему можно судить о наличии линейной или близкой к линейной тенденции. Однако для некоторых временных рядов с сильной нелинейной тенденцией (например, параболической или экспоненциальной), коэффициент автокорреляции уровней ряда может приближаться к нулю.

Кроме того, по знаку коэффициента автокорреляции нельзя делать вывод о возрастающей или убывающей тенденции в уровнях ряда. Большинство временных рядов экономических данных имеют положительную автокорреляцию уровней, однако при этом не исключается убывающая тенденция.

Последовательность коэффициентов автокорреляции уровней различных порядков, начиная с первого, называется автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага называется коррелограммой. Анализ автокорреляционной функции и коррелограммы помогает выявить структуру ряда. Здесь уместно привести следующие качественные рассуждения.

Если наиболее высоким является коэффициент автокорреляции первого порядка, очевидно, исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка т, ряд содержит циклические колебания с периодичностью в т моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то ряд либо не содержит тенденции и циклические колебания и имеет только случайную составляющую, либо содержит сильную нелинейную тенденцию, для исследования которой нужно провести дополнительный анализ.

Пример (И.И. Елисеева ). Пусть имеются данные об объеме потребления электроэнергии жителями района у, (млн кВт-ч) за период t (квартал) (табл. 4.1).

Таблица 4.1

Исходный временной ряд потребления электроэнергии

Нанесем эти значения на график (рис. 4.3).

Рис. 4.3.

Определим автокорреляционную функцию данного временного ряда. Рассчитаем коэффициент автокорреляции первого порядка. Для этого определим средние значения:

С учетом этих значений построим вспомогательную таблицу (табл. 4.2).

Таблица 4.2

Вспомогательные расчеты при вычислении коэффициента автокорреляции

У,-Ух

У,-Уг

(У,-Ух?

(У,-Ух)

С помощью итоговых сумм подсчитаем величину коэффициента автокорреляции первого порядка:

Это значение свидетельствует о слабой зависимости текущих уровней ряда от непосредственно им предшествующих. Однако из графика очевидно наличие возрастающей тенденции уровней ряда, на которую накладываются циклические колебания.

Продолжая аналогичные расчеты для второго, третьего и т.д. порядков, получим автокорреляционную функцию, значения которой сведем в таблицу (табл. 4.3) и построим по ней коррелограмму (рис. 4.4).

Таблица 4.3

Значения автокорреляционной функции временного ряда

Рис. 4.4.

Из коррелограммы видно, что наиболее высокий коэффициент корреляции наблюдается при значении лага, равном четырем, следовательно, ряд имеет циклические колебания периодичностью в четыре квартала. Это подтверждается и графическим анализом структуры ряда.

В случае если при анализе структуры временного ряда обнаружена только тенденция и отсутствуют циклические колебания (случайная составляющая присутствует всегда), следует приступать к моделированию тенденции. Если же во временном ряде имеют место и циклические колебания, прежде всего следует исключить именно циклическую составляющую и лишь затем приступать к моделированию тенденции. Выявление тенденции состоит в построении аналитической функции, характеризующей зависимость уровней ряда от времени, или тренда. Этот способ называют аналитическим выравниванием временного ряда.

Зависимость от времени может принимать разные формы, поэтому для ее формализации используют различные виды функций:

  • линейный тренд: у, =а + Ы
  • гиперболу: у, = a + b /1;
  • экспоненциальный тренд: у,=е а ~ ь " (или y t =ab")
  • степенной тренд: y,=at b ;
  • параболический тренд второго и более высоких порядков:

Параметры каждого из трендов можно определить обычным МНК, используя в качестве независимой переменной время t = 1,2, «,

а в качестве зависимой переменной - фактические уровни временного ряда у, (или уровни за вычетом циклической составляющей, если таковая была обнаружена). Для нелинейных трендов предварительно проводят стандартную процедуру их линеаризации.

Существует несколько способов определения типа тенденции. Чаще всего используют качественный анализ изучаемого процесса, построение и визуальный анализ графика зависимости уровней ряда от времени, расчет некоторых основных показателей динамики. В этих же целях можно использовать и коэффициенты автокорреляции уровней ряда. Тип тенденции можно определить путем сравнения коэффициентов автокорреляции первого порядка, рассчитанных по исходным и преобразованным уровням ряда. Если временной ряд имеет линейную тенденцию, то его соседние уровни у, и у, _ i тесно коррелируют. В этом случае коэффициент автокорреляции первого порядка уровней исходного ряда должен быть высоким. Если временной ряд содержит нелинейную тенденцию, например в форме экспоненты, то коэффициент автокорреляции первого порядка по логарифмам уровней исходного ряда будет выше, чем соответствующий коэффициент, рассчитанный по уровням ряда. Чем сильнее выражена нелинейная тенденция в изучаемом временном ряде, тем в большей степени будут различаться значения указанных коэффициентов.

Выбор наилучшего уравнения, в случае если ряд содержит нелинейную тенденцию, можно осуществить путем перебора основных форм тренда, расчета по каждому уравнению скорректированного коэффициента детерминации R 2 и выбора уравнения тренда с максимальным значением этого коэффициента. Реализация этого метода относительно проста при компьютерной обработке данных.

При анализе временных рядов, содержащих сезонные или циклические колебания, наиболее простым подходом является расчет значений сезонной компоненты методом скользящей средней и построение аддитивной или мультипликативной модели временного ряда в форме (4.1) или (4.2).

Если амплитуда колебаний приблизительно постоянна, строят аддитивную модель (4.1), в которой значения сезонной компоненты предполагаются постоянными для различных циклов. Если амплитуда сезонных колебаний возрастает или уменьшается, строят мультипликативную модель (4.2), которая ставит уровни ряда в зависимость от значений сезонной компоненты.

Построение модели (4.1) или (4.2) сводится к расчету значений Т, S или Е для каждого уровня ряда. Процесс построения модели включает в себя следующие шаги.

  • 1. Выравнивание исходного ряда методом скользящей средней.
  • 2. Расчет значений сезонной компоненты S.
  • 3. Устранение сезонной компоненты из исходных уровней ряда и получение выровненных данных + Е) в аддитивной или (Т х Е) в мультипликативной модели.
  • 4. Аналитическое выравнивание уровней (Т + Е) или (Тх Е) и расчет значений Т с использованием полученного уравнения тренда.
  • 5. Расчет полученных по модели значений (Т + S) или (Тх S).
  • 6. Расчет абсолютных и относительных ошибок.

Пример. Построение аддитивной модели временного ряда. Рассмотрим данные об объеме потребления электроэнергии жителями района из ранее приведенного примера. Результаты анализа автокорреляционной функции показали, что данный временной ряд содержит сезонные колебания периодичностью в четыре квартала. Объемы потребления электроэнергии в осенне-зимний период (I и IV кварталы) выше, чем весной и летом (И и III кварталы). По графику этого ряда можно установить наличие приблизительно равной амплитуды колебаний. Это говорит о возможном наличии аддитивной модели. Рассчитаем ее компоненты.

Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней.

Поскольку циклические колебания имеют периодичность в четыре квартала, просуммируем уровни ряда последовательно за каждые четыре квартала со сдвигом на один момент времени и определим условные годовые объемы потребления электроэнергии (колонка 3 в табл. 4.4).

Разделив полученные суммы на 4, найдем скользящие средние (колонка 4 табл. 4.4). Полученные таким образом выровненные значения уже не содержат сезонной компоненты.

Поскольку скользящие средние получены осреднением четырех соседних уровней ряда, т.е. четного числа значений, они соответствуют серединам подынтервалов, состоящих из четверок чисел, т.е. должны располагаться между третьим и четвертым значениями четверок исходного ряда. Для того чтобы скользящие средние располагались на одних временных отметках с исходным рядом, пары соседних скользящих средних еще раз усредняются и получаются центрированные скользящие средние (колонка 5 табл. 4.4). При этом теряются первые две и последние две отметки временного ряда, что связано с осреднением по четырем точкам.

Таблица 4.4

Расчет оценок сезонных компонент

квартала

Потребление электроэнергии (у,)

Итого за четыре квартала

Центрированная

скользящая

сезонной

компоненты

Шаг 2. Найдем оценки сезонной компоненты как разность между фактическими уровнями ряда (колонка 2 табл. 4.4) и центрированными скользящими средними (колонка 5). Эти значения помещаем в колонку 6 табл. 4.4 и используем для расчета значений сезонной компоненты (табл. 4.5), которые представляют собой средние за каждый квартал (по всем годам) оценки сезонной компоненты S,. В моделях с сезонной компонентой обычно предполагается, что сезонные воздействия за период (в данном случае за год) взаимопогашаются. В аддитивной модели это выражается в том, что сумма значений сезонной компоненты по всем точкам (здесь - по четырем кварталам) должна быть равна нулю.

Таблица 4.5

Корректировка сезонной компоненты

Для данной модели сумма средних оценок сезонной компоненты будет:

Эта сумма оказалась не равной нулю, поэтому каждую оценку уменьшим на величину поправки, равной одной четверти полученного значения:

Рассчитаем скорректированные значения сезонной компоненты (они записаны в последней строке табл. 4.5):

Эти значения при суммировании уже равны нулю:

Шаг 3. Исключаем влияние сезонной компоненты, вычитая ее значения из каждого уровня исходного временного ряда. Получаем величины:

Эти значения рассчитываются в каждый момент времени и содержат только тенденцию и случайную компоненту (колонка 4 табл. 4.6).

Таблица 4.6

Расчет сезонной, трендовой и случайной компонент временного ряда

Т+Е = у,- S,

E = y,-(T+S)

Шаг 4. Определим трендовую компоненту данной модели. Для этого проведем выравнивание ряда (Т + Е) с помощью линейного тренда:

Подставляя в это уравнение значения / = 1, 2,..., 16, найдем уровни Т для каждого момента времени (колонка 5 табл. 4.6).

Шаг 5. Найдем значения уровней ряда, полученные по аддитивной модели. Для этого прибавим к уровням Т значения сезонной компоненты для соответствующих кварталов, т.е. к значениям в колонке 5 табл. 4.6 прибавим значения в колонке 3. Результаты операции представлены в колонке 6 там же.

Шаг 6. В соответствии с методикой построения аддитивной модели расчет ошибки производим по формуле:

Это абсолютная ошибка. Численные значения абсолютных ошибок приведены в колонке 7 табл. 4.6.

По аналогии с моделью регрессии для оценки качества построения модели или для выбора наилучшей модели можно применять сумму квадратов полученных абсолютных ошибок. Для данной аддитивной модели сумма квадратов абсолютных ошибок равна 1,10. По отношению к общей сумме квадратов отклонений уровней ряда от его среднего уровня, равной 71,59, эта величина составляет чуть более 1,5%. Следовательно, можно сказать, что аддитивная модель объясняет 98,5% общей вариации уровней временного ряда потребления электроэнергии за последние 16 кварталов.

Пример (И.И. Елисеева ). Построение мультипликативной модели временного ряда. Пусть имеются поквартальные данные о прибыли компании за последние четыре года (табл. 4.7).

Таблица 4.7

Исходные данные временного ряда с мультипликативной моделью

График временного ряда свидетельствует о наличии сезонных колебаний периодичностью четыре квартала и обшей убывающей тенденции уровней ряда (рис. 4.5).

Рис.

Прибыль компании в весенне-летний период выше, чем в осенне- зимний. Поскольку амплитуда сезонных колебаний уменьшается, можно предположить существование мультипликативной модели. Определим ее компоненты.

Шаг 1. Проведем выравнивание исходных уровней ряда методом скользящей средней. Методика, применяемая на этом шаге, полностью совпадает с методикой аддитивной модели. Результаты расчетов оценок сезонной компоненты представлены в табл. 4.8.

Таблица 4.8

Расчет оценок сезонной компоненты

квартала

компании

Итого за четыре квартала

Скользящая средняя за четыре квартала

Центрированная скользящая средняя

сезонной

компоненты

Шаг 2. Найдем оценки сезонной компоненты как частное от деления фактических уровней ряда на центрированные скользящие средние (колонка 6 табл. 4.8). Используем эти оценки для расчета значений сезонной компоненты S. Для этого найдем средние за каждый квартал оценки сезонной компоненты 5,. Взаимопогашаемость сезонных воздействий в мультипликативной модели выражается в том, что сумма значений сезонной компоненты по всем кварталам должна равняться числу периодов в цикле. В нашем случае число периодов одного цикла (год) равно четырем кварталам. Результаты расчетов сведем в табл. 4.9.

Здесь сумма средних оценок сезонных компонент по всем четырем кварталам будет

т.е. не равна четырем. Чтобы эта сумма равнялась четырем, умножим каждое слагаемое на поправочный коэффициент

Таблица 4.9

Корректировка сезонных коэффициентов мультипликативной модели

Значения скорректированных сезонных компонент записаны в последней строке табл. 4.9. Теперь их сумма равна четырем. Занесем эти значения в новую таблицу (колонка 3 табл. 4.10).

Шаг 3. Разделим каждый уровень исходного ряда на соответствующие значения сезонной компоненты. Тем самым мы получим величины

Шаг 4. Определим трендовую компоненту в мультипликативной модели. Для этого рассчитаем параметры линейного тренда, используя уровни (Т+ Е). Уравнение тренда имеет вид:

Подставляя в это уравнение значения /= 1, 2,..., 16, найдем уровни Т для каждого момента времени (колонка 5 табл. 4.10).

Шаг 5. Найдем уровни ряда по мультипликативной модели, умножив уровни Т на значения сезонной компоненты для соответствующих кварталов (колонка 6 табл. 4.10).

Таблица 4.10

Расчет компонент мультипликативной модели

Шаг 6. Расчет ошибок в мультипликативной модели произведем по формуле:

Численные значения ошибок приведены в колонке 7 таблицы. Для того чтобы сравнить мультипликативную модель и другие модели временного ряда, можно по аналогии с аддитивной моделью использовать сумму квадратов абсолютных ошибок. Абсолютные ошибки в мультипликативной модели определяются как:

В данной модели сумма квадратов абсолютных ошибок составляет 207,4. Общая сумма квадратов отклонений фактических уровней этого ряда от среднего значения равна 5023. Таким образом, доля объясненной дисперсии уровней ряда составляет 95,9%.

Прогнозирование по аддитивной или мультипликативной модели временного ряда сводится к расчету будущего значения временного ряда по уравнению модели без случайной составляющей в виде:

Для аддитивной

или у, = TS

Для мультипликативной модели.

Под временными рядами понимают экономические величины, зависящие от времени. При этом время предполагается дискретным, в противном случае говорят о случайных процессах, а не о временных рядах.

6.1. Модели стационарных и нестационарных временных рядов, их идентификация

Пусть Рассмотрим временной рядX(t). Пусть сначала временной ряд принимает числовые значения. Это могут быть, например, цены на батон хлеба в соседнем магазине или курс обмена доллара на рубли в ближайшем обменном пункте. Обычно в поведении временного ряда выявляют две основные тенденции - тренд и периодические колебания.

При этом под трендом понимают зависимость от времени линейного, квадратичного или иного типа, которую выявляют тем или иным способом сглаживания (например, экспоненциального сглаживания) либо расчетным путем, в частности, с помощью метода наименьших квадратов. Другими словами, тренд - это очищенная от случайностей основная тенденция временного ряда.

Временной ряд обычно колеблется вокруг тренда, причем отклонения от тренда часто обнаруживают правильность. Часто это связано с естественной или назначенной периодичностью, например, сезонной или недельной, месячной или квартальной (например, в соответствии с графиками выплаты заплаты и уплаты налогов). Иногда наличие периодичности и тем более ее причины неясны, и задача эконометрика - выяснить, действительно ли имеется периодичность.

Элементарные методы оценки характеристик временных рядов обычно достаточно подробно рассматриваются в курсах "Общей теории статистики" (см., например, учебники ), поэтому нет необходимости подробно разбирать их здесь. (Впрочем, о некоторых современных методах оценивания длины периода и самой периодической составляющей речь пойдет ниже.)

Характеристики временных рядов . Для более подробного изучения временных рядов используются вероятностно-статистические модели. При этом временной ряд X(t) рассматривается как случайный процесс (с дискретным временем) основными характеристиками являются математическое ожидание X(t) , т.е.

дисперсия X(t) , т.е.

и автокорреляционная функция временного ряда X(t)

т.е. функция двух переменных, равная коэффициенту корреляции между двумя значениями временного ряда X(t) и X(s).

В теоретических и прикладных исследованиях рассматривают широкий спектр моделей временных рядов. Выделим сначала стационарные модели. В них совместные функции распределения для любого числа моментов времениk , а потому и все перечисленные выше характеристики временного ряда не меняются со временем . В частности, математическое ожидание и дисперсия являются постоянными величинами, автокорреляционная функция зависит только от разности t-s. Временные ряды, не являющиеся стационарными, называются нестационарными.

Линейные регрессионные модели с гомоскедастичными и гетероскедастичными, независимыми и автокоррелированными остатками. Как видно из сказанного выше, основное - это "очистка" временного ряда от случайных отклонений, т.е. оценивание математического ожидания. В отличие от простейших моделей регрессионного анализа, рассмотренных в главе 5, здесь естественным образом появляются более сложные модели. Например, дисперсия может зависеть от времени. Такие модели называют гетероскедастичными, а те, в которых нет зависимости от времени - гомоскедастичными. (Точнее говоря, эти термины могут относиться не только к переменной "время", но и к другим переменным.)

Далее, в главе 5 предполагалось, что погрешности независимы между собой. В терминах настоящей главы это означало бы, что автокорреляционная функция должна быть вырожденной - равняться 1 при равенстве аргументов и 0 при их неравенстве. Ясно, что для реальных временных рядов так бывает отнюдь не всегда. Если естественный ход изменений наблюдаемого процесса является достаточно быстрым по сравнению с интервалом между последовательными наблюдениями, то можно ожидать "затухания" автокорреляции" и получения практически независимых остатков, в противном случае остатки будут автокоррелированы.

Идентификация моделей. Под идентификацией моделей обычно понимают выявление их структуры и оценивание параметров. Поскольку структура - это тоже параметр, хотя и нечисловой (см. главу 8), то речь идет об одной из типовых задач эконометрики - оценивании параметров.

Проще всего задача оценивания решается для линейных (по параметрам) моделей с гомоскедастичными независимыми остатками. Восстановление зависимостей во временных рядах может быть проведено на основе методов наименьших квадратов и наименьших модулей, рассмотренных в главе 5 моделей линейной (по параметрам) регрессии. На случай временных рядов переносятся результаты, связанные с оцениванием необходимого набора регрессоров, в частности, легко получить предельное геометрическое распределение оценки степени тригонометрического полинома.

Однако на более общую ситуацию такого простого переноса сделать нельзя. Так, например, в случае временного ряда с гетероскедастичными и автокоррелированными остатками снова можно воспользоваться общим подходом метода наименьших квадратов, однако система уравнений метода наименьших квадратов и, естественно, ее решение будут иными. Формулы в терминах матричной алгебры, о которых упоминалось в главе 5, будут отличаться. Поэтому рассматриваемый метод называется "обобщенный метод наименьших квадратов (ОМНК)" (см., например, ).

Замечание. Как уже отмечалось в главе 5, простейшая модель метода наименьших квадратов допускает весьма далекие обобщения, особенно в области системам одновременных эконометрических уравнений для временных рядов. Для понимания соответствующей теории и алгоритмов необходимо профессиональное владение матричной алгеброй. Поэтому мы отсылаем тех, кому это интересно, к литературе по системам эконометрических уравнений и непосредственно по временным рядам , в которой особенно много интересуются спектральной теорией, т.е. выделением сигнала из шума и разложением его на гармоники. Подчеркнем в очередной раз, что за каждой главой настоящей книги стоит большая область научных и прикладных исследований, вполне достойная того, чтобы посвятить ей много усилий. Однако из-за ограниченности объема книги мы вынуждены изложение сделать конспективным.

Анализ временных рядов позволяет изучить показатели во времени. Временной ряд – это числовые значения статистического показателя, расположенные в хронологическом порядке.

Подобные данные распространены в самых разных сферах человеческой деятельности: ежедневные цены акций, курсов валют, ежеквартальные, годовые объемы продаж, производства и т.д. Типичный временной ряд в метеорологии, например, ежемесячный объем осадков.

Временные ряды в Excel

Если фиксировать значения какого-то процесса через определенные промежутки времени, то получатся элементы временного ряда. Их изменчивость пытаются разделить на закономерную и случайную составляющие. Закономерные изменения членов ряда, как правило, предсказуемы.

Сделаем анализ временных рядов в Excel. Пример: торговая сеть анализирует данные о продажах товаров магазинами, находящимися в городах с населением менее 50 000 человек. Период – 2012-2015 гг. Задача – выявить основную тенденцию развития.

Внесем данные о реализации в таблицу Excel:

На вкладке «Данные» нажимаем кнопку «Анализ данных». Если она не видна, заходим в меню. «Параметры Excel» - «Надстройки». Внизу нажимаем «Перейти» к «Надстройкам Excel» и выбираем «Пакет анализа».

Подключение настройки «Анализ данных» детально описано .

Нужная кнопка появится на ленте.

Из предлагаемого списка инструментов для статистического анализа выбираем «Экспоненциальное сглаживание». Этот метод выравнивания подходит для нашего динамического ряда, значения которого сильно колеблются.

Заполняем диалоговое окно. Входной интервал – диапазон со значениями продаж. Фактор затухания – коэффициент экспоненциального сглаживания (по умолчанию – 0,3). Выходной интервал – ссылка на верхнюю левую ячейку выходного диапазона. Сюда программа поместит сглаженные уровни и размер определит самостоятельно. Ставим галочки «Вывод графика», «Стандартные погрешности».

Закрываем диалоговое окно нажатием ОК. Результаты анализа:


Для расчета стандартных погрешностей Excel использует формулу: =КОРЕНЬ(СУММКВРАЗН(‘диапазон фактических значений’; ‘диапазон прогнозных значений’)/ ‘размер окна сглаживания’). Например, =КОРЕНЬ(СУММКВРАЗН(C3:C5;D3:D5)/3).



Прогнозирование временного ряда в Excel

Составим прогноз продаж, используя данные из предыдущего примера.

На график, отображающий фактические объемы реализации продукции, добавим линию тренда (правая кнопка по графику – «Добавить линию тренда»).

Настраиваем параметры линии тренда:

Выбираем полиномиальный тренд, что максимально сократить ошибку прогнозной модели.


R2 = 0,9567, что означает: данное отношение объясняет 95,67% изменений объемов продаж с течением времени.

Уравнение тренда – это модель формулы для расчета прогнозных значений.

Получаем достаточно оптимистичный результат:


В нашем примере все-таки экспоненциальная зависимость. Поэтому при построении линейного тренда больше ошибок и неточностей.

Для прогнозирования экспоненциальной зависимости в Excel можно использовать также функцию РОСТ.


Для линейной зависимости – ТЕНДЕНЦИЯ.

При составлении прогнозов нельзя использовать какой-то один метод: велика вероятность больших отклонений и неточностей.