• 5

3.2. Подготовка данных

Эти данные не свободны от ряда проблем, в том числе проблемы пропу-

щенных наблюдений, агрегирования и дезагрегирования.

Пропущенные наблюдения. Пропущенные наблюдения могут привести к

смещенности только если тот факт, что наблюдение недоступно, системати-

ческим образом зависит от уровня инфляции. Нет оснований полагать, что

такое имеет место в случае российских данных. Поэтому нашей стратегией

будет использовать все имеющиеся наблюдения. При этом не требуется

вносить изменения в базовый алгоритм.

В наших данных присутствуют 18 рядов с пропущенными наблюдениями,

относящимися к 1995–2001 гг.

Агрегирование и дезагрегирование. Агрегирование и дезагрегирование

товарных групп не вносят смешение в оценки усеченного среднего. Они

только несколько изменяют дисперсию оценок. Таким образом, базовый ал-

горитм не требует изменения.

С другой стороны, удобнее иметь прямоугольный массив данных, что не бу-

дет иметь места при агрегировании (или дезагрегировании). Прямоугольный

массив данных можно сконструировать используя искусственное дезагреги-

рование (агрегированный индекс реплицируется и его веса произвольным

образом распределяются между этими дезагрегированными рядами).

В наших данных имеется 2 ряда, характеризующихся такой проблемой.

Также имели место мелкие изменения определения отдельных индексов.

Эту проблему с данными значительно труднее решить, и мы не учитываем

ее в наших расчетах.

Имеется также две основные проблемы, касающиеся временной структуры

использованных необработанных рядов. Первая — сезонность. Вторая —

"ступенчатая динамика".

Сезонность. Известно, что некоторые цены имеют сильную сезонную со-

ставляющую. Наиболее очевидный пример — свежие овощи. Рис. 3 показы-

вает приросты цены на капусту, демонстрирующее типичное сезонное пове-

дение.

Используемые здесь российские ряды цен очевидным образом содержат

значимую сезонность, что видно из рис. 1(а) и рис. 8(а). Сезонность про-

является в форме (а именно, в асимметрии) одномоментных распреде-

лений.

Хотя, как мы покажем ниже, до некоторой степени усеченное среднее от-

фильтровывает сезонность, может оказаться более правильным учесть это

явление каким-то образом в нашей процедуре построения индекса базовой

инфляции. Наиболее прямой способ сделать это состоит в том, чтобы уда-

лить сезонность перед тем, как осуществлять усечение.

Для этой цели мы использовали X-12-ARIMA. Это программа сезонной кор-

ректировки американского Бюро переписи населения, являющаяся совре-

менной модификацией известной программы X-11. Ее можно автоматически

применить ко многим рядам, что существенно упрощает вычисления, и в ней

имеется автоматическое диагностирование сезонности (подробности можно

найти в Ladiray, Quenneville (1999) ).

Программа X-12-ARIMA обнаружила 14 товаров с "идентифицируемой се-

зонностью": "Рыба живая и охлажденная", "Молоко цельное пастеризован-

ное", "Сметана", "Творог жирный", "Сыры сычужные", "Яйца", "Картофель",

"Капуста свежая белокочанная", "Лук репчатый", "Свекла", "Морковь", "Ябло-

ки", "Куртка для детей школьного возраста", "Сапоги женские зимние".

С помощью этой программы мы посчитали для этих товаров стандартное

аддитивное разложение X-11 и использовали скорректированные данные в

расчетах усеченного среднего.

0.8

0.4

0

Рис. 3. Цена капусты, первые разности логарифмов

–0.4

апрель 1993

декабрь 1994

август 1996

апрель 1998

декабрь 1999

август 2001

Ступенчатая динамика. Некоторые цены товаров изменяются и/или реги-

стрируются редко, что приводит к прерывистой динамике наблюдаемого ря-

да. Это, прежде всего, имеет место для цен, устанавливаемыми правитель-

ственными органами, и других регулируемых правительством цен. Это так-

же важно принять во внимание при вычислении меры базовой инфляции.

Рис. 4 показывает характерный пример такого поведения, динамику цены

отправки письма по почте.

Ряды, имеющие такой вид, можно отличить формально, сравнивая квантили

выборочного распределения их приростов. Как ожидается, распределение

будет с "раздутым нулем" (выделяющаяся мода в нуле) с большим количе-

ством положительных выбросов (длинный правый хвост). Используемая

7

6

5

4

3

2

1

0.8

0.6

0.4

0.2

0

апрель 1993

декабрь 1994

август 1996

апрель 1998

декабрь 1999

август 2001

а

Рис. 4. Цена отправки письма по почте логариф-

мы (а), первые разности логарифмов (б)

б

статистика имеет такой вид:

0 95 0 05

2( 0 5 0 05 )

. .

. .

Q Q

Q Q

Рис. 5 показывает статистики для рядов.

Ряды с самой высокой статистикой — это поездка в метро, удостоверение

завещания в нотариальной конторе, отправка письма, отправка телеграммы

и поезд дальнего следования6. Для овощей из-за сезонности эти статистики

самые низкие.

"Ступенчатую динамику" можно сгладить некоторым фильтром скользящего

среднего. Мы использовали симметричный фильтр с весами 111, 13/111,

23/111, 33/111, 23/111, 13/111 и 3/111, чтобы сгладить ряды с "ступенчатой

статистикой" выше 7. Рис. 6 показывает результат для цены отправки пись-

ма по почте.

Результаты предварительной фильтрации. После корректировки сезон-

ный рисунок в асимметрии исчез (см. рис. 7). Средний коэффициент асим-

метрии был равен 1.42, а средний эксцесс — 13.0 в 1993–2001 гг. Таким об-

разом, после корректировки одномоментные распределения стали более

скошенными вправо и с менее выраженным эксцессом.

6 Для первых двух рядов статистики не определены из-за того, что знаменатель равен

нулю.

50 100 150

0.7

1.6

3.6

8

18

40

90

Рис. 5. Статистики для "ступенчатой динамики", лога-

рифмическая шкала

Авторы: 1379 А Б В Г Д Е З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

Книги: 1908 А Б В Г Д Е З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я