• 5

5.6. ПОСТРОЕНИЕ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ

Для построения и успешного применения статистических

моделей (если имеется в виду применение модели двоичного отклика

вместе с регрессионной моделью) требуется выполнить

пять этапов, которые мы кратко опишем ниже.

На первом этапе для каждой из моделей необходимо

составить список переменных, которые потенциально могли бы

выполнять роль объясняющих. В случае, если имеется модель бинарного

отклика, эти переменные будут сигнализировать о правдоподобии

того, что имеется уход от налогов, т.е. что налоговая

база была задекларирована не полностью. В случае регрессионной

модели объясняющие переменные будут предсказывать, на

какую сумму занижены причитающиеся налоги, если они занижены.

Выбор показателей - кандидатов на роль объясняющих

переменных может опираться на прошлый опыт, на интуицию,

может производиться методом проб и ошибок. Поскольку большинство

переменных, которые сигнализируют о наличии или

отсутствии ухода от налогов, скорее всего будет также связано и

с размером этого «ухода», т.е. с тем, насколько велика или мала

сумма занижения, мы рекомендуем включить в списки потенциальных

объясняющих переменных по той и другой модели одни

и те же переменные.

На втором этапе с помощью специальной методологии

из составленных на первом шаге списков переменных для

каждой модели выбираются те, которые лучше всего «работают

», т.е. производится сокращение списков, в них оставляются

только самые лучшие предсказатели. Среди статистиков до сих

пор нет единого мнения о том, какой именно метод построения

спецификации модели (т.е. какой именно метод выбора объясняющих

переменных) является наилучшим. Таких методов существует

довольно много, но основных всего три -метод включений,

метод исключений и пошаговый метод. В примере, который

мы рассмотрим ниже, сравниваются результаты использования

всех трех методов по каждой модели.

Метод включений, или метод «прямого отбора», заключается

в том, что вначале строится модель, в которой зависимая переменная

зависит от одной объясняющей переменной, и в такую

модель последовательно подставляются все объясняющие переменные

из списка по очереди. Та переменная, /-статистика (распределение

Стьюдента) которой окажется самой высокой, считается

выбранной для включения в модель на постоянной основе.

Затем точно так же последовательно перебираются все

возможные спецификации, где моделируемая переменная зависит

от двух объясняющих переменных, одна из которых уже выбрана

на первом шаге, и опять выбирается та переменная, которая

дает наибольшую /-статистику. Затем перебираются все возможные

трехфакторные спецификации, когда две переменные уже

известны, а третья - нет и т.д. Процесс продолжается до тех пор,

пока ни одна из остающихся не включенными в модель объясняющих

переменных не сможет дать r-статистику, превышающую

некоторый выбранный уровень значимости (например, 0,1).

Метод исключений, или обратного выбора, начинается с того,

что оценивается модель, в которую включены все возможные

объясняющие переменные. Затем из нее по одной удаляются переменные,

дающие наименьшую /-статистику, и так продолжается

до тех пор, пока в модели не останутся только такие объясняющие

переменные, /-статистика которых превышает некоторый

выбранный порог значимости (например, 0,1).

Метод пошагового отбора начинается так же, как метод

последовательных включений, однако в отличие от этого метода

включенная на каком-то шаге переменная может на некотором

последующем шаге быть исключена из модели. При включении

в модель каждой новой переменной производится проверка

того, не упала ли /-статистика каких-либо из ранее включенных

в модель переменных ниже допустимого уровня значимости (например,

ниже 0,1). Если это произошло, переменные с такими

низкими /-статистиками из модели исключаются, и все повторяется

на новом шаге. Процесс выбора завершается тогда, когда

среди включенных в модель переменных не окажется таких, чьи

/-статистики оказывались бы ниже требуемого порога значимости,

и при этом ни одна из не включенных в модель переменных

не будет иметь /-статистику, превышающую требуемый для включения

в модель порог значимости.

На третьем этапе окончательно специфицированные

и оцененные модели применяются (желательно обе) ко всем поданным

налоговым декларациям для расчета ожидаемой продуктивности

проверки соответствующих плательщиков. Декларации,

получившие самые высокие оценки продуктивности, отмечаются

как кандидаты на проведение документальной проверки.

На четвертом этапе подготовленный список условно

выбранных плательщиков передается опытному налоговому инспектору

(эксперту-классификатору), который рассматривает

выбранные декларации и решает, заслуживают ли они того, чтобы

по ним была проведена налоговая проверка, и если заслуживают,

то на какой вопрос или вопросы должны обратить внимание

проверяющие.

На пятом этапе проводится проверка выбранных налогоплательщиков,

и результаты проведенной проверки заносятся

в базу данных. Эта расширенная база данных используется

затем для обновления модели выбора плательщиков для использования

ее в следующем году.

Чтобы подобную систему можно было разработать и внедрить

на практике, необходимо, чтобы налоговые инспекции

ввели у себя подобающие процедуры сбора и ввода в компьютер

необходимых для такого анализа данных. Когда необходимая

для проведения такого анализа база данных будет создана, построить

статистические модели выбора налогоплательщиков

будет несложно.

Авторы: 1379 А Б В Г Д Е З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

Книги: 1908 А Б В Г Д Е З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я