• 5

4.5.1. ХРАНИЛИЩЕ ДАННЫХ НАЛОГОВОЙ ИНСПЕКЦИИ

Хранилище данных - это предметно-ориентированная, интегрированная,

зависящая от времени, устойчивая совокупность

данных, используемая в системах поддержки принятия решений.

Термин «интегрированные данные» означает, что данные

собираются воедино из большого числа разделенных источников,

и при этом осуществляется их преобразование для выполнения

стандартных соглашений о форматах и именах.

Зависимость от времени в хранилище данных другая, чем в системах

оперативной обработки данных. Системы оперативной обработки

содержат текущие данные, постоянно обновляемые. В налоговой

системе срок актуальности таких данных - сдача годового

баланса предприятиями-налогоплательщиками. В среде хранилища

данных мы имеем дело с историческими данными, информация

отражает состояние налогоплательщика на определенный фиксированный

момент времени и обновляется не в реальном масштабе

времени, а периодически (ежедневно, еженедельно и т.д.).

Оно предназначено для хранения, оперативного получения

интегрированной информации по всем видам деятельности налоговой

инспекции и решения на ее основе ряда актуальных задач

налоговой инспекции. Кроме того, хранилище данных интегрирует

информацию, имеющуюся в исходных разнородных базах

данных, в единую результирующую базу данных, оптимально

спроектированную для поддержки процесса принятия решений.

Данные хранилища характеризуются следующими свойствами:

• предметная ориентация: данные организованы согласно предмету,

а не приложению. В частности, для налоговой инспекции

хранилище данных должно быть организовано по плательщикам

налогов по принципу «электронного досье»;

• интегрированностъ: в хранилище данные могут поступать из

разных приложений, использующих базы данных различных

структур, форматов и кодировок, которые в хранилище должны

быть едины для соответствующих данных;

• исторические данные: хранилище содержит данные, собранные

во времени. Они используются для сравнения, выявления

трендов и прогноза;

• неизменяемость: данные не должны обновляться или изменяться

после помещения их в хранилище, они только считы-

ваются или загружаются;

• большой объем и сложные взаимосвязи данных.

К основным категориям данных, которые располагаются в

хранилище, относятся:

• метаданные, описывающие способы извлечения информации

из различных источников, методы их преобразования из

различных структур и форматов и доставки в хранилище;

• фактические данные (архивы), отражающие состояние предметной

области в конкретные моменты времени, обеспечивающие

наибольший уровень детализации;

• итоговые данные, полученные на основе проведенных аналитических

расчетов на базе фактических данных. Итоговые

таблицы могут обеспечить эффективный доступ к данным

больших объемов, оптимизируя их необходимую обработку

при запрашивании пользователями повторяющегося суммирования

одной и той же информации.

В настоящее время существует множество подходов к построению

информационного хранилища, но для них всех характерны

следующие ключевые этапы:

• анализ информационных потребностей подразделений налоговой

инспекции;

• анализ потенциальных источников данных, составление словаря

метаданных;

• определение целевых структур данных и регламентирован*

ных процедур преобразования и согласования исходной информации;

• загрузка информации в хранилище;

• выборка, обработка и предоставление данных пользователям.

При построении информационного хранилища данных налоговой

инспекции (в части выбора аппаратной и программной

платформ) требуется учет перечисленных ниже параметров.

• Скорость загрузки. В хранилищах необходимо обеспечить периодическую

загрузку новых порций данных, укладывающихся

в достаточно узкий временной интервал. Требуемая

производительность процесса загрузки не должна накладывать

ограничения на размер хранилища.

• Технология загрузки. Загрузка новых данных в хранилище

включает преобразование данных, фильтрацию, переформатирование,

проверку целостности, организацию физического

хранения, индексирование и обновление метаданных. Это

дает возможность объединить разнородную информацию из

пакетов, применяемых в инспекциях.

• Управление качеством данных. В хранилище должна быть обеспечена

локальная и глобальная согласованность данных. Мера

качества построенного хранилища - объективность исходных

данных и степень разнообразия возможных запросов.

• Поддержка различных типов данных. В хранилище могут накапливаться

данные не только стандартных типов, но и более

сложных, таких, как текст, изображения и т.п., а также

уникальных типов, определяемых разработчиками.

• Скорость обработки запросов. Сложные запросы, важные для

принятия ответственных решений, должны обрабатываться

за секунды или минуты. Скорость обработки запроса должна

зависеть от его сложности, а не от объема БД.

• Масштабируемость. Хранилище данных налоговой инспекции

может, достигать объема в несколько сотен гигабайт.

СУБД, лежащая в основе хранилища, не должна иметь никаких

архитектурных ограничений и должна поддерживать

модульную и параллельную обработку, сохранять работоспособность

в случае локальных аварий и иметь средства восстановления.

• Обслуживание большого числа пользователей. Доступ к хранилищу

данных не ограничивается узким кругом специалистов

налоговой инспекции. Он должен поддерживать сотни

пользователей без снижения скорости обработки запросов.

• Сети хранилищ данных. СУБД должна содержать инструменты,

координирующие перемещение данных между хранилищами

региональных налоговых инспекций и МНС России, информационными

системами таможни, МВД, прокуратуры, органов

государственной власти и т.п. Пользователи должны

иметь возможность обращаться к нескольким хранилищам с

одной клиентской рабочей станции. Администраторы должны

быть способны управлять и выполнять административные функции

сети хранилищ из одного физического центра.

• Администрирование. СУБД должна обеспечить контроль за

приближением к ресурсным ограничениям, сообщать о зат-

ратах ресурсов и позволять устанавливать приоритеты для

различных категорий пользователей или операций, а кроме

того, уметь осуществлять трассировку и настройку системы

на максимальную производительность. Качество построенного

хранилища определяется удобством доступа к нему для

конечного пользователя.

• Интегрированные средства многомерного анализа. Для обеспечения

высокопроизводительной аналитической обработки

необходимы средства многомерных представлений, инструменты,

поддерживающие удобные функции создания предварительно

вычисленных суммарных показателей и автоматизирующие

генерацию таких предварительно вычисленных

агрегированных величин.

• Средства формирования запросов. Пользователь должен иметь

возможность проведения аналитических расчетов, последовательного

и сравнительного анализа, а также доступ к детальным

и агрегированным данным хранилища.

Авторы: 1379 А Б В Г Д Е З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

Книги: 1908 А Б В Г Д Е З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я