Соискатель ученой степени к.т.н. Козин А.Г.

Научный руководитель – д.т.н., профессор Гагарина Л.Г.

Московский государственный институт электронной техники

Создание комплексного подхода к анализу и хранению консистентных исторических данных

Технологии информационных хранилищ получили развитие из-за недостатка данных для принятия стратегических решений при управлении компанией. В связи с увеличивающейся стабильностью операционных систем, специалисты в области информационных технологий стали уделять пристальное внимание подготовке данных, необходимых для управления компанией.

Информационное хранилище – это набор связанных объектно-ориентированных баз данных, разработанных для получения и предоставления информации, необходимой для принятия управленческих решений. Каждая единица информации в хранилище привязана к определенному периоду времени.

В работе рассматривается комплексный подход к анализу и хранению консистентных исторических данных. Основу данного подхода составляет база данных информационного хранилища. Логически база данных разделена на три блока:

1)     таблицы с данными систем;

2)     таблица времени;

3)     таблицы с метаданными и протоколами переноса.

Рассмотрим каждый из этих блоков.

 

1. Таблицы с данными систем.

Это основной блок хранилища. В нем реализован единый подход к хранению всех поступающих в хранилище данных  из различных источников (систем).

Данные из внешних систем можно логически разделить на сущности, где сущность – это набор данных, обладающий одинаковыми характеристиками. Каждая сущность обладает набором атрибутов.

Каждая сущность имеет специальный атрибут, называемый идентификатором или первичным ключом, который служит для уникальной идентификации каждой записи. Некоторые сущности зависят от других сущностей. Зависимость строится с помощью специальных атрибутов, называемых внешними ключами. В некоторых сущностях, помимо первичного ключа, записи могут быть уникально идентифицированы еще и каким-то другим атрибутом или набором атрибутов. Такой атрибут (набор атрибутов) называется натуральным ключом.

Для унификации, всем сущностям, при переносе в хранилище, назначаются новые идентификаторы. Сопоставления с исходными идентификаторами хранятся в системе наряду с версионными данными для каждой сущности.

Если в исходной системе сущность представлена, как правило, одной таблицей, то в хранилище она представлена пятью. В каждой из этих таблиц (за исключением одной, хранящей сопоставления) есть поля атрибутов сущности, а также служебные поля, набор которых зависит от назначения:

·        RAW_<Entity> – таблицы для хранения, начальной проверки и сопоставления полученных из систем данных. В этих таблицах поля первичного и внешних ключей дублируются для записи сопоставленных идентификаторов, которые в дальнейшем будут использоваться в хранилище.

·        ST_<Entity>_Map – таблицы для хранения сопоставлений идентификаторов (первичных ключей).

·        ST_<Entity> – в эти таблицы данные попадают после успешного проведения сопоставлений. Здесь проводится проверка ссылочной целостности, уникальности первичных ключей, расчет путей и уровней для иерархий с одновременной проверкой на циклические ссылки.

·        DW_<Entity> – в этих таблицах хранятся все, когда-либо попадавшие в хранилище записи сущностей в своем последнем состоянии. Данные попадают в эти таблицы после успешной проверки в ST_<Entity>.

·        DW_<Entity>_Ver – в этих таблицах хранятся все, когда-либо зафиксированные, срезы данных. В целях экономии дискового пространства, одна запись может отражать состояние записи из нескольких срезов, при условии, что она (запись) не менялась.

 

2. Таблица времени.

Для удобства расчетов и поиска данных по временным характеристикам, каждое поле времени, во всех сущностях, где такие поля есть, продублировано дополнительным полем с кодом времени. Конкретный код времени идентифицирует конкретную дату. Код времени – это целое восьмизначное число, в котором первые четыре цифры представляют год, следующие две – номер месяца и последние две – номер дня в месяце. Такой подход позволяет перейти к целочисленным операциям при сравнении.

 

3. Таблицы с метаданными и протоколами переноса.

В этих таблицах хранится служебная информация, необходимая для работы процедур хранилища, среди них можно выделить справочники состояний, список сущностей и атрибутов сущностей, таблицы с правилами для генерации структуры хранилища.

 

Дальнейшие исследования, направленные на разработку системы анализа, обработки и хранения консистентных исторических данных позволят сократить расходы на аппаратное и программное обеспечение при построении информационных хранилищ, что приведет к более быстрому возврату инвестиций.