Современные информационные технологии/3. Программное
обеспечение
магистрант Моложенко
Е.С.,
руководитель направления ПО и бизнес систем
Люстров В.В.
Новосибирский
государственный технический университет, Россия
Архитектурные
особенности BI решений
Сегодня многие
организации приняли Business Intelligence (BI) в качестве катализатора для удовлетворения потребностей бизнеса и
для повышения эффективности организации.
Business
Intelligence - это процесс, технологии, методы и средства извлечения,
представления и анализа информации, выработки интуиции и понимания для
улучшенного и неформального принятия решений бизнес-пользователями, а также
инструменты для извлечения из данных значимой для бизнеса информации. Иначе, BI
- это совокупность технологий, программного обеспечения и практик, направленных
на достижение целей бизнеса путём наилучшего использования имеющихся данных.
Получить лучшее видение картины бизнеса благодаря информации, основанной на
более полных фактических данных, сложных моделях, или даже принимать те же
решения, но раньше других компаний - это тот путь, на котором современные
предприятия выигрывают в конкурентной борьбе. Это объясняет, почему BI остается наиболее
приоритетным направлением для руководителей информационных служб за последние
пять лет. Все больше и больше организаций начинают осознавать значение BI и
можно ожидать, что рынок будет расти быстрыми темпами. По данным Gartner к 2014
году BI рынок достигнет отметки в $11.3 млрд.
Хотя BI решения
стали более надежными и популярными, некоторые организации до сих пор не могут
получить максимальную отдачу от их BI инвестиций. Одной из причин этому
является отсутствие хороших BI-архитектур для поддержки внедрения таких систем.
Наличие солидной архитектуры поможет организациям лучше контролировать процесс внедрения,
а также последующей работы всей BI среды. Обзор литературы показывает, что,
хотя важность хорошей BI-архитектуры является бесспорной, исследований в этой
области по-прежнему не хватает. Чтобы заполнить этот пробел, в настоящей статье
предлагается рассматривать BI-архитектуру, которая состоит из пяти уровней: data source, ETL, data warehouse, end user, и metadata layers.
Обзор литературы
показал, что на настоящий момент существует несколько BI-архитектур (например,
Baars & Kemper, 2008; Balaceanu, 2007; Shariat & Hightower, 2007;
Turban et al., 2008; Watson, 2009). Эти архитектуры являются различными в своей
структуре, количестве уровней, компонентов, процессов и других показателей
(Shariat & Hightower, 2007). Однако, есть некоторые общие компоненты, среди
этих BI архитектур. Например, архитектуры Shariat & Hightower (2007) и
Turban et al. (2008) содержат хранилища данных, приложения конечных
пользователей и BI портал. Тем не менее, несколько важных компонентов
отсутствуют в этих BI-архитектурах: средства для аналитики и отчетности, прогнозирования
и визуализации. Эти функции являются новыми BI возможностями, которые являются
важными и должны быть включены в любую BI-архитектуру.
Кроме того,
существующие BI архитектуры, как правило, имеют функцию только однонаправленной
коммуникации между различными компонентами системы. Архитектуры, предложенные в
Baars & Kemper (2008) и Shariat & Hightower (2007), являются хорошими
примерами, где имеется только один способ передачи данных из источников данных
в хранилище данных.
Еще одна проблема с
существующими аналитическими архитектурами является отсутствие механизмов для
управление метаданными. Хорошая BI архитектура должна включать в себя уровень
метаданных. Репозиторий метаданных имеет важное значение для
бизнес-пользователей, для хранения и стандартизации метаданных в различных
системах. Имея хорошо структурированные метаданные, организации смогут
отслеживать и контролировать потоки данных в пределах их BI инфраструктуры.
Кроме того, они смогут обеспечить согласованность определений и описаний
данных, поддерживать BI компоненты и, таким образом, избежать непонимания и
искажения данных.
Помимо этого, в
некоторые архитектуры не входит оперативное хранилище данных (ODS). Например,
BI-архитектура Watson (2009) содержит только хранилища данных и витрины данных,
в тоже время Baars & Kemper (2008) и Turban et al (2008) включают только
хранилище данных. Для решения оперативных потребностей важно иметь ODS для
обеспечения текущей комплексной информации, которая должна быть доступна бизнес-пользователям.
Таким образом, лица, принимающие решения смогут быстрее реагировать на
изменение бизнес-условий и требований.
Предлагаемая BI архитектура
В настоящей статье
предлагается пяти уровневая архитектура BI решений, принимая
во внимание значение и качество данных, а также информационных потоков в
системе. В соответствии с рисунком 1 представлено пять уровней BI архитектуры:
источники данных, ETL (Extract-Transform-Load), хранилища данных, конечные
пользователи, и уровень метаданных.

Рисунок 1.
Пяти уровневая BI архитектура
Уровень источников данных
В настоящее время
во многих областях применения требуется использование структурированных, неструктурированных,
а также слабоструктурированных данных для принятия эффективных и своевременных
решений. Все эти данные могут быть получены из двух типов источников: внутренних
и внешних.
Внутренний источник
предоставляет данные из CRM, ERP и других подобных систем. Внутренние источники
данных включают данные, относящиеся к бизнес-операциям (т.е., клиентам, продуктам,
и данным по продажам).
Внешний источник предоставляют
данные, которые относятся к организациям и процессам, происходящим вне
предприятия. Данные могут быть собраны из внешних источников, таких, как
бизнес-партнеры, Интернет-ресурсы, данные правительства, или данные
исследований рынка.
ETL (Extract-Transform-Load) уровень
Этот уровень
фокусируется на трех основных процессах: извлечении, преобразовании и загрузке.
Извлечение - это процесс выявления и сбора соответствующих данных из разных
источников. Как правило, данные полученные от внутренних и внешних источников
не интегрированы, имеют неполноту, и могут быть продублированы. Таким образом,
процесс извлечения необходим для выбора данных, которые являются важными в
поддержке организационных решений.
Извлеченные данные
затем передаются в области временного хранения, называемые плацдармом данных до
преобразования и процесса очищения. Это сделано, чтобы избежать необходимости
повторного извлечения данных. После этого данные будут идти через процесс преобразования
и очищения. Трансформация - это процесс преобразования данных с помощью набора
бизнес-правил (таких, как функции агрегирования) в соответствии с определенным форматом
для отчетности и анализа. Процесс преобразования данных включает определение
бизнес-логики для передачи данных, отображение и стандартизацию определений
данных в целях обеспечения последовательности в организации. Очистка данных
представляет собой процесс выявления и исправления ошибок данных, основанных на
заранее установленных правилах. Если есть ошибки, найденные на извлеченных
данных, то они отправляются обратно в источник данных для коррекции. Загрузка -
это последняя фаза ETL процесса. После этого данные из промежуточной области
загружаются в целевое хранилище.
Уровень хранилищ данных
Есть три компонента
на уровне хранилищ данных, а именно хранилище оперативных данных, хранилище
данных и витрины данных. Потоки данных из хранилища оперативных данных
отправляются в хранилище долговременных данных, а затем отправляются в витрины
данных.
Хранилище оперативных данных
Хранилище оперативных
данных используется, чтобы интегрировать все данные с ETL уровня и их загрузки
в хранилище данных. ODS представляют из себя базу данных, которая хранит
субъектно-ориентированные, подробные и актуальные данные из нескольких источников
для поддержки тактических решений. Она обеспечивает комплексный подход в режиме
реального времени. Как таковой, ODS не хранит каких-либо долговременных данных. Как
правило, ODS предназначен для поддержки оперативной обработки и удовлетворения
потребности в отчетности конкретной заявки на предоставление данных во многих
различных бизнес-приложениях. Это, как правило, используется менеджерами среднего
звена для ежедневного управления и принятия решений. Поскольку данные,
хранящиеся в ODS регулярно обновляются (т.е., в течение нескольких минут или часов), он
полезен для отчетности, требующихся в реальном времени (в течение 15 минут) или
в ближайшее время (обновление от 15 минут до 1 часа).
Хранилища данных
Хранилища данных
является одним из наиболее важных компонентов BI-архитектуры. Хранилища данных
содержат огромные объемы информации, охватывающей все доступные стороны
деятельности предприятия и позволяющие рассматривать все аспекты функционирования
бизнеса в совокупности. Для решения более узких, конкретных задач из общего
хранилища могут вычленяться подмножества данных – так называемые витрины данных
(data marts).
Витрины данных
В то время как
данные в хранилище данных - в основном используются для поддержки различных
потребностей всей организации в целом, витрины данных предназначены для
удовлетворения потребностей конкретных подразделений организации. Витрины
данных являются подмножеством хранилищ данных, и используются для поддержки аналитических
потребностей конкретной бизнес-функции или отдела. Хранилища и витрины данных
строятся на основе многомерной модели данных, которая состоит из таблиц фактов
и измерений.
Уровень метаданных
Метаданные – это
структурированные данные, представляющие собой характеристики описываемых
сущностей для целей их идентификации, поиска, оценки, управления ими. Репозиторий
метаданных используется для хранения технической и бизнес информация о данных,
а также бизнес правила и определения данных. Хорошее управление и использование
метаданных могут уменьшить время разработки, упростить техническое
обслуживание, и предоставлять пользователям полезную информацию о данных.
Уровень конечных пользователей
Уровень конечных
пользователей включает в себя инструменты для отображения информации в
различных форматах. Эти инструменты могут быть сгруппированы иерархически в
форме пирамиды (как показано на Рис. 1). От основания к вершине пирамиды степень
комплексности, на которой данные обрабатываются и представляются, повышается. Таким
образом, показана особенность увеличения сложности в принятии решений, при движении
вверх по организационной иерархии. Например, самый высокий уровень пирамиды состоит
из аналитических приложений, которые обычно используются топ-менеджментом, а самый
низкий уровень состоит из запросов и инструментов отчетности, которые
используются, в основном, на уровне оперативного управления.
Query and reporting tools
Очень полезны средства,
которые позволят конечным пользователям делать быстрые запросы и подготавливать
отчеты для принятия решений и управления целями. Есть много различных типов отчетов,
в том числе стандартных отчетов, специализированных отчетов, отчетов бюджетирования
и планирования, и отчетов метаданных.
OLAP (Online Analytical Processing)
Для всестороннего
анализа данных в современных BI решениях используются OLAP-инструменты (online
analytical processing). Они позволяют рассматривать различные срезы данных, в
том числе временные, позволяющие выявлять различные тренды и зависимости (по
регионам, продуктам, клиентам и т.п.).
OLAP – это технология
обработки данных, заключающаяся в подготовке суммарной (агрегированной)
информации на основе больших массивов данных, структурированных по многомерному
принципу.
Причина
использования OLAP для обработки запросов — это скорость. Реляционные БД хранят
сущности в отдельных таблицах, которые обычно хорошо нормализованы. Эта
структура удобна для операционных БД, но сложные многотабличные запросы в ней
выполняются относительно медленно.
OLAP-структура,
созданная из рабочих данных, называется OLAP-куб. Куб создаётся из соединения
таблиц с применением схемы звезды или схемы снежинки. В центре схемы звезды
находится таблица фактов, которая содержит ключевые факты, по которым делаются
запросы. Множественные таблицы с измерениями присоединены к таблице фактов. Эти
таблицы показывают, как могут анализироваться агрегированные реляционные
данные. Количество возможных агрегирований определяется количеством способов,
которыми первоначальные данные могут быть иерархически отображены.
Data Mining
Data Mining - cобирательное название, используемое для
обозначения совокупности методов обнаружения в данных ранее неизвестных,
нетривиальных, практически полезных и доступных интерпретации знаний,
необходимых для принятия решений.
В наиболее развитые
BI-решения включены блоки для глубокого исследования данных (data mining).
Иногда этот термин ошибочно используют для обозначения инструментов,
позволяющих по-новому представить (отобразить) информацию, однако на самом деле
эти инструменты призваны помочь в выявлении скрытых (неочевидных)
закономерностей, моделей, составления прогнозов. Они основаны на сканировании и
статистической обработке огромных массивов данных и в конечном итоге призваны
облегчить принятие правильных и обоснованных стратегических решений благодаря
анализу различных вариантов развития событий. В качестве инструментов
используются нейронные сети, деревья решений.
Data Visualisation Tools
Общепринятым
средством визуализации данных в современных BI-решениях являются информационные
(контрольные, приборные) панели (dashboards), на которых результаты
отображаются в виде шкал и индикаторов, позволяющих контролировать текущие
значения выбранных показателей, сравнивать их с критическими
(минимально\максимально допустимыми) значениями и таким образом выявлять
потенциальные угрозы для бизнеса.
Контрольные панели
считаются одним из наиболее удобных способов представления информации о
«состоянии здоровья» бизнеса. Они позволяют уместить на экране всю важнейшую
информацию о текущих операциях, выявленных и потенциальных проблемах.
Аналитические приложения
Аналитические
приложения обеспечивают такие функции, как моделирование, прогнозирование,
анализ продаж и др. Эти приложения могут быть использованы для поддержки
внутренних и внешние бизнес-процессов.
Для бесперебойной
работы BI решения, все пять уровней, описанных в этой статье, должны быть связаны
вместе систематическим образом. Данные, приходящие из внутренних и внешних источников
должны быть получены, преобразованы, и загружены в хранилище данных. Когда
данные проходят через ETL уровень, они могут перемещаться в обоих направлениях,
как в ODS (и затем в хранилище данных) или в хранилища данных напрямую. Поскольку
хранилища данных разработаны для использования всей организацией, данные из хранилища
отправляются в витрины данных для выполнения конкретных эксплуатационных
потребностей. На уровне конечных пользователей, данные из ODS, хранилищ
данных, и витрин данных могут быть доступны для различных инструментов, таких
как создание запросов и отчетов, аналитических приложений и др. Наконец, есть
централизованный репозиторий метаданных, связанный с различными компонентами,
такими как ETL уровень, уровень хранилищ данных, и уровень конечных
пользователей.
Обратите внимание,
что потоки данных между компонентами, предлагаемыми в рамках этой статьи,
являются разнонаправленными. Такой подход преодолевает ограничения однонаправленных
потоков данных во многих существующих BI архитектурах. Разнонаправленный поток
может повысить производительности и улучшить точность, потому что при ошибке
данных на одном из уровней можно вернуться на предыдущий уровень для уточнение
и исправления ошибки. Например, если ошибка данных была найдена на ETL уровне,
данных могут быть отправлены обратно в уровень источников данных (т.е.,
внутренних источников) для модификации. Тем не менее, поток данных из внешних
источников на ETL уровень - это только однонаправленный поток.
Заключение
Эта статья предлагает
пяти уровневую архитектуру BI решений. BI-архитектура играет важную роль и
влияет на успех BI системы. Имея хорошую BI-архитектуру, организации будут иметь
возможность получения максимальной отдачи от их BI инвестиций, и таким образом
удовлетворят свои бизнес-требования и улучшат свою бизнес-деятельность. Архитектура,
предложенная в этой статье носит концептуальный характер, однако она построена
на базе существующих архитектур.
Литература:
1.
Azvine, B., Cui, Z.
& Nauck, D. D.
, «Towards Real-time Business Intelligence» BT Technology Journal, 2005.
2.
Balaceanu, D., «Components
of a Business Intelligence Software Solution»
Informatica Economica, 2007.