Хранилища данных и системы оперативного анализа данных (OLAP)

Добавлено: 18.06.2015

     Любая современная компания обладает своими собственными источниками данных. Информация в источниках накапливается посредством применения транзакционных технологий (OLTP) – ежедневно сотрудники компании отражают те или иные операции в информационной системе. Традиционные источники данных изначально разрабатывались так, чтобы содержать на 100%  ценную и существенную для компании информацию. Это было связано с ограничениями масштабируемости и недостаточными объемами дисковой памяти. С тех пор изменилось одно важное обстоятельство: больше нет ограничений на объем носителя. Это привело к тому, что большие потоки данных далеко не всегда представляют собой особую ценность. Необходимо отсортировать бесполезные данные и извлечь ценные и релевантные фрагменты информации. В этом случае всегда есть гарантия, что ничего не будет упущено, но усложняется процесс анализа данных. Более того лицо принимающее решения в компании не всегда может заранее определить, какая информация ему понадобится для принятия того или иного решения. Поэтому в крупных организация никогда не пренебрегают накоплением разнородных данных в информационных системах.  В настоящее время в корпоративных базах данных (БД) накоплены гигантские объемы информации, однако она недостаточно эффективно используется в процессе управления организацией, поэтому бурно развиваются технологии бизнес анализа (Business Intelligence – BI)1.

    Термин «Business Intelligence» достаточно неопределенный. На его неопределенность повлияла многозначность английского слова «intelligence»2. Сегодня теоретики и исследователи рынка BI зачастую расходятся в определении того, что же такое Business Intelligence. 

   Согласно первоначальным определениям (конца 1980-х годов), BI — это процесс анализа информации, выработки интуиции и понимания для улучшенного принятия решений бизнес-пользователями, а также инструменты для извлечения из данных значимой для бизнеса информации. Надо отметить, что большинство определений трактуют «business intelligence» как процесс, технологии, методы и средства извлечения и представления знаний.

     Определение, предложенное The Data Warehousing Institute3: «Business intelligence имеет отношение к процессу превращения данных в знания, а знаний в действия бизнеса для получения выгоды. Является деятельностью конечного пользователя, которую облегчают различные аналитические и групповые инструменты и приложения, а также инфраструктура хранилища данных».

   Другая часть определений рассматривает business intelligence не как процесс, а как результат процесса извлечения знаний: «Business Intelligence – знания, добытые о бизнесе с использованием различных аппаратно-программных технологий. Такие технологии дают возможность организациям превращать данные в информацию, а затем информацию в знания»4.

    Итак, в широком смысле:  бизнес аналитика (Business Intelligence) – это сбор и анализ больших объемов данных с целью формирования выводов, позволяющих принимать стратегически важные бизнес решения. BI представляет из себя набор технологий, методик и программного обеспечения, которые предоставляют инструментарий по сбору, хранению, доступу и анализу данных.

    В первом параграфе было описано отличие данных от информации – данные понимаются как реальность, которую компьютер записывает, хранит и обрабатывает. Информация – это то, что человек в состоянии понять о реальности, а знания – это то, что в бизнесе используется для принятия решений. В процессе организации информации для получения знания часто применяют хранилища данных, а для представления этого знания пользователям – инструменты бизнес-анализа – OLAP технологии. Информация сама по себе не очень подходит для принятия решений из-за ее огромного объема. Средства бизнес-интеллекта и хранилищ данных призваны находить в массах данных и информации то существенное, что реально прибавляется к полезным знаниям.

  Хранилище данных (Data warehouse) – представляет собой предметно-ориентированную, интегрированную, содержащую исторические данные и не разрушаемую совокупность данных, предназначенную для поддержки принятия управленческих решений. Определение дано Биллом Инмоном в  1991 году. Билл Инмон получил всеобщее признание как «отец концепции хранилища данных» после опубликования своей первой книги по этой теме – «Построение хранилищ данных/Building the Data Warehouse, QED/Wiley».

    В 1996 году Ральфом Кимбаллом  было предложено другое определение: хранилище данных – это  копия транзакционных данных целенаправлено структурированная для запросов и анализа. Ральф Кимбалл наряду с Биллом Инмоном считается родоначальником технологии современных хранилищ данных и OLAP. В течение многих лет он сохраняет убежденность в том, что при проектировании хранилищ данных нужно стремиться к их понятности и быстроте. Его книги по методам многомерного моделирования и проектирования хранилищ данных являются постоянными бестселлерами.

    Несмотря на разногласия между Инмоном и Кимбаллом, которые предлагали несколько разные интерпретации, фактически сам подход к разработке хранилищ данных не сильно изменился с тех времен. Основная идея хранилищ данных состоит в том, что данные из различных изолированных информационных систем объединяются, интегрируются, и результирующая выборка анализируется. Также проводится сравнение эффективности бизнеса на любом уровне, от отдельного департамента до всей корпорации.

    Интеграция оперативных данных в хранилище имеет много преимуществ. Хранилище данных может создаваться в следующих целях5:

    ·  интеграция текущих и исторических значений данных;

    · объединение данных из разрозненных источников;

    ·  создание надежной платформы данных для аналитических целей;

    · обеспечение однородности данных в организации;

    · облегчение внедрения корпоративных стандартов данных без изменения существующих операционных систем;

    · обеспечение широкой исторической картины и возможностей для анализа тенденций.

   Филипп Рассом (Philip Russom), директор TDWI Research6, считает, что развитие архитектуры хранилищ данных определят следующие тенденции:

  ·  Для поддержки бизнес-операций отчётность сегодня важнее, чем когда-либо. Во многих организациях отчёты являются основным механизмом для передачи ежедневной операционной информации. Если отчётность не предоставляется, останавливаются или замедляются бизнес-процессы. Хотя бы только по этой причине организации должны сохранять традиционные архитектуры хранилищ данных, которые в значительной степени ориентированы ну подготовку отчётов и другой формируемой на их основе информации, такой как управленческие панели, показатели для управления эффективностью и OLAP-отчеты.

   · Для развития нового бизнеса аналитика делает то же, что отчётность - для поддержки текущей деятельности. Многие организации расширяют инфраструктуру хранилищ данных, включая в неё новые автономные платформы данных, которые приспособлены для изучения данных, например, базы данных, использующие подход к хранению данных по колонкам, а также Hadoop и базы NoSQL.

   · Требования отделов уникальны, поэтому они всё чаще строят собственные «теневые» программы для BI и аналитики. Это происходит из-за того, что многим аналитическим приложениям свойственна ориентация на удовлетворение потребностей конкретных функциональных подразделений. С распространением аналитических приложений многие из них финансируются и спонсируются на уровне отдела, минуя централизованную программу по построению корпоративного хранилища данных. Чтобы не допустить превращения систем каждого подразделения в обособленные массивы данных, архитектура хранилища данных в этих организациях становится федеративной и соответствует концепции логического хранилища данных, так чтобы его архитектура охватывала несколько систем в нескольких департаментах7.

    Для всестороннего анализа информации в хранилищах данных используются OLAP технологии. Они позволяют рассматривать различные срезы данных, в том числе временные, позволяющие выявлять различные тренды и зависимости (по регионам, продуктам, клиентам и т.п.).

    OLAP (OnLine Analytical Processing – интерактивная аналитическая обработка данных)  –  один из способов представления и анализа данных. При этом информация хранится в виде многомерного куба с возможностью произвольного манипулирования ею. Многомерные модели рассматривают данные либо как факты с соответствующими численными параметрами, либо как текстовые измерения, которые характеризуют эти факты. Пример многомерной модели данных представлен на рис. 1.1.

111.jpg

Рис. 1.1 - Многомерная модель данных

    Актуальность применения OLAP технологий заключается в том, что они позволяют работать с данными в терминах предметной области без знания архитектуры хранения информации.

     В 1995 году Найджелсом Пендсом8  был сформулирован тест FASMI (от англ. Fast Analysis of Shared Multidimensional Information), который определял критерии для причисления систем к системам вида OLAP9:

   · FAST (Быстрый) – означает, что система должна обеспечивать выдачу большинства ответов пользователям в сжатые сроки. При этом самые простые запросы обрабатываются в течение одной секунды и очень немногие – более 20-ти.

  · ANALYSIS (Анализ) – означает, что система может справляться с любым логическим и статистическим анализом, характерным для данного приложения, и обеспечивает его сохранение в виде, доступном для конечного пользователя.

  · SHARED (Разделяемый) – означает, что система осуществляет все требования защиты конфиденциальности (возможно до уровня ячейки) и, если множественный доступ для записи необходим, обеспечивает блокировку модификаций на соответствующем уровне.

   · MULTIDIMENSIONAL (Многомерный)  – означает, что система должна обеспечить многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий. Многомерность является ключевым критерием.

   ·  INFORMATION (Информация)  –  требуемая информация должна быть получена там, где она необходима.

   OLAP системы не являются первичными источниками информации, они получают данные из внешних источников. Наиболее часто таким внешним источником является OLTP система (OnLine Transactional Processing – оперативная обработка транзакций) – система операционной обработки данных. OLAP системы и OLTP системы существенно различаются.

     Процесс работы с данными от OLTP систем до OLAP представлен на рис. 1.2.

111.jpg

Рис. 1.2 - Процесс работы с данными в информационных системах

Менеджмент

Информационные технологии обеспечения управленческой деятельности

Платное содержание

Заказать диплом

Ваша заявка успешно отправлена!

загрузка карты...

Адрес:

г. Москва, ул. Горбунова, д.12к2, стр.8
Офис А307Б  с 10 до 18


Телефон:

8(926) 010-16-66

форма обратной связи