Информационные хранилища

Использование баз данных на предприятии не дает желаемого результата от автоматизации деятельности предприятия. Причина проста: реализованные функции значительно отличаются от функций ведения бизнеса, так как данные, собранные в базах, не адекватны информации, которая нужна лицам, принимающим решения. Решением данной проблемы стала реализация технологии информационных хранилищ.

Информационное хранилище (data warehouse) — это автоматизированная система, которая собирает данные из существующих баз и внешних источников, формирует, хранит и эксплуатирует информацию как единую. Оно обеспечивает инструментарий для преобразования больших объемов детализированных данных в форму, которая удобна для стратегического планирования и реорганизации бизнеса и необходима специалисту, ответственному за принятие решений. При этом происходит "слияние" из разных источников различных сведений в требуемую предметно-ориентированную форму с использованием различных методов анализа.

Особенность новой технологии в том, что она предлагает среду накопления данных, которая не только надежна, но по сравнению с распределенными СУБД оптимальна, с точки зрения доступа к данным и манипулирования ими.

Для данных информационного хранилища характерны:

• предметная ориентация; данные организованы в соответствии со способом их применения;

• интегрированность; данные согласуются с определенной системой наименований, хотя могут принадлежать различным источникам и их формы представления могут не совпадать;

• упорядоченность во времени; данные согласуются во времени для использования в сравнениях, трендах и прогнозах;

• неизменяемость и целостность; данные не обновляются и не изменяются, а только перезагружаются и считываются, поддерживая концепцию "одного правдивого источника".

Использование метабазы для описания и управления данными, операции суммирования для уменьшения объема данных увеличивают скорость доступа к данным, позволяя руководителю быстро получить обзор ситуации или в деталях рассмотреть нужный предмет. При этом обеспечивается секретность данных, предназначенных различным уровням руководителей.

Метабаза содержит метаданные, которые описывают, как устроены данные, частоту изменения, откуда приходят существенные части данных (разрешаются ссылки на распределенные базы данных на разных платформах), как они могут быть использованы, кто может пользоваться данными.

Управленческому персоналу метабаза предлагает предметно-ориентированный подход, показывая, какая информация имеется в наличии, как она получена, как может быть использована. Приложениям метабаза обеспечивает интеллектуальный выбор требуемой им информации.



В информационных хранилищах используются статистические технологии, генерирующие "информацию об информации"; процедуры суммирования; методы обработки электронных документов, аудио-, видеоинформации, графов и географических карт.

Для уменьшения размера информационного хранилища до минимума при сохранении максимального количества информации применяются эффективные методы сжатия данных.

Для преобразования данных из хранилища в предметно-ориентированную форму требуются языки запросов нового поколения. Язык SQL не обеспечивает выборку требуемых данных из хранилища.

Руководителям предприятия данные доступны посредством SQL-запросов, инструментов создания интерактивных отчетов на экране, более развитых систем поддержки принятия решений, многомерного просмотра данных посредством гипертекстовой технологии.

Для хранения данных обычно используются выделенные серверы, или кластеры серверов (группа накопителей, видеоустройств с общим контроллером). В последнее время появилось много оптических устройств хранения данных с высокой емкостью. Среди них можно выделить CD-RОМ (оптические диски только для чтения), WORM (диски с однократной записью), МО (магнитооптические диски стираемые и перезаписываемые), оптические библиотеки (позволяют вручную менять диски в дисководах), библиотеки – автоматы (смена дисков производится автоматически, так называемая технология Jukebox). Для доступа и размещения данных на таких устройствах разработано много файловых систем. Из них можно выделить Hierarchical Storage Management (HSM), реализующую функции иерархического хранилища и миграции данных (Data Migration). HSM-система создает как бы "продолжение" дискового пространства файлового сервера, доступного приложениям. При конфигурации HSM указывается, какая часть пространства сервера отводится для обмена с библиотеками. Как только это пространство становится занятым и требуется подкачка данных, из библиотеки реализуется миграция данных. Наименее используемые файлы переносятся в библиотеку - автомат, а из последней перекачиваются на сервер требуемые файлы. Если приложение потребует обращения к "унесенному" файлу, HSM попросит приложение подождать, пока не вернет файл на сервер. Все перемещения выполняются автоматически и приложения не подозревают о наличии вторичных устройств хранения.



Для доступа к серверам и их взаимосвязи требуются технологии, удовлетворяющие следующим условиям:

• малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователя, второй - ответы. Для формирования ответа требуется время. Но так как число пользователей велико, время ответа становится неопределенным. Для обычных данных такая задержка не существенна, а для мультимедийных, -.существенна;

• высокая пропускная способность. Так как данные могут находиться в разных базах, требуется синхронизация при формировании ответа, тем более, что рассмотренные базы могут находиться на значительных расстояниях друг от друга. Поэтому для обеспечения сбалансированной нагрузки требуется скорость передачи не менее 100 Мбит/с;

• надежность. При работе с кластерами серверов интенсивный обмен данными требует, чтобы вероятность потери пакета была очень мала;

• возможность работы на больших расстояниях. Если серверы кластера удалены друг от друга, то требуется технология, обеспечивающая передачу со скоростью 100 Мбит/с на расстояние не менее 1 км.

Всем этим требованиям удовлетворяет ATM-технология, хотя распространены и по многим показателям дают хорошие результаты технологии Fast Ethernet, Fibre Channel и др.

Примером информационного хранилища может служить Oracle VLM, разработанная фирмами Oracle и Digital. Платформой является Digital Unix для 64-разрядной архитектуры Digital AXP, преодолевшей на аппаратном уровне четырехгигабайтовый барьер адресного пространства оперативной памяти. Платформы Digital AlphaServer 8200 и AlphaServer 8400 уже сейчас позволяют адресоваться к оперативной памяти емкостью 14 Гбайт, и планируется расширить эту границу за 50 Гбайт. Вторая базовая операционная система фирмы Digital Open - VMS 7.0.

В информационном хранилище Oracle VLM увеличился o6ъем кэш-памяти (быстродействующей памяти) для обмена с сервером базы данных, что сократило время обращения к диску с миллисекунд до микросекунд. Например, "маленькая" база данных объемом 5 Гбайт целиком загружается в кэш-память. Поскольку кэш-память базы данных является частью системной области памяти SGA, Oracle VLM фактически снимает ограничения на ее размер и оперирует с "большой системной областью памяти LSGA".

Увеличился максимальный размер обрабатываемого блока базы данных до 32 Кбайт. Обычно он равнялся 2 Кбайтам, а максимальный -— 8 Кбайтам. Обрабатываемый блок базы данных содержит управляющую часть (заголовок) и собственно данные. Если данные (графика, аудио-, видеоданные, изображения) не помещаются в блок целиком, строится цепочка блоков.

Использование информационных хранилищ дает существенный выигрыш по производительности в системах принятия решений, в системах обработки большого числа транзакций с большим объемом обновления данных.

Технологию VLM можно рассматривать как альтернативу использованию SMP (мультипроцессорных систем), получая выигрыш в производительности.

Корпорация Red Brick Systems (Лос-Гатос, штат Калифорния) выпустила Red Brick Warehouse 5.0 - информационное хранилище, имеющее средства оперативной аналитической обработки информации, поддержки принятия решений и многомерных баз данных. Поддерживается обработка SQL-запросов. Кроме того, разработано специальное расширение языка SQL, получившее название RISQL, ориентированное на организацию анализа деловой информации. Обеспечен графический интерфейс для работы с приложениями Windows NT. Посредством программного компонента Data Mine Builder, разработанного в компании Data Mine (Редвуд-Сити, штат Калифорния), обеспечиваются поиск закономерностей, выявление тенденций и взаимозависимостей, а также другие аналитические операции на очень крупных массивах данных для множества одновременно работающих пользователей.


6704009408509320.html
6704027704521541.html
    PR.RU™