Система аналитической обработки информации. Особые потребители корпоративной информации. Выявление стойких взаимосвязей между атрибутами и числовыми параметрами

Страницы работы

Фрагмент текста работы

Лекция.      Основы OLAP

В отличие от традиционных реляционных СУБД, концепция OLAP (Online Analytical Processing) не так широко известна, хотя загадочный термин «кубы OLAP» слышали, наверное, почти все. 

OLAP — это совокупность концепций, принципов и требований, лежащих в основе программных продуктов, облегчающих аналитикам доступ к данным. 

Аналитики — это особые потребители корпоративной информации. Задача аналитика — находить закономерности в больших массивах данных. 

Во-первых, аналитику одной записи мало — ему, к примеру, могут понадобиться все сделки данного филиала за месяц или год. 

Во-вторых, аналитик отбрасывает ненужные ему подробности вроде ИНН покупателя, его точного адреса и номера телефона, индекса контракта и тому подобного. В то же время данные, которые требуются аналитику для работы, обязательно содержат числовые значения.

В-третьих, эти данные носят характер «набор атрибутов — число». 

Последнее означает, что аналитик работает с таблицами

Страна

Товар

Год

Объем продаж

Россия

Телевизоры

2031

Россия

Телевизоры

2002

378

Россия

Телевизоры

2003

456

Россия

Видеомагнитофоны

2001

123

Россия

Видеомагнитофоны

2002

156

Россия

Видеомагнитофоны

2003

167

Украина

Телевизоры

2001

221

Украина

Телевизоры

2002

321

Украина

Телевизоры

2003

399

Украина

Видеомагнитофоны

2001

66

Украина

Видеомагнитофоны

2002

99

Украина

Видеомагнитофоны

2003

110

Белоруссия

Телевизоры

2001

186

Белоруссия

Телевизоры

2002

286

Белоруссия

Телевизоры

2003

364

Белоруссия

Видеомагнитофоны

2001

31

Белоруссия

Видеомагнитофоны

2002

64

Белоруссия

Видеомагнитофоны

2003

75

Здесь «Страна», «Товар», «Год» являются атрибутами, а «Объем продаж» — тем самым числовым значением. Задачей аналитика является выявление стойких взаимосвязей между атрибутами и числовыми параметрами.  

Посмотрев на таблицу, можно заметить, что ее легко перевести в три измерения: по одной из осей отложим страны, по другой — товары, по третьей — годы. А значениями в этом трехмерном массиве у нас будут соответствующие объемы продаж. Вот именно такой трехмерный массив в терминах OLAP и называется кубом

На самом деле, с точки зрения строгой математики, кубом такой массив будет далеко не всегда: у настоящего куба количество элементов во всех измерениях должно быть одинаковым, а у кубов OLAP такого ограничения нет. Тем не менее, несмотря на эти детали, термин «кубы OLAP» ввиду своей краткости и образности стал общепринятым. 

1.  Куб OLAP совсем не обязательно должен быть трехмерным. Он может быть и двухмерным, и многомерным — в зависимости от решаемой задачи. 

Особо матерым аналитикам может понадобиться порядка 20 измерений — и серьезные OLAP-продукты именно на такое количество и рассчитаны. Более простые настольные приложения поддерживают до шести измерений.

2.  Однако куб сам по себе для анализа не пригоден. Если еще можно адекватно представить или изобразить трехмерный куб, то, например, с шестимерным дело обстоит значительно хуже. Поэтому перед употреблением из многомерного куба извлекают обычные двумерные таблицы.  Эта операция называется «разрезанием» куба, а каждая такая таблица «срезом» (slice). Этим способом аналитик получает двумерный срез куба и с ним работает.

3.  Если еще внимательнее всмотреться в таблицу, можно заметить, что находящиеся в ней данные, скорее всего, не являются первичными, а получены в результате суммирования по более мелким элементам. 

Например, год делится на кварталы, кварталы на месяцы, месяцы на недели, недели на дни. Страна состоит из регионов, а регионы — из населенных пунктов. Наконец, в самих городах можно выделить районы и конкретные торговые точки. Товары можно объединять в товарные группы и т. д. 

В терминах OLAP такие многоуровневые объединения совершенно логично называются иерархиями. Средства OLAP дают возможность в любой момент перейти на нужный уровень иерархии. Причем, как правило, одних и тех же элементов поддерживается несколько

Похожие материалы

Информация о работе