Современные технологии аналитической обработки данных

Современные технологии аналитической обработки данных

Современный уровень развития аппаратных и программных средств с некоторых пор сделал возможным повсеместное ведение баз данных оперативной информации на разных уровнях управления. В процессе своей деятельности промышленные предприятия, корпорации, ведомственные структуры, органы государственной власти и управления накопили большие объемы данных. Они хранят в себе большие потенциальные возможности по извлечению полезной аналитической информации, на основе которой можно выявлять скрытые тенденции, строить стратегию развития, находить новые решения.

В последние годы в мире оформился ряд новых концепций хранения и анализа корпоративных данных:

1) Хранилища данных, или Склады данных (Data Warehouse)

2) Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP)

3) Интеллектуальный анализ данных — ИАД (Data Mining)

Системы аналитической обработки данных OLAP—это системы поддержки принятия решений, ориентированные на выполнение более сложных запросов, требующих статистической обработки исторических данных, накопленных за определенный промежуток времени. Они служат для подготовки бизнес-отчетов по продажам, маркетингу в целях управления, так называемого Data Mining — добычи данных, т.е. способа анализа информации в базе данных для отыскания аномалий и трендов без выяснения смыслового значения записей.

Аналитические системы, построенные на базе OLAP, включают в себя средства обработки информации на основе методов искусственного интеллекта и средства графического представления данных. Эти системы определяются большим объемом исторических данных, позволяя выделить из них содержательную информацию, т.е. получить знания из данных.

Оперативность обработки достигается за счет применения мощной многопроцессорной техники, сложных методов анализа, специализированных хранилищ данных.

Реляционные базы данных хранят сущности в отдельных таблицах, которые обычно хорошо нормализованы. Эта структура удобна для операционных баз данных (системы OLTP), но сложные многотабличные запросы в ней выполняются относительно медленно. Более хорошей моделью для запросов, а не для изменения, является пространственная база данных.

Система OLAP делает мгновенный снимок реляционной базы данных и структурирует ее в пространственную модель для запросов. Заявленное время обработки запросов в OLAP составляет около 0,1% аналогичных запросов в реляционную базу данных.

Структура OLAP, созданная из рабочих данных, называется OLAP-кубом. Куб создается из соединения таблиц с применением схемы «звезда». В центре «звезды» находится таблица фактов, содержащая ключевые факты, по которым делаются запросы. Множественные таблицы с измерениями присоединены к таблице фактов. Эти таблицы показывают, как могут анализироваться агрегированные реляционные данные. Количество возможных агрегирований определяется числом способов, которыми первоначальные данные могут быть иерархически отображены.

Приведенные классы систем (OLAP и OLTP) основаны на использовании СУБД, но типы запросов сильно отличаются. Механизм OLAP является на сегодня одним из популярных методов анализа данных. Есть два основных подхода к решению этой задачи. Первый из них называется Multidimensional OLAP (MOLAP) — реализация механизма при помощи многомерной базы данных на стороне сервера, а второй Relational OLAP (ROLAP) — построение кубов «на лету» на основе SQL запросов к реляционной СУБД. Каждый из этих подходов имеет свои достоинства и недостатки. Общую схему работы настольной OLAP системы можно представить рис.

Алгоритм работы следующий:

1) получение данных в виде плоской таблицы или результата выполнения SQL-запроса;

2) кэширование данных и преобразование их к многомерному кубу;

3) отображение построенного куба при помощи кросс-таблицы или диаграммы и т.п.

В общем случае к одному кубу может быть подключено произвольное количество отображений. Отображения, используемые в OLAP-системах, чаще всего бывают двух видов: кросс-таблицы и диаграммы.

Схема звезды. Ее идея заключается в том, что имеются таблицы для каждого измерения, а все факты помещаются в одну таблицу, индексируемую множественным ключом, составленным из ключей отдельных измерений. Каждый луч схемы звезды задает, в терминологии Кодда, направление консолидации данных по соответствующему измерению.

Читайте также:  Кубки огня готика 3 карта

В сложных задачах с многоуровневыми измерениями имеет смысл обратиться к расширениям схемы звезды — схеме созвездия (fact constellation schema) и схеме снежинки (snowflake schema). В этих случаях отдельные таблицы фактов создаются для возможных сочетаний уровней обобщения различных измерений. Это позволяет добиться лучшей производительности, но часто приводит к избыточности данных и к значительным усложнениям в структуре базы данных, в которой оказывается огромное количество таблиц фактов.

К основным задачам ИАС можно отнести: эффективное хранение, обработка и анализ данных. В ходе исследований и разработок накоплен богатый опыт в этой области.

Эффективность хранения информации достигается путь внедрения в состав информационно-аналитической системы большого количества разнообразных источников данных. Обработка и объединение информации достигается путем использования инструментов извлечения, преобразования и загрузки данных. Анализ данных осуществляется за счет применения современных средств делового анализа данных.

Архитектура типичной ИАС в общем виде представлена на рисунке 1.

Рисунок 1. Архитектура информационно-аналитической системы

В последнее время был окончательно сформирован основной набор новых концепций хранения и анализа корпоративных данных:

  1. Хранилища данных, или Склады данных (Data Warehouse) [6, 2];
  2. Оперативная аналитическая обработка (On-Line Analytical Processing, OLAP) [5, 3, 4, 10];
  3. Интеллектуальный анализ данных (ИАД) (Data Mining)) [7, 8, 9,1].

Технологии OLAP плотно взаимодействуют с другими технологиями, такими как: хранилища данных (Data Warehouse) и методы интеллектуальной обработки (Data Mining). Исходя из этого, оптимальный вариант — комплексный подход в процессе их внедрению.

Изучением указанной проблемы занимается ряд ведущих университетов и научно-исследовательских институтов России: СФУ г. Красноярск, СибГТУ, СибГАУ, КНЦ СО РАН, СибНИИ охотничьего хозяйства, Институт вычислительного моделирования СО РАН.

В статье предложена ИАС для управления учебным процессом ВУЗа.

Система разработана в ходе написания диссертационной работы на соискание степени кандидата технических наук по специальности 05.13.10. — Управление в социальных и экономических системах.

Созданный по технологии OLAP программный продукт «Информационно-аналитическая программа "Выбор"» (сокращенно «Выбор») состоит из следующих компонентов (рисунок 2).

Рисунок 2. Структура программного продукта «Информационно-аналитическая программа "Выбор"»

В структуре программного продукта, для решения проблемы взаимодействия между OLAP-сервером и клиентской частью, создана подсистема взаимодействия с клиентской частью. В связи с этим нет необходимости установки дополнительного специального программного обеспечения, предназначенного для клиента. Так как подсистема использует собственный протокол обмена данными, появилась возможность использовать единую подсистему просмотра и анализа информации при работе с различными типами OLAP-сервера.

Подсистема управления необходима для того, чтобы упростить взаимодействие с OLAP-сервером в процессе заполнения базы данных (БД) информацией. Внедрение подсистемы позволит использовать разработанную программу пользователям, у которых недостаточно или вовсе нет опыта работы с подобными программными продуктами.

В хранилище данных (Data warehouses) содержатся оперативные данные, которые собираются, интегрируются из разных источников. При использовании хранилище данных позволяет значительно повысить скорость получения данных, возможность использования среза и сравнения данных, а так же иметь на выходе непротиворечивые, полные и достоверные данные.

Программный продукт представляет собой дружественный, интуитивно понятный интерфейс, который не требует от пользователя специальных знаний и навыков (рисунок 3).

Рисунок 3. Интерфейс пользователя

Информация отображается в форме таблиц. Предусмотрена возможность выбора таблиц при помощи кнопок управления (рисунок 4).

Рисунок 4. Просмотр информации в программе

Анализ информации может проводиться даже неквалифицированным в вопросах эксплуатации компьютера пользователем.

Читайте также:  Как написать зачеркнутое слово в ватсапе

Во время анализа информации пользователь выбирает ее из реляционной базы данных (РБД). Затем, программный продукт выполняет запрос на выборку, определяя совпавшие и не совпавшие дисциплины, и сортирует их в соответствующие таблицы (рисунок 4).

Механизм выполнения запроса осуществляется программным продуктом без вмешательства пользователя, т.е. по средствам программирования на языке SQL.

Для отображения данных из БД на пользовательский интерфейс в ходе проектирования программного продукта были использованы ADO компоненты.

В программном продукте генерируются отчеты стандартной формы, на основании данных, которые содержаться в таблицах, сформированных по итогам запросов на выборку. Соответственно сгенерированным таблицам, по требованию пользователя, формируются отчеты: «Совпавшие дисциплины» и «Не совпавшие дисциплины».

В отчетах предусмотрены функции «Экспорт» и «Печать».

Функция «Экспорт». Данная функция позволяет сохранять сформированные отчеты либо в текстовом формате, либо в формате HTML-страницы. Сохранение отчета в формате HTML-страницы позволяет хранить отчеты на сайте вуза для быстрого доступа к ним лиц, принимающих решение.

Функция «Печать». Эта функция позволяет выводить сформированный отчет на бумажный носитель. Имеется возможность настройки печати.

Сформированные отчеты позволяют упростить и ускорить процесс принятия решения, а также уменьшить вероятность возникновения ошибки.

Внедрение данной ИАС позволяет более детально анализировать данные, выбрать учебный план с минимальным количеством дополнительных для изучения дисциплин, сократить сроки переподготовки и перепрофилирования.

Рецензенты:

  1. Серебровский Владимир Исаевич, доктор технических наук, профессор кафедры «Информационные и электротехнические системы и технологии», ФГОУ ВПО Курская государственная сельскохозяйственная академия им. профессора И.И. Иванова, г. Курск.
  2. Николаев Виктор Николаевич, доктор технических наук, профессор, начальник отдела научно-образовательного центра, НИЦ (г. Курск) ФГУП «18 ЦНИИ» МО РФ, Российская Федерация. г. Курск.

Начало года самое время для прогнозов и предсказаний. В этом посте я собрал обзор трендов в области аналитики и систем обработки данных на 2015 год.

С каждым годом все больше компаний приходят к выводу, что правильное использование аналитических систем и систем обработки больших массивов данных дает существенное конкурентное преимущество на рынке. Такая ситуация приводит к активному развитию аналитических отделов в компаниях и существенным инвестициям в инфраструктуру обработки данных.

Согласно различным отчетам ежегодный прирост затрат на развитие систем аналитики и обработки данных составляет 20% — 30%. Прогнозируемый суммарный объем затрат на системы обработки данных и аналитические сервисы в 2015 году составит

Большой спрос на аналитические системы и существенные инвестиции являются сильным драйвером для быстрого развития индустрии больших данных и появления огромного числа новых продуктов и решений.

Согласно исследованиям крупных консалтинговых компаний, таких как Deloitte и Forrester, в 2015 году можно будет выделить следующие основные тренды в области анализа и обработки данных.

  • Автоматизация и коммодизация процессов обработки данных
  • Развитие аналитических систем реального времени
  • Появление новых инструментов для анализа данных датчиков и различных устройств
  • Развитие когнитивных систем и систем автоматического принятия решения
  • Изменения в законодательстве связанные с хранением и обработкой данных

1. Автоматизация и коммодизация процессов обработки данных

Большие затраты на техническое обслуживание систем хранения и обработки данных заставляют компании искать более дешевые решения. Одним из таких решений является отказ от собственных дата-центров и переход на облачные технологии хранения и анализа данных такие как Amazon WS, Microsoft Azure.

Острая нехватка специалистов в области анализа данных служит хорошим стимулом для развития автоматизированных инструментов, не требующих глубоких знаний в области технологий и ориентированных на решение бизнес задач. В качестве примера таких инструментов можно привести Tableau, IBM Watson и Azure Machine Learning.

Читайте также:  Взлом windows 10 mobile

Отдельно стоит отметить развитие систем автоматической предобработки сырых и неструктурированных данных подобных OpenRefine и DataWrangler.

2. Развитие аналитических систем реального времени

Традиционных аналитических решений на основе реляционных баз данных и OLAP технологий, требующих сравнительно большого количества времени для обработки запросов и формирования отчетов уже недостаточно для решения современных бизнес задач.

Компаниям для принятия эффективных решений нужно анализировать данные в реальном времени. Это приведет к развитию технологий потоковой обработки данных и быстрого доступа к данным, хранящимся в оперативной памяти. Одними из первых продуктов предназначенных для решения этих задач являются Apache Storm и Cloudera Impala.

3. Появление новых инструментов для анализа данных датчиков и различных устройств

Носимая электроника и интернет вещей продолжат активно развиваться в 2015 году. Подобные гаджеты уже находят широкое применение в сфере развлечений и мониторинга здоровья. Анализируя информацию с этих устройств можно повысить эффективность их использования.

Широкое распространение гаджетов приводит к появлению новых задач связанных с анализом сигналов различного рода датчиков и сенсоров. В отличие от транзакционных данных, данные сенсоров могут быть зашумлены и подвержены искажениям, что в свою очередь требует особого подхода к обработке подобных сигналов. Для задач связанных со сбором и анализом информации с датчков будут созданы специальные инструменты.

Также будут активно развиваться стандарты по интеграции датчиков и аналитических систем, что позволит существенно ускорить развитие интернета вещей в целом.

Отдельно стоит отметить, что данные носимой электроники позволят собирать больше информации о поведении и предпочтениях пользователей, что скорее всего приведет к появлению новых игроков на рынке данных.

4. Развитие когнитивных систем и систем автоматического принятия решения

Эксперты прогнозируют активное развитие технологий в области взаимодействия человека и искусственного интеллекта. В частности, развитие систем автоматического принятия решений в бизнес процессах, систем анализа текстовой информации, голоса, изображений и видео. Среди уже существующих продуктов можно отметить такие как Google Now и Word Lense.

5. Изменения в законодательстве связанные с хранением и обработкой данных

Уже сегодня мы ежедневно генерируем так много данных, что по ним можно достаточно точно составить портрет каждого человека, выявить его предпочтения и узнать личную информацию. С развитием интернета вещей и появлением новых гаджетов объем данных будет только увеличиваться, а вместе с этим будет увеличиваться доля личной информации хранимой в дата-центрах.

Такое развитие ситуации приведет к повышению социального давления на сервисы и компании, имеющие непосредственное отношение к обработке подобного рода данных, что приведет к вмешательству регулятора и появлению новых законов ограничивающих использование личной информации и определяющих требования к безопасности хранения данных.

Вероятно, новые требования заставят пересмотреть архитектурные решения компаний и приведут к появлению гибридных систем при которых часть данных вместо облака будет хранится в защищенных локальных дата-центрах.

Заключение

Несмотря на большие достижения за предыдущие периоды, 2015 год обещает быть очень интересным с точки зрения развития аналитических систем и появления новых возможностей для революционных решений в области обработки и анализа данных.

А что вы думаете о трендах в аналитике и системах обработки данных на 2015 год? Какие из уже существующих технологий будут востребованы в этом году? Какие задачи еще только предстоит решить? Давайте обсудим в комментариях.

Ссылка на основную публикацию
Adblock detector