Многоаспектность проблемы




Проблема интеграции данных чрезвычайно многоаспектна и многообразна. Сложность и характер используемых методов ее решения существенным образом зависят от уровня интеграции, который необходимо обеспечить, свойств отдельных источников данных и всего множества источников в целом, требуемых способов интеграции.

Системы интеграции данных могут обеспечивать интеграцию данных на физическом, логическом и семантическом уровне. Задача интеграции данных на физическом уровне с теоретической точки зрения является наиболее простой и сводится к конверсии данных из различных источников в единый формат физического представления. В докладе обсуждаются главным образом два остальных случая.

Источники данных могут обладать различными свойствами, существенными для выбора методов интеграции данных, - поддерживать представление данных в терминах той или иной модели данных, могут быть статическими или динамическими и т. п. Множество источников интегрируемых данных может быть однородным или неоднородным относительно характеристик, определяемых уровнем интеграции. Так, на логическом уровне интеграции может иметь место неоднородность используемых моделей данных или неоднородность схем данных.

Что касается способов интеграции данных, то возможны два подхода — виртуальное или актуальное (материализованное) представление интегрированных данных. При первом подходе создается механизм доступа, который порождает данные в требуемом представлении непосредственно из исходных источников данных, в случае если они запрашиваются пользователем. Полное материализованное представление интегрированных данных в терминах единого пользовательского интерфейса при этом не поддерживается. Виртуальный подход чаще всего применяется при использовании обновляемых источников данных. Напротив, при втором подходе на стадии интеграции формируется полное материализованное представление интегрированных данных, отчужденное от исходных источников и сосуществующее с ними. Именно это представление данных используется для обработки пользовательских запросов. Такой подход используется, в частности, в хранилищах данных.

Неоднородность источников данных

Неоднородность источников данных проявляется в системах интеграции данных в различных аспектах. Например, различаются парадигмы моделирования данных (разные модели данных), различаются схемы представления данных в разных источниках при использовании для них одной и той же модели данных, могут различаться физические представления данных, среды их представления (системы баз данных и ресурсы Web-сервера), степени структурированности данных, аппаратно-программные платформы и т. д.

Возникающие задачи

При создании системы интеграции возникает ряд задач, зависящих от требований к ней и используемого подхода. Наиболее важными из них являются следующие.

  • Разработка архитектуры системы интеграции данных.
  • Создание интегрирующей модели данных, являющейся основой единого пользовательского интерфейса в системе интеграции.
  • Разработка методов отображения моделей данных и построение отображений в интегрирующую модель для конкретных моделей, поддерживаемых для отдельных источников данных.
  • Интеграция метаданных, используемых в системе источников данных.
  • Преодоление неоднородности источников данных.
  • Разработка механизмов семантической интеграции источников данных.

Основной инструментарий

К числу основных средств, используемых для обеспечения интеграции информационных ресурсов, относятся конвертеры данных, интегрирующие модели данных, механизмы отображения моделей данных, объектные адаптеры (Wrappers), посредники (Mediators), онтологические спецификации, средства интеграции схем и интеграции онтологических спецификаций, а также архитектура, обеспечивающая взаимодействие средств, используемых в конкретной системе интеграции ресурсов.

Архитектурные подходы

При разработке архитектуры системы интеграции используются два подхода, которые принято называть Global as View и Local as View.

Первый из этих подходов (Global as View) предусматривает поддержку некоторого глобального представления интегрированных данных, определенного над заданными представлениями локальных источников. Такой подход более эффективен в случае, когда множество всех используемых источников предопределено. Пользовательский запрос, сформулированный в терминах единого интерфейса, отображается во множество подзапросов, адресованных к нужным локальным источникам данных. На основе результатов их обработки синтезируется полный ответ на запрос. Если система интеграции предназначена для поддержки полного материализованного представления интегрируемых данных, процессы конверсии данных из источников в их единое глобальное представление осуществляются единовременно.

При втором архитектурном подходе (Local as View) предполагается, что интегрирующее глобальное представление данных задано и является первичным. На его основе определяются представления для всех локальных источников данных. Хотя в этом случае усложняется отображение пользовательских запросов в среду локальных источников данных, такой подход допускает динамичность состава множества источников данных. Каждый такой новый источник может подключаться к системе как на стадии разработки, так и на стадии функционирования.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-04-02 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: