Онтологический инжиниринг и модель данных

Принимая во внимание, что в настоящее время процесс разработки информационных систем, как правило, предусматривает этап анализа автоматизируемых процессов (т.е. этап бизнес-моделирования), целесообразно выделить следующие преимущества использования онтологий при подготовке к непосредственному проектированию:

  • • предварительное формирование онтологической модели, описывающей предметную область будущей информационной системы, создает основу для корректного проведения бизнес-моделирования;
  • • проведение качественного информационного анализа при онтологическом моделировании позволяет более точно определить бизнес-требования к информационной системе;
  • • глубокий анализ информации при онтологическом моделировании позволяет отделить собственно бизнес-понятия от их представления в информационных системах. Это достаточно принципиальный тезис, поскольку общепринятое восприятие некоторых бизнес-процессов может отличаться от их представления (проекции) в создаваемой информационной системе;
  • • на ранних этапах закладываются предпосылки для последующей качественной интеграции взаимодействующих информационных систем. Это можно объяснить тем, что использование онтологий и их расширение при комплексировании систем позволяет применять единый информационный базис, что, в свою очередь, обусловливает отсутствие необходимости дополнительных преобразований информации в соответствии с требованиями отдельных систем.

Особую актуальность приобретает онтологический инжиниринг в крупномасштабных информационных системах, охватывающих не только различные направления деятельности, но и создаваемых в интересах взаимодействия нескольких ведомств. В этих случаях без проведения глубокого информационного анализа не только трудно, но просто невозможно построить эффективно и корректно взаимодействующие системы.

Основные направления применения и место онтологий в решении системных и прикладных задач показано на (рис. 2.13).

Место онтологий в комплексных информационных системах

Рис. 2.13. Место онтологий в комплексных информационных системах

Таким образом, создание информационных систем с использованием онтологического подхода обеспечивает значительное преимущество с точки зрения корректной подготовки информационных компонентов и создает предпосылки успешного взаимодействия информационных систем, в особенности при их интеграции в рамках формируемого единого информационного пространства.

Одной из основных задач практически любой информационной системы является обработка собираемых, формируемых или хранимых данных. В любом случае предполагается, что в информационной системе осуществляется манипулирование данными. Данные в информационных системах организуются чаще всего в виде баз данных, имеющих свою структуру, характеризующую состав обрабатываемых данных и взаимосвязи между их компонентами. Модель (или схема) базы данных иногда воспринимается как модель данных. На подобную не только терминологическую, но, в большей степени, методологическую ошибку неоднократно указывали многие авторы (например, [9]). отмечая, что модель данных можно, скорее, отнести к инструменту моделирования, результатом которого как раз и является схема базы данных. Модель данных объединяет как представление, так и обработку данных в системах управления базами данных. Поэтому в модели данных присутствуют методы описания структур данных, методы манипулирования данными, а также методы описания и поддержки целостности конкретной базы данных. Следовательно, модель данных не только характеризует структурную композицию компонентов информации, но и позволяет дать представление о методах обработки, которые должны быть реализованы в информационной системе. Следует заметить, что если методы манипулирования данными достаточно хороню формализуются на этапах разработки алгоритмов систем обработки, то к структурированию данных следует подходить особенно аккуратно и тщательно с самых ранних этапов разработки систем. Именно таким образом можно снизить риски потери целостности данных в информационных системах.

При описании структуры модель данных должна объединять элементы информации прикладной области, отражая взаимосвязи компонентов всех уровней - от атрибутов (которые сами по себе могут иметь сложную, составную, структуру) на нижнем уровне до искомых показателей на верхних (рис. 2.14).

Схема взаимосвязей элементов модели данных

Рис. 2.14. Схема взаимосвязей элементов модели данных

Традиционный подход к разработке информационных систем определен в модели ANS1/SPARC [50, 51] и предполагает описание элементов данных на трех уровнях:

  • внешний (пользовательский) уровень - определяет наиболее полезную и удобную для конкретного пользователя форму представления подмножества данных из базы данных и знаний, необходимых для выполнения стоящих перед пользователем задач. К таким данным может относиться текст, структурированная информация в виде таблиц, графика, шаблон представления информации в документе в виде разметки страницы и т.д. Таким образом, внешний уровень характеризует, фактически, особенности пользовательского интерфейса, позволяющего сформировать ожидаемый пользователем набор представляемой после обработки информации;
  • промежуточный (концептуальный) уровень - содержит абстрактное представление данных. Основной акцент в представлении информации на концептуальном уровне делается на семантике (т.е. смыслового значения) данных. Именно на этом уровне архитектуры определяются сущности предметной области, их атрибуты и связи, накладываемые на данные ограничения. Концептуальный уровень не рассматривает вопросы физического хранения информации или формы ее представления пользователю, а содержит лишь логическое представление совокупности элементов данных с отображением связей между ними;
  • внутренний (физический) уровень - характеризует данные в виде, воспринимаемом операционной системой или системой управления базами данных. На этом уровне описывается физическая реализация базы данных - сведения о распределении дискового пространства для хранения данных и индексов, сведения о размещении записей в файлах и таблицах базы данных, сведения о сжатии данных, выбранных методах их шифрования и т.д. Необходимость существования этого способа представления заключается в непосредственном рассмотрении способов размещения данных при реализации проектных решений.

Описание элементов информации на каждом уровне осуществляется независимо, что позволяет их использовать многократно. При этом минимизируются затраты, связанные с масштабированием, интеграцией информационных систем и миграцией данных, что является принципиальным моментом по отношению к рассматриваемой задаче интеграции информационных систем, поскольку описания, предварительно подготовленные для каждой из объединяемых систем, могут использоваться в последующих процессах их интеграции. Обобщенная схема процесса формирования модели данных приведена на рис. 2.15.

Применение методов информационного анализа с формированием онтологической модели предметной области создает хорошие предпосылки для разработки качественных моделей данных.

Обобщенная схема формирования модели данных

Рис. 2.15. Обобщенная схема формирования модели данных

Это особенно актуально при формировании комплекса взаимосвязанных и взаимодействующих информационных систем, т.е. при образовании единого информационного пространства. При этом онтологическое пространство не является однородным - выделяется несколько уровней онтологии, связанных с моделью данных (рис. 2.16). Наиболее общим уровнем является базовая онтология, которая содержит общие концептуальные структуры и их связи, к которым можно привести все понятия предметных и прикладных онтологий. Предметная онтология обобщает понятия, используемые в разных прикладных онтологиях предметной области, которые относятся к разным областям знаний. Описание концептуальных структур, зависящих от задач предметной области, в которой выполняется конкретное описание поставленной практической задачи, осуществляется с помощью прикладной онтологии.

Проработка онтологических слоев выполняется в двух направлениях:

  • • от прикладной онтологии к базовой - с целью поиска онтологических оснований;
  • • от базовой онтологии к прикладной - для гармонизации (устранения противоречий и несоответствий) онтологий.

Понятно, что онтология использует атрибуты естественного языка, однако для непосредственного формирования онтологических моделей применяется специализированный инструментарий (онтологические редакторы), позволяющий сократить трудозатраты и облегчить процесс создания модели в соответствии с правилами ее создания.

Схема перехода от онтологий к модели данных

Рис. 2.16. Схема перехода от онтологий к модели данных

При этом совокупность приведенных онтологических моделей позволяют выделить ту часть описания реального мира, которая впоследствии необходима для формирования среды хранения определенного объема информации.

Обобщенное представление модели данных, не связанной с конкретной системой управления базой данных (СУБД) обеспечивается благодаря формированию логической модели, иначе называемой ин- фологией. Логическая модель использует способы формализации предметной области, однако она абсолютно свободна от использования физических параметров среды хранения. Качественно сформированная инфологическая модель позволяет не только обеспечить эффективное взаимопонимание консультативного персонала со специалистами по базам данных, но и корректно перейти к непосредственной подготовке совокупности компонентов данных к учету особенностей конкретных СУБД, которые являются компьютерно-ориентированными, т.е. связанными с конкретными параметрами среды хранения информации. Способ описания данных с учетом языка определенной СУБД позволяет получить даталогическую модель, а переход от нее к физической модели, которая описывает именно хранимые данные в конкретной конфигурации структуры и расположения данных, дает возможность учесть особенности размещения данных на конкретном программно-техническом комплексе.

Корректное построение моделей данных, лежащих в основе баз данных и знаний, осуществляется на основе гармонизированных онтологий, конкретизируемых от уровня базовых до прикладных. Поиск необходимых признаков элементов информации осуществляется на аналитическом этапе с использованием информационных моделей процессов, основное назначение которых - визуализация пунктов появления и движения элементов данных. Формирование информационных моделей может выполняться как с использованием инструментария структурного анализа, так и с помощью средств, реализующих объектно-ориентированный подход. В качестве одного из вариантов таких моделей могут использоваться схемы, отображающие движение информации во время реализации процессов - диаграммы потоков данных (DFD - Data Flow Diagram), пример которой для случая применения нотации Гэйна-Сарсона приведен на рис. 2.17.

Пример информационной модели процесса

Рис. 2.17. Пример информационной модели процесса

Переход от характеристики информационных потоков и описания информации в онтологии к построению схемы базы данных возможен, например, с помощью представления информации в виде логической модели (на рис. 2.18 приведен пример модели для описания данных о малом предприятии).

Пример логической модели

Рис. 2.18. Пример логической модели

Детализация модели данных на уровне определений до структуры базы данных на уровне атрибутов позволяет сформировать привычную схему базы данных в виде ER-модели (ER - Entity Relationship, сущность - связь), а затем и физической модели, которые непосредственно используются при создании баз данных и знаний информационных систем.

Формирование модели данных позволит обеспечить организационное и информационное взаимодействие объектов создаваемого комплекса информационных систем, а также упорядочить информационное поле благодаря обоснованной рубрикации и гармонизации организационно-правовой и технической информации. Получаемые преимущества достигаются как следствие следующих шагов:

  • • унификация терминов и определений, используемых в рамках создаваемой информационной системы;
  • • нормализация данных с внешними словарями, справочниками и классификаторами;
  • • гармонизация корпоративных документов, направленных на поддержку автоматизируемых процессов;
  • • разработка нормативно-регламентирующей и справочной документации;
  • • обеспечение терминологической синхронизации при реализации проектов со сторонними участниками.

Роль модели данных особенно важна при взаимодействии информационных систем, осуществляющих взаимный обмен данными. Интеграция информационных систем и обеспечение устойчивой работы систем в комплексе обеспечивается на основе гармонизации данных информационной модели с данными онтологической модели.

Процесс онтологического инжиниринга при создании информационных систем представляет собой последовательность операций, направленных на проведение информационного анализа и формирование онтологической модели. Модель, в свою очередь, ориентирована на предметную область будущей информационной системы. При формировании комплекса информационных систем необходимо создавать онтологическую модель, охватывающую все компоненты информационного поля будущего комплекса. В противном случае придется «сводить» частные модели в единую модель, что потребует дополнительных затрат ресурсов. Структура процесса онтологического инжиниринга представлена на рис. 2.19.

Структура процесса онтологического инжиниринга

Рис. 2.19. Структура процесса онтологического инжиниринга

При выборе базовой онтологии могут рассматриваться следующие варианты:

  • • база знаний ОрепСус - содержит информацию из различных предметных областей, однако в качестве недостатка этой базы знаний можно указать повышенную сложность и наличие проблем с масштабируемостью;
  • • SUMO (Suggested Upper Merged Ontology) - свободно распространяемая онтология IEEE (Institute of Electrical and Electronics Engineers, Институт инженеров электротехники и электроники), содержащая наиболее общие и самые абстрактные концепты. Является «канонической» онтологией верхнего уровня, содержит обозримое число концептов и аксиом, имеет ясную иерархию классов, легко может быть подвергнута расширению;
  • • BFO (Basic Formal Ontology) - разработка общей онтологии научных исследований. Состоит из серии подчиненных онтологий различного уровня детализации. Представляет собой единую инфраструктуру для работы с трех- и четырехмерными описаниями действительности;
  • • ISO 15926 - стандарт представления сведений, связанных с инженерией, строительством и эксплуатацией установок непрерывного производства. К особенностям этого типа базовой онтологии можно отнести возможность учета временной составляющей объектов (40-моделирование), а также обеспечение моделирования жизненного цикла систем (а не просто текущего состояния той или иной системы). Стандарт содержит онтологическое ядро и подразумевает использование общих библиотек справочных данных для создания прикладных информационных моделей [52].

При отборе документов для анализа прежде всего рассматриваются руководящие документы организации, относящиеся к регламентации процессов - стандарты, регламенты, нормативы и пр.

В процессе терминологического анализа документов необходимо, в первую очередь, выявлять различия в терминах и определениях. Причиной этого требования являются часто встречающиеся разночтения одних и тех же терминов и определений в нормативных документах организаций. Выявление подобных различий требует однозначной увязки терминологии с направлениями автоматизации процессов в организации.

Далее необходимо провести объектный, а затем - структурный и семантический анализ используемых и перспективных классификаторов и справочников, потому что именно эти объекты будут положены в основу метаинформации, применяемой в системах нормативно-справочной информации.

Затем должна быть построена онтологическая модель информации: создан комплекс объектов модели, определены их типы, сформированы отношения между этими объектами. На завершающих этапах процесса онтологического моделирования проводятся следующие действия:

  • • анализ методов преобразования онтологических моделей в логические информационные;
  • • выбор наиболее эффективных из анализируемых методов;
  • • применение этих методов для последующей разработки баз данных и знаний.

Таким образом, применение онтологического подхода к формированию информационных баз данных и знаний разрабатываемых информационных систем, а также создание моделей данных на основе онтологического инжиниринга позволит получить описание семантики данных с высоким качеством. Кроме того, такая технология даст возможность сформировать эффективный инструментарий для интеграции разнородных данных, применяемых в комплексах взаимодействующих систем. Подобный подход можно считать основой формирования корпоративной базы знаний, создания единого корпоративного словаря и построения эффективной единой системы нормативно-справочной информации.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >