Меню
Главная
Авторизация/Регистрация
 
Главная arrow Медицина arrow Основы экологической экспертизы

Программное обеспечение экспертно-информационных систем

Системы управления базами данных. Для манипулирования данными (вводом, поиском и т.п.) в информационных системах используется специальное программное обеспечение — СУБД. Этот вид программного обеспечения в последние годы очень быстро совершенствуется. С одной стороны, СУБД все шире используются для манипулирования новыми типами информации (мультимедиа, ГИС и т.п.) С другой стороны, созданы новые технологии (архитектура «клиент-сервер», распределенные базы данных, гипертекст и т.п.), которые позволяют обеспечить доступ к информации широкому кругу пользователей в рамках сети Интернет, открывая тем самым принципиально новые возможности для изучения окружающей среды.

В настоящее время фактическим стандартом систем управления базами данных для персональных компьютеров является СУБД Microsoft Access. Пакет Microsoft Access for Windows является мощным средством управления базами данных, которое поддерживает реляционную модель данных и позволяет создавать сложные приложения на особом диалекте Visual BASIC (VBA). Microsoft Access можно применять для поиска и обработки всевозможных данных, а также для подготовки отчетных документов. Пользовательский интерфейс достаточно прост и предоставляет пользователю удобные возможности для манипулирования базами данных, так что освоение пакета обычно не вызывает сложностей.

В связи с бурным развитием сети Интернет, которая является гигантской распределенной базой данных, возрос интерес к таким СУБД, как Oracle. В настоящее время эта система управления базами данных установлена на многих серверах Сети.

Реляционные базы данных. В подавляющем большинстве СУБД для персональных компьютеров информация организуется в виде двумерных таблиц, и их часто, хотя и не всегда корректно, называют реляционными базами данных.

Файлы .DBFстандарта dBASE представляют собой отображение двумерной таблицы со столбцами — полями и строками — записями. При поиске информации в этих файлах часто приходится использовать сведения о положении данных в файле (номер строки таблицы, номер записи файла .DBF), и в этом отношении стандарт dBASE не удовлетворяет требованиям, предъявляемым к реляционным базам данных. При увеличении размеров баз данных хранить их в одной таблице становится невозможно, и возникает необходимость выполнения других требований реляционной модели. В связи с этим большое значение имеет понятие нормализации.

Нормализация не является жестко фиксированным понятием или установленной раз и навсегда процедурой. Это, скорее, набор правил, которыми стоит руководствоваться при проектировании реляционных баз данных. Одно из таких правил гласит: «В таблице не должно быть повторяющихся полей и дублирования информации». Например, если к фрагменту подобной таблицы добавить информацию об авторах книг, то в стандарте dBASE фрагмент станет выглядеть следующим образом (табл. 6.6).

У первой книги один автор, и для хранения его имени достаточно одного поля. Но у второй книги уже два автора, а могут быть книги и с большим числом авторов. Поэтому возникает первый вопрос: сколько полей следует предусмотреть для хранения в таблице информации о фамилиях авторов книги? При этом в таблице появится несколько однотипных полей для хранения имен авторов книг. Некоторые из этих полей будут пустыми, если число авторов книги меньше числа зарезервированных полей.

Пример ненормализованной таблицы

Номер

записи

Название

Автор 1

Автор 2

Автор 3

Год

Стра

ницы

і

Анализ

процессов

статистическими методами

Д. Химмель-блау

1973

960

2

Методы

решения

некорректных

задач

А.Н. Тихонов

В.Я. Арсенин

1979

286

Во многих полях будет значиться одна и та же фамилия, если один человек является автором более чем одной книги, т.е. информация будет дублироваться. Такую таблицу обычно называют ненормализованной, и ее не следует включать в реляционную базу данных.

Способ организации информации в реляционной базе данных можно проиллюстрировать на простейшем примере базы BOOKS. MDB, созданной с помощью СУБД Microsoft Access 7.0. База BOOKS. MDB предназначена для хранения информации о книгах.

В 1990-е гг. реляционная модель данных превратилась в основное средство организации информации в базах данных не только на ПК, но и на больших ЭВМ.

Язык структурированных запросов SQL (Structured Query Language) был разработан корпорацией IBM в 1970-х гг., но всеобщее распространение получил существенно позднее, когда после появления компьютерных сетей, связывающих компьютеры различных типов, потребовались стандартные языки для обмена информацией. Благодаря своей независимости от специфики компьютера, а также поддержке лидерами в области технологии реляционных баз данных, SQL стал и в ближайшем обозримом будущем останется таким стандартным языком.

Синтаксис SQL похож на синтаксис английского языка и позволяет конструировать достаточно сложные запросы. Язык SQL состоит из инструкций, которые передаются СУБД, обеспечивая выполнение определенных действий. Эти инструкции называются предложениями, но чаще используется термин «команда SQL». Интерпретаторы команд SQL встраиваются во многие проце-

дурные языки программирования, такие как Visual BASIC, C/C++. В этом случае команда обычно формируется в виде строковой переменной.

Всеобщее распространение компьютерных сетей породило еще одну проблему, возникающую, когда несколько пользователей с разных компьютеров начинают изменять одну и туже базу данных. До тех пор, пока база данных открыта «только для чтения», особых трудностей не возникает, но, как только нескольким пользователям позволяется ее модифицировать, происходят трудноразрешимые конфликты.

Эти проблемы преодолеваются в рамках модели базы данных типа «клиент-сервер». При реализации данной модели система управления базами данных разделяется на две части — «клиент» и «сервер». Программа-сервер обрабатывает запрос, формирует из базы данных требуемую выборку записей и отсылает ее программе-клиенту. Если пользователь предполагает изменять информацию в запрошенной выборке, доступ любого другого пользователя для модификации выбранных записей блокируется (монопольный захват). Если пользователь запрашивает информацию «только для чтения», то доступ к выбранным записям не ограничивается (коллективный захват).

Основной механизм, который позволяет избежать конфликтов между пользователями, заключается в разбиении процесса обработки информации на элементарные события — группы команд SQL, которые могут выполняться (или не выполняться) только все вместе. Такие группы команд называются транзакциями. Транзакция начинается всякий раз, когда на вход «сервера» начинают поступать команды SQL.

Распределенные базы данных. Успехи модели баз данных типа «клиент-сервер» привели к очевидной идее, что не только обработку информации можно распределить между несколькими компьютерами, но и саму информацию хранить в разных местах. Поэтому в начале 1990-х гг. все большую привлекательность для пользователей ПК стали приобретать распределенные базы данных и соответственно СУБД, разработанные ранее для больших ЭВМ.

Современные информационные системы очень редко реализуются на одном ПК, поэтому возникают проблемы использования данных, хранящихся на разных компьютерах, с обеспечением при этом высокой надежности работы и защиты данных. Под распределенной базой данных понимается логически единая база данных, которая размещается на нескольких ПК. Гигантской распределенной базой данных является Интернет. Для пользователя любого из компьютеров, объединенных в сеть, в узлах которой распределена такая база данных, эта база выглядит как единое целое и одинаково доступна. При этом возникает много проблем с обеспечением целостности и непротиворечивости хранимых данных и, одновременно, приемлемого быстродействия прикладных программ, работающих с распределенной базой данных. Лишь в очень немногих системах управления базами данных (Sybase, Ingres, Informix) эти проблемы решены в достаточном объеме, и самой известной из них является СУБД Oracle.

Система управления базами данных Oracle является одним из лидеров рынка многоплатформенных СУБД. Она может работать на более чем двухстах типах компьютеров, включая ПК типа IBM PC и Apple Macintosh. В программное обеспечение этой СУБД входит одна из наиболее полных реализаций языка структурированных запросов SQL, а также генераторы меню, отчетов и других экранных форм. Кроме того, программное обеспечение позволяет на основании информации, хранящейся в СУБД, строить более 50 типов графиков и диаграмм. Oracle содержит очень надежную систему защиты данных, их целостности и непротиворечивости.

Мультимедиа. Термином «мультимедиа» (multimedia) обозначаются интерактивные компьютерные системы, обеспечивающие работу с разнообразными типами данных — неподвижными и движущимися изображениями (включая видео), а также с текстом, речью и высококачественным звуком. В соответствующих базах данных хранится не только текстовая информация, но и оцифрованные фильмы, звуки и музыка, факсимильные изображения и многое другое.

Современные системы управления мультимедийными базами данных поддерживают технологию «клиент-сервер», описанную выше, а сами базы данных оказываются распределенными по узлам всемирной компьютерной сети. При этом возникает новая ситуация, которая в ближайшие годы будет определять развитие цивилизации: большинство знаний, накопленных человечеством, оказывается интегрированным в глобальную информационную систему, а доступ к этим знаниям открыт для каждого члена общества.

Технология мультимедиа широко используется в образовании — для создания обучающих программ, тренажеров, различных энциклопедий и справочников. На одном носителе можно разместить тексты, составляющие библиотеку средних размеров, или фильм, но чаще на таких дисках размещаются тексты, движущиеся изображения, звуки и видеоклипы, связанные в единую интерактивную систему, последовательность событий в которой определяется пользователем.

Хранилища данных. Следует отметить, что в последние годы не только появляются новые технологии, но и несколько меняется подход к формированию баз данных.

Базы данных, из которых извлекаются знания, должны отвечать определенным требованиям и, чтобы подчеркнуть это, применяют специальный термин «хранилище данных» (Data warehouse), означающий «предметно-ориентированный, интегрированный, поддерживающий хронологию, неизменяемый набор данных, организованный для целей поддержки принятия решений».

Можно выделить две основные трудности при создании хранилищ данных, ориентированных на поддержку принятия решений:

  • 1) неопределенность задачи — какая именно информация может понадобиться для поддержки принятия решений в постоянно и быстро меняющимся мире, какие цели и задачи будут актуальными завтра и т.п.;
  • 2) неоднородность информации — разные и зачастую плохо описанные форматы файлов данных, полученные на разных приборах и не стыкующиеся между собой результаты измерений и многое другое.

Во многих случаях легче повторить дорогостоящий эксперимент, чем пытаться извлечь результаты из архивных данных предыдущего аналогичного эксперимента. Поэтому первым этапом создания хранилища данных является их интеграция.

При интеграции исходных данных в хранилище необходимо обеспечить единые правила наименования, унифицированные единицы измерения для однотипных объектов, единую систему представления (атрибуты) для таких объектов и т.п. Кроме того, для интеграции данных о состоянии окружающей среды важна единая система географических координат. Другой важной особенностью данных, включаемых в хранилище данных, является поддержка хронологии.

Геоинформационные системы (ГИС). Результаты экологического мониторинга всегда имеют географическую привязку, поэтому оптимальным способом организации анализа сведений о состоянии окружающей среды будет тот, который основывается на ГИС. Последние предназначены для создания цифровых карт и анализа событий, происходящих на планете. Во многих отношениях ГИС — это типичная СУБД.

Термин «географическая информационная система» означает организованный набор аппаратуры, программного обеспечения, географических данных и персонала, предназначенный для эффективного ввода, хранения, обновления, обработки, анализа и визуализации всех видов географически привязанной информации. Особое значение для успешной работы ГИС имеет персонал: операторы, программисты, системные аналитики и т.д. Технические специалисты, проектирующие и поддерживающие систему, во многом определяют ее свойства и эффективность последующего использования. Аппаратные средства включают компьютеры (платформы), на которых работает ГИС. Такие ГИС, как ARC/INFO, функционируют на довольно большом числе платформ — на мощных серверах, обслуживающих клиентские машины в локальных сетях и Интернете, на рабочих станциях и на отдельных ПК. Кроме того, ГИС используют разнообразное периферийное оборудование — дигитайзеры для оцифровки карт, лазерные принтеры, плоттеры для печати карт и т.п. Программное обеспечение позволяет вводить, сохранять, анализировать и отображать географическую информацию.

Ключевыми компонентами программного обеспечения являются:

  • • средства для ввода и манипулирования географическими данными;
  • • система управления базой данных;
  • • программные средства, обеспечивающие поддержку запросов, географический анализ и визуализацию информации;
  • • графический интерфейс пользователя, облегчающий использование программных средств.

Данные — возможно, наиболее важный компонент ГИС. Они представлены двумя основными типами: пространственными (синонимы: картографические, векторные, описывающими положение, форму географических объектов и их пространственные связи с другими объектами) и описательными (синонимы: атрибутивные, табличные данные о географических объектах, состоящие из чисел, текстов и т.п.).

Описательная информация организуется в реляционную базу данных — отдельные таблицы связываются между собой по ключевым полям, для них могут быть определены индексы, отношения и т.п. Кроме того, в ГИС описательная информация связывается с пространственными данными. Отличие ГИС от стандартных систем управления базами данных (dBASE, Access и т.п.) состоит как раз в том, что ГИС позволяют работать с пространственными данными.

Пространственные данные в ГИС представляются в двух основных формах — векторной и растровой. Векторная модель данных основывается на представлении карты в виде точек, линий и плоских замкнутых фигур. Растровая модель данных основывается на представлении карты с помощью регулярной сетки одинаковых по форме и площади элементов. Различия между этими моделями данных поясняются рис. 6.5.

Растровая и векторная модели пространственных данных

Рис. 6.5. Растровая и векторная модели пространственных данных

Здесь показано, как объекты местности — озеро, речка, поле — отображаются с помощью векторной модели: линиями и полигонами, а с помощью растровой модели — по-разному окрашенными квадратиками.

Упрощая ситуацию, можно сказать, что растровая модель данных — это набор одинаковых по величине, но по-разному окрашенных квадратиков. В векторной модели данных озеро изображается окрашенным многоугольником, который в ARC/INFO называется полигоном {polygon), а речка — ломаной линией, которая называется дугой {arc). Начало и конец этой ломаной линии называются узлами {nodes).

На рис. 6.6 ГЛ показан процесс объединения в простейшую цифровую карту двух слоев цифровой карты DCW:

  • 1) слой PONET — границы государств, морей, океанов;
  • 2) слой DNNET — гидрографические объекты — реки, каналы, озера, острова.

Например, цифровая карта DCW была сформирована на основе карт масштаба 1 : 1 000 000, и именно это обстоятельство определяет, какой объект на этой карте будет изображаться полигоном, а какой — ломаной линией.

а) б) в)

Рис. 6.6. Объединение отдельных слоев в цифровую карту: о — PONET; б — DNNET; в — DCW

В цифровых картах пространственная информация об объектах хранится в виде координат (X, Y). Точка описывается одной парой координат. Отрезок прямой линии представляется двумя парами координат (X, Y), соответствующими началу и концу отрезка. Ломаные линии описываются упорядоченной последовательностью координат (X, Y). Если ломаная линия начинается и заканчивается в одной и той же точке, она ограничивает замкнутую фигуру — полигон. Соответственно, первая и последняя пары координат ломаной линии (или первой и последней из ломаных линий, когда полигон ограничивается несколькими дугами) должны совпадать.

Картографическая информация об объектах включает не только их координаты, но и отношения типа «Нева впадает в Балтийское море». На цифровых картах такие отношения описываются с помощью топологической модели, определяющей пространственные связи. В ГИС ЛЯС/INFO приняты три основных топологических условий:

  • 1) дуги соединяются между собой в узлах;
  • 2) дуги, ограничивающие фигуру, определяют полигон;
  • 3) дуги имеют направление, а также левую и правую стороны.

Географический анализ экологической информации позволяет

изучать процессы, происходящие в окружающей среде, путем проведения различных логических операций над векторными и атрибутивными данными (пространственного и табличного анализа). Для отображения результатов пространственного анализа обычно используются карты, а для отображения результатов табличного анализа — отчеты.

Пример отображения результатов простейшего пространственного

анализа приведен на рис. 6.7 На данном примере ниже обсу

ждаются некоторые особенности проведения географического анализа и открывающиеся при этом возможности. В рассматриваемом случае цель проведения географического анализа состояла в определении зон возможного загрязнения почв свинцом по критерию, использованному в «Экологической карте Ленинградской области», — преимущественное нахождение свинца вдоль автодорог с интенсивным движением в двухсотметровой полосе. Дополнительное условие анализа заключалось в исключении из рассмотрения районов жилой застройки — городов и поселков городского типа, где загрязнение почв свинцом наблюдается повсеместно. Была подготовлена карта района Санкт-Петербурга (см. рис. 6.7) в проекции Меркатора, на которой были совмещены четыре покрытия карты ОСУ

  • РОЫЕТ — океаны, моря, страны;
  • • — озера, реки;
  • РРРОРУ — районы жилой застройки;
  • ЯРПИЕ — автомобильные дороги.
Зона загрязнения вокруг шоссейных дорог вне населенных пунктов

Рис. 6.7. Зона загрязнения вокруг шоссейных дорог вне населенных пунктов

Далее средствами ARC/INFO было сформировано покрытие RDLINEMI, включающее области, лежащие вблизи автомобильных дорог (в пределах ±200 м). Затем из этого покрытия были вырезаны области, соответствующие жилой застройке, и сформировано покрытие RDLINEM2. Эти полигоны представляют решение поставленной задачи по определению зон возможного загрязнения почв свинцом.

Первое, что следует отметить в связи с этой задачей, — это легкость, с которой она решается средствами ARC/INEO. Так же легко решаются и другие задачи пространственного анализа:

  • • формирование областей, лежащих вне полигонов вырезающего покрытия;
  • • создание новых покрытий с помощью «вырезания и склеивания»;
  • • расщепление покрытий на несколько меньших покрытий;
  • • наложение полигонов и сохранение всех областей обоих покрытий;
  • • наложение точек, линий или полигонов на полигоны и сохранение всех объектов входных покрытий;
  • • наложение точек, линий или полигонов, но сохранение только части объектов входного покрытия, попадающей внутрь полигонов формирующего покрытия.

В перечисленных выше операциях создаются таблицы, описывающие полигоны, дуги, границы покрытия и реперные точки. Эти таблицы изначально пригодны для проведения анализа, и для них можно формировать разнообразные запросы, аналогичные запросу на выбор полигонов покрытия RdlineM2 на рис. 6.7, для которых выполняется условие «атрибут Inside = 100 в таблице PAT.DBF», что соответствует внутренним областям буферных зон. При проведении табличного анализа, используя логические операции AND, OR и формируя другие, более сложные структурированные запросы, можно выбрать информацию из нескольких полей одной или разных таблиц.

Возможность проведения географического анализа — это главное отличие ГИС. Географический анализ позволяет сопоставить разнообразную пространственно привязанную информацию и представить результаты анализа в форме, удобной для восприятия.

Рутинные операции географического анализа легко автоматизируются. Для этого в каждую полнофункциональную ГИС встраивается внутренний язык программирования — SML в ГИС ARC/INFO, MapBasic в ГИС Maplnfo и т.п. Все это делает ГИС незаменимым инструментом для проведения анализа информации о состоянии окружающей среды.

Интеллектуальный анализ данных. Географические информационные системы предоставляют мощные средства для анализа экологической информации, но сами они не порождают новых знаний о состоянии окружающей среды, В то же время, особенно в последние годы, быстро развиваются информационные технологии, ориентированные на формирование знаний о состоянии окружающей среды, которые объединяют понятием интеллектуальный анализ данных (Data mining). Модули, основанные на таких технологиях, развиваются в рамках наиболее мощных географических информационных систем, но значительно чаще они формируются в экспертно-информационные системы, ориентированные на прогнозирование состояния окружающей среды, на оценку риска хозяйственной деятельности и на поддержку принятия решений, обеспечивающих устойчивое развитие.

С научной точки зрения метод интеллектуального анализа (ИАД) — сфера пересечения человеческих знаний, машинного обучения, математического моделирования и баз данных. В последнее время применение интеллектуального анализа данных стало частью экономической стратегии многих компаний, которые стремятся привлечь новых клиентов и сохранить старых.

Опираясь на различные математические методы, такие как нейронные сети, деревья решений, линейное программирование, нечеткая логика, удается извлечь из различных, в том числе и очень больших, баз данных ранее не известную и достоверную информацию, служащую основой для принятия решений. Поэтому ИАД определяют также как метод поддержки принятия решений, основанный на поиске и анализе зависимостей между данными.

Иногда как синоним используется понятие «обнаружение знаний в базах данных» (knowledge discovety in databases).

Следует отметить, что интеллектуальный анализ данных основывается на целом комплексе методов прикладной статистики — и традиционных, и нетрадиционных. В традиционных методах, таких как регрессионный анализ, пользователь сам выдвигает гипотезы о зависимостях между данными. Это относится и к современным средствам установления зависимостей, например, оперативная аналитическая обработка данных (On-Line Analytical Processing, OLAP), которые, по существу, являются развитием классических методов регрессионного анализа, дисперсионного анализа и т.п.

Традиционные методы, основанные на использовании статистических моделей и априорных предположений о свойствах этих моделей, широко используются в НАД, но существенно большие надежды в настоящее время возлагаются на нетрадиционные методы. Довольно часто именно эту группу методов связывают с понятием «интеллектуальный анализ данных». Основополагающая идея, лежащая в основе таких методов, состоит в установлении зависимостей между рядами данных без необходимости предварительного формулирования гипотезы о виде данной зависимости. При этом искомые зависимости далеко не всегда выражаются математическими уравнениями, и в таких случаях точнее говорить о взаимосвязях между данными.

Следует также отметить, что большинство из так называемых нетрадиционных методов НАД довольно давно разрабатывались прикладными статистиками, и в этом смысле они являются вполне традиционными. При этом их эффективность, например, при решении сложных экономометрических задач, подтверждена результатами большого числа исследований.

Существует несколько методов, позволяющих находить взаимосвязи между данными без предварительного формулирования гипотезы о виде этой зависимости: поиск ассоциаций, поиск последовательностей (шаблонов), классификация, кластерный анализ, прогнозирование.

Поиск ассоциаций означает поиск связанных между собой событий, когда наступление одного события с высокой степенью вероятности означает наступление другого. События, связанные во времени, обычно называют последовательностями, и выявление таких последовательностей позволяет прогнозировать будущее.

Классификация означает распределение данных на некоторое количество групп по некому набору признаков. Одним из весьма перспективных методов классификации является нейрокомпьютинг, который предполагает обучение системы (программы) для решения поставленной задачи на ограниченном числе примеров.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. Основой прогнозирования являются временные ряды. Возможность анализа временных рядов в экометрии связана с использованием индикаторов и индексов. Если удается выявить закономерности, адекватно отражающие динамику поведения индексов во времени, на этой основе можно, с некоторой вероятностью, предсказывать будущее экологических систем.

Особенность настоящего этапа развития методов НАД состоит в том, что все эти довольно сложные методы реализованы в большом числе программных продуктов, доступных широкому кругу пользователей. Многие из таких программных продуктов имеют модули когнитивной графики и предоставляют пользователю большие возможности по интерпретации результатов анализа данных. Это, в свою очередь, порождает ряд новых проблем, связанных с достоверностью такой интерпретации, но опыт эксплуатации программных продуктов НАД при поддержке принятия решения подтверждает их эффективность.

Для анализа данных о состоянии окружающей среды можно использовать стандартные пакеты, реализующие те или иные методы НАД, — 5ГДГ/577С4, МЛТЬЛВ и т.п. Более подробные сведения об использовании стандартных пакетов для обработки данных о состоянии окружающей среды можно найти в учебниках, размещенных в Интернете (например, В.В. Растоскуев. Информационные технологии экологической безопасности: 11ир://ууу.есо5аГе. nw.ru/win/ENV/Read_me.htm).

Экспертные системы обработки данных. Что касается экспертных и экспертно-информационных систем, предназначенных для обработки данных, то их разработка наталкивается на громадные трудности. «Интеллектуализация» компьютерной обработки первичной информации об окружающей среде основывается, с одной стороны, на идеях и методах конкретной области знания, для которой создается система обработки данных. С другой стороны, в компьютерной системе обработки используются разнообразные методы прикладной математики — математической статистики, теории решения обратных задач и т.п. Соответственно, при создании экспертных систем обработки данных приходится учитывать, с одной стороны, методические и метрологические особенности методик выполнения измерения, а с другой — априорные предположения и ограничения математических алгоритмов обработки, что часто неоправданно дорого.

Поэтому при наличии огромного числа систем общего назначения — пакетов для статистической обработки данных, электронных таблиц и т.п., существует небольшое число экспертных систем, способных автоматически провести весь цикл анализа данных.

Одной из первых задач в проблеме искусственного интеллекта и создания экспертных систем стала компьютерная имитация логического мышления человека — решение задач, доказательство теорем и т.п. Существенным отличием систем искусственного интеллекта от обычных программ является то, что отдельные КОМПОненты такой системы (факты, правила, цели и т.п.) могут быть дополнены или изменены независимо друг от друга.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Пред   СОДЕРЖАНИЕ   След >
 

Популярные страницы