Информационная и процедурная стадии разработки

Информационная стадия разработки технологии автоматизированного формирования слабоформализуемых документов на основе лексикологического синтеза предназначена для построения своеобразной инфологической модели данных и объединяет этапы 6, 7 и 8 (см. рис. 4.7).

Этап 6, реализация которого требует проведения лексического анализа документов, предназначен для синтеза совокупности опорных слов, относящихся к каждому виду документов.

Применение принципов лексического анализа позволяет выделить из содержательной части документа фрагменты (объекты), определяемые конкретным словом либо условным лексическим идентификатором, обозначающим определенный фрагмент документа, неизменный для какой-либо управленческой ситуации. Отдельные слова, в последующем называемые опорными, представляют собой единичные лексемы. Идентификаторы опорных слов, образованные на основе устойчивых аутентичных словосочетаний, соответствуют интегрированным лексемам. Основным правилом включения того или иного слова или идентификатора в комплекс опорных слов является его однозначное понимание и применение. В качестве критериев выделения опорных слов из содержательных компонентов документа следует использовать следующие:

  • фонетический - опорное слово должно соответствовать звуковому строю языка документа;
  • фоносемантический - звучание опорного слова должно вызывать ассоциации, непосредственно связанные с формируемым документом определенного вида;
  • морфологический - составные, гибридные или сокращенные опорные слова, аббревиатуры или их идентификаторы должны как в полном объеме, так и составными его частями, вызывать ассоциации, непосредственно связанные с создаваемым документом;
  • лексический и семантический - выбираемые или назначаемые опорные слова, их совокупность или идентификатор должны базироваться на лексике документа;
  • лексикографический - опорные слова, их совокупность или идентификатор должны легко читаться, смысл их должен быть понятен для любого составителя данного документа, постановка ударений и смысл опорных слов не должны вызывать затруднений.

Синтез совокупности опорных слов сопряжен с «разрешающей способностью» процесса. С одной стороны, выделение малого количества опорных слов приведет к сокращению времени формирования документа, поскольку потребует у исполнителя меньшего числа операций по выбору слов в процессе создания документа. Однако это вызовет необходимость укрупнения объема фрагментов, определяемых соответствующими опорными словами. Подобное сокращение мощности множества опорных слов оправдано для случаев устойчивых фраз и словосочетаний, которые могут быть определены в некоторых случаях даже одним опорным словом. С другой стороны, увеличение количества опорных слов позволит в большей степени детализировать вариации текстовых фрагментов, при этом уточняются нюансы, необходимые для полноты описания и глубины характеристики различных управленческих ситуаций. В связи с этим целесообразно проводить синтез совокупности опорных слов в объеме, позволяющем адекватно учесть особенности всего множества ситуаций, описание которых входит в задачу не только данного вида, но и конкретного возможного экземпляра документа.

В связи с этим к методическим критериям синтеза совокупности опорных слов следует отнести:

  • лексико-смысловое единство, обеспечивающее возможность комплектования документа определенного вида во всей (или возможно более широкой) совокупности экземпляров документа с учетом его вариативности;
  • сбалансированную насыщенность множества опорных слов, обеспечивающую их необходимую и эффективную семантизацию;
  • смысловую ценность, позволяющую исполнителям документов запоминать смысловые цепочки опорных слов по мере накопления опыта работы с технологией лексикологического синтеза при повторном формировании документов одного вида;
  • функционально-стилевую принадлежность опорных слов к предметной области формируемых документов и отражающую специфику применяемой терминологии.

В совокупности с классифицированной информацией множество опорных слов образует понятийно-категориальный аппарат документа определенного вида, а с учетом взаимной связи опорных слов лексонтологию документа. Для выбранной системы документов множество опорных слов создает предпосылки для системной формализации данных, необходимых для автоматизированного формирования комплекса слабоформализуемых документов.

Сформированное множество опорных слов должно использоваться для генерации лексикологической схемы (лексонтологии) и лексикологического дерева документов, которые создаются на этапе 7 (см. рис. 4.7). Задачей этого этапа является уточнение семантической связности опорных слов для формирования всей совокупности документов данного вида с учетом ситуационных вариаций. Генерируемая лексикологическая схема представляет собой своеобразную ин- фологическую (онтологическую) модель документа, отражающую связь между опорными словами при прохождении маршрута формирования документа.

Наиболее удобной топологией представления такой модели является топология «дерево», ветви иерархической структуры которого позволяют отобразить взаимные связи опорных слов с учетом возможных отсечений. При генерации лексикологической схемы и лексикологического дерева учитывается онтологическая относительность статуса опорных слов, а также тип информации, содержащийся в соответствующих объектах текстового документа. Представления об онтологической относительности высказывались в концепции языковых каркасов Карнапа [102, 103], развивающей идею многоступенчатого исчисления предикатов.

Для формирования лексикологической схемы документа определенного вида могут использоваться принципы формирования онтологических моделей, применяемых в целях структурной концептуализации объектов:

  • формализации, т. е. описания объективных элементов действительности в единых, строго определенных образцах - по отношению к системе документов это означает описание компонентов документа в единой системе опорных слов;
  • использования ограниченного количества базовых терминов (сущностей), на основе которых конструируются все остальные понятия - формирование содержательной части документа на основе конечного множества опорных слов;
  • внутренней полноты и логической непротиворечивости - необходимый и достаточный объем совокупности (мощность множества) опорных слов при обеспечении требуемой семантической связности компонентов документа.

В зависимости от трактовки текущей научной проблемы разработка лексикологической схемы и генерация лексикологического дерева может рассматриваться не только как задача разработки онтологии, ориентированной на определенную предметную область (например, для разработки комплексов документов предприятия или организации определенной сферы деятельности), но и быть доведена до уровня онтологии, ориентированной на задачу (в этом случае генерация производится с учетом необходимости формирования документов конкретного вида).

Лексикологическая схема (лексонтология) документа представляет собой модель взаимной связи опорных слов, входящих в состав сформированного множества и используемых в процессе создания документов данного вида с учетом вариативности отдельных экземпляров (рис. 4.16, 4.17). Формирование лексикологической схемы позволяет наглядно отобразить взаимосвязи опорных слов, что необходимо для последующей разработки процедуры формирования документа.

Фрагмент лексикологической схемы ветви «Приказы» подсистемы организационно-распорядительной документации предприятия

Рис. 4.16. Фрагмент лексикологической схемы ветви «Приказы» подсистемы организационно-распорядительной документации предприятия

Фрагмент лексикологической схемы протокола эндоскопического осмотра

Рис. 4.17. Фрагмент лексикологической схемы протокола эндоскопического осмотра

Референтная взаимосвязь опорных слов при необходимой мощности их множества позволяет сформировать модель создания экземпляра документа d, принадлежащего к множеству документов определенного вида Dn при наличии существенных вариаций в рамках отдельных экземпляров:

где Фп - множество опорных слов ср, сформированное для документов данного вида; X - набор (множество) опорных слов, используемый при создании конкретного экземпляра документа данного вида; F(X) - комплекс фрагментов документа, каждый из которых связан с определенным опорным словом ср.

Совместный учет категорий классификации информации и взаимосвязей опорных слов позволяет сформировать лексикологическое дерево документа (рис. 4.18).

Лексикологическое дерево приказа об увольнении

Рис. 4.18. Лексикологическое дерево приказа об увольнении

Обращает на себя внимание тот факт, что при высокой степени формализации используемой информации, которая, например, наблюдается в документах системы организационно-распорядительной документации, неунифицированная переменная информация может отсутствовать полностью либо ее объем весьма незначителен.

В целях установления ассоциативных связей между компонентами слабоформализуемого документа, формируемого с использованием лексикологического синтеза, на этапе 8 (см. рис. 4.7) разрабатывается информационный алгоритм. Основной задачей информационного алгоритма является уточнение способов внедрения компонентов документа, связанных с выбранными при его создании опорными словами. Пример информационного алгоритма приведен на рис. 4.19.

Информационный алгоритм приказа об увольнении

Рис. 4.19. Информационный алгоритм приказа об увольнении

Элементы информационного алгоритма прежде всего указывают на способ взаимосвязи между компонентами лексикологической схемы документа. В то же время алгоритм конкретизирует способы внедрения в документ данных, получаемых посредством чтения сведений, которые заблаговременно могут быть записаны в устройствах хранения информационной системы, с которой сопрягается разрабатываемая система автоматизированного формирования документов.

Формулировки текстовых фрагментов, используемых в информационных алгоритмах, выявляются при проведении унификации текстов документов определенного вида.

Связь отдельных позиций документа, выраженных в лексикологической схеме и лексикологическом дереве посредством опорных слов, с унифицированным текстовым фрагментом обозначается графически с помощью заранее выбранных обозначений. К способам внедрения требуемых формулировок в документ следует отнести следующие:

  • • автоматический ввод информации после процедуры считывания данных из базы данных (знаний) - таким образом внедряется унифицированная постоянная информация;
  • • выбор формулировок из предлагаемого перечня - такой метод внедрения применяется для унифицированной переменной информации;
  • • прямой ввод текста с клавиатуры - так вводится переменная неунифицированная и переменная вводимая информация, содержащая конкретизирующие данные.

Эти способы внедрения компонентов документа позволяют при дальнейшей разработке компьютерной программы структурировать информацию в базе данных, содержащей необходимые сведения для реализации процедур лексикологического синтеза слабоформализуе- мых документов.

Разработка компонентов системы автоматизированного формирования слабоформализуемых документов на основе лексикологического синтеза может осуществляться с использованием объектно- ориентированного программирования.

Интерфейс среды формирования модели документа, создаваемой в виде приложения используемой операционной системы, должен представлять собой окно (рис. 4.20), содержащее в своем составе следующие элементы:

Интерфейсная схема среды формирования модели документов

Рис. 4.20. Интерфейсная схема среды формирования модели документов

  • 170 Глава 4
  • • размещение унифицированных компонентов в поле модели документа должно сопровождаться автоматической генерацией соот главное меню с иерархическим набором команд в каждом разделе;
  • • палитру инструментов формирования модели документа, в состав которой должны входить унифицированные компоненты (шаблоны) элементов документа;
  • • непосредственно окно для формирования модели документа.

В целях сокращения времени на разработку системы формирования документов в процессе создания их моделей осуществляется сбор и хранение данных для базы данных (знаний), а содержание компонентов модели и их взаимосвязи обеспечивают возможность автоматизированной записи программных фрагментов для последующего использования при построении системы формирования слабоформа- лизуемых документов.

Модель документа может разрабатываться в данной среде в виде лексикологической схемы, лексикологического дерева или информационного алгоритма формирования слабоформализуемого документа, для чего набор видов связей компонентов модели должен быть изменяемым по выбору формируемой модели.

Палитра инструментов среды подготовки модели документа должна содержать набор основных процессных блоков, размещение которых в модели документа должно сопровождаться открытием сервисных информационных окон, структура которых обеспечит ввод необходимых данных для формирования в последующем тех или иных разделов документа.

Размещение унифицированных компонентов в поле модели документа должно сопровождаться автоматической генерацией соответствующего фрагмента программного модуля, обеспечивающего возможность поэлементного формирования комплекса сведений о параметрах компонентов, включая вид элемента, вид связи и типаж внедряемой информации. Помимо процессных блоков палитра инструментов в интерфейсной модели (см. рис. 4.20) должна содержать набор связующих инструментов, дифференцированных по способу связывания блоков. Инструменты связи должны соответствовать типовой классификации информации, внедряемой в документ.

Таким образом, в результате операций, предусмотренных информационной стадией разработки технологии, формируется инфологи- ческая модель документа определенного вида (или системы документов), обеспечивающая возможность последующего создания программных компонентов, предназначенных для непосредственной реализации процесса автоматизированного создания слабоформализуе- мых документов.

На процедурной стадии разработки технологии автоматизированного формирования слабоформализуемых документов на основе лексикологического синтеза, объединяющей этапы 9, 10 и 11 (см. рис. 4.7), происходит подготовка программных компонентов, предназначенных для непосредственной реализации процесса создания документов и интеграции системы формирования с информационной системой предприятия.

Применение метода структурной алгоритмизации позволяет разработать структуру процедур, разрабатываемых на этапе 9 и необходимых для последующего создания программ формирования документов. Фактически структура процедуры представляет собой оперативный алгоритм, который является основой компьютерной программы. Пример процедуры формирования документа приведен на рис. 4.21. Структуры процедур, оформляемые в виде оперативных алгоритмов, представляют собой логическую схему последовательности действий, которые необходимо выполнить для решения задачи формирования слабоформализуемого документа определенного вида. Для визуализации процедур формирования документов применяются стандартные обозначения алгоритмических блоков. К основным требованиям формируемых процедур должны быть отнесены следующие:

  • адекватность - степень соответствия структуры процедуры реальному процессу формирования документа определенного вида;
  • результативность, означающую, что процесс реализует формирование документа за конечное число шагов;
  • дискретность - процедуры образованы отдельными действиями или операциями, связанными между собой определенными причинно-следственными связями;
  • детерминированность - как следствие последовательности действий в алгоритмическом процессе, точно определенном заданным алгоритмом;
  • самоуправляемостъ процедуры - характеризуется наличием в алгоритмическом процессе специальных операций, предназначенных для управления последовательностью функциональных действий (условные и безусловные переходы между операциями процедуры).
Структура процедуры приказа об увольнении

Рис. 4.21. Структура процедуры приказа об увольнении

Содержанием этапа Ю (см. рис. 4.7) является разработка компьютерной программы, непосредственно предназначенной для поддержки интерактивного процесса формирования слабоформализуемого документа определенного вида с использованием способа лексикологического синтеза.

Качество реализации компьютерной программы определяется следующими характеристиками:

  • возможностью использования на распространенных типах персональных компьютеров с учетом доступной и популярной операционной системы;
  • надежностью работы;
  • быстродействием, позволяющим в приемлемые сроки проводить автоматизированное формирование необходимых слабоформа- лизуемых документов;
  • • возможностью защиты информации от несанкционированного использования и копирования.

Удобство применения разработанных программ формирования документов зависит от качества создаваемого пользовательского интерфейса и оценивается по следующим эргономическим свойствам:

  • соответствия интерфейса решаемым задачам;
  • упрощения и минимизации трудоемкости ввода необходимой информации;
  • • возможности защиты от ошибок при вводе данных;
  • скорости работы пользователей, состоящей из продолжительности восприятия отображаемой информации, длительности интеллектуальной работы пользователя (реакция на воспринятую информацию - какие операции пользователь должен выполнить);
  • наглядности получаемых результатов;
  • качества лингвистического обеспечения.

К дополнительным эргономическим требованиям, определяющим качество разрабатываемых программных модулей, следует отнести скорость адаптации пользователей к новым условиям работы, которая во многом зависит от легкости изучения и использования приемов формирования слабоформализуемых документов. В связи с этим интерфейс программы формирования документов должен быть интуитивно понятен.

Непосредственное формирование документов при работе с программой не должно требовать от исполнителя длительного сбора первичной информации. Собираемая информация должна иметь небольшой объем: ее получение не должно быть сопряжено с особой сложностью.

Разработка программных компонентов осуществляется в средах программирования, которые в настоящее время достаточно развиты и позволяют, учитывая использование методов визуального проектирования интерфейсов и объектно-ориентированного программирования, эффективно создавать удобные и понятные пользователю среды для автоматизированного формирования документов. Язык программирования принципиального значения не имеет, поскольку современные среды программирования обладают в настоящее время достаточно близкими по эффективности возможностями, предусматривающими возможность интеграции как со стандартными офисными программами, так и с инструментами работы в локальной и глобальной сети.

Завершающим в методологии разработки технологии автоматизированного формирования слабоформализуемых документов является этап 11 (см. рис. 4.7), предназначенный для генерации информационно-логической модели ведения документа определенного вида. Такая информационно-логическая модель позволит впоследствии организовать компактный электронный архив сформированных документов и, кроме того, обеспечит возможность более эффективного использования информации при организации автоматизированного формирования системы документов.

Информационно-логическая модель (структура модели для системы документов промышленного предприятия приведен на рис. 4.22) представляет собой машинную схему построения документа, представленную в виде кодовой записи, последовательно содержащей индексы элементов документа, использованных при его автоматизированном формировании.

К элементам документа относятся:

  • • индекс вида документа;
  • • индекс заголовка документа;
  • • индекс формы документа;
  • • индексы элементов информации;
  • • тип информационной посылки;
  • • объем информации в знаках;
  • • индекс позиции.

Индекс вида документа определяет выбор используемого лексикологического дерева. Индекс заголовка зависит от направления требуемой коренной ветви лексикологического дерева. По индексу формы производится выбор требуемого формуляра документа, разработанного при унификации документов.

Информационно-логическая модель ведения комплекса документов предприятия

Рис. 4.22. Информационно-логическая модель ведения комплекса документов предприятия

Хранение совокупности фрагментов информации, используемых при формировании слабоформализуемых документов на основе лексикологического синтеза, осуществляется в базе данных. Обращение к требуемому элементу базы знаний происходит посредством указания индекса записи. Индекс элементов информации соответствует индексу записи фрагмента, выбранного из базы знаний. Тип информационной посылки определяет отношение того или иного фрагмента документа к определенному информационному потоку документа.

Необходимость введения в модель типа информационной посылки обусловлена спецификой хранения фрагментов информации, относящейся к потокам неунифицированной и переменной вводимой информации. К сожалению, фрагменты информации, относящиеся к данным потокам, не могут быть проиндексированы аналогично унифицированным компонентам, поэтому их сохранение должно осуществляться в виде полнотекстового фрагмента. Тем не менее, анализ структур документов показал, что общий объем таких фрагментов, как правило, не превышает 8-10%. Объем информации в знаках совместно с индексом позиции позволяет размещать внедряемые в текст фрагменты в соответствии с установленными правилами русского языка и требованиями, предъявляемыми к оформлению документов при ведении деловой переписки. При необходимости восстановления информации ранее подготовленного документа из созданного электронного архива должна считываться необходимая кодовая запись, по индексам которой затем производится повторное формирование документа, однако уже в автоматическом режиме, без участия поль- зователя-оператора. Анализ информации, необходимой для функционирования рассмотренной модели, свидетельствует о возможности синтеза единой базы знаний, на основе которой должен производиться информационный обмен между локальными блоками формирования отдельных документов. В этом случае база знаний должна содержать избыточный набор формулировок, необходимых для обеспечения эффективной работы каждой из разработанных процедур по видам формируемых документов. Представляется целесообразным внедрение в структуру модели блока контроля легальности запросов и ответов. Этот блок позволит учесть транзакционные процессы при синхронных обращениях к базе нескольких пользователей, что обеспечит устойчивость функционирования системы.

Формирование базы данных возможно как в сосредоточенном, так и в распределенном вариантах с учетом уровней контура управления организации или, при образовании крупномасштабных систем, с учетом межорганизационных связей. Очевидно, что разумным решением является использование смешанного способа формирования базы данных, используемой в процессе автоматизированного формирования документов.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >