Семантическая надстройка над WWW Semantic Web

В настоящее время Web является крупнейшей базой знаний в истории. Извлекая информацию из Web-ресурсов, человек способен воспринимать ее на ЕЯ (как на родном для него, так и на иностранных). Однако Web-ресурсы направлены лишь на восприятие человеком информации из разных источников, и только проанализировав ее, он может построить объемную картину интересующих его событий и явлений.

Компьютеры пока такими способностями не наделены. Для них наполнение Web-страниц — просто последовательность текстовых строк, а их смысл компьютерам неведом. Именно поэтому даже самый простой поиск информации в Web является ручной работой, связанной с необходимостью изучать множество страниц интернет-сайтов и вникать в соответствующую терминологию. Вместо этого пользователю было бы гораздо проще и быстрее сформулировать свой вопрос на ЕЯ и получить ответ также на ЕЯ.

Разработка технологий построения сети, информацией из которой смогут оперировать не только люди, но и компьютерные программы, и составляет цель проекта Semantic Web. В отличие от Web, где информация хранится в виде ЕЯ, данные в Semantic Web структурируются и унифицируются с помощью специального языка описаний — метаданных.

Метаданные — это информация о документе, понимаемая компьютером, т.е. обладающая свойством внутренней интерпретируемости. Метаданные для информационных ресурсов отражают название информационного ресурса, его тип, назначение, объем, предметное содержание, технические особенности, сведения об авторах и разработчиках и другую информацию, которая может быть полезна при выборе информационных ресурсов.

Использование метаданных позволяет привести информацию в сети Интернет к дружественному для компьютера виду и создать тем самым семантическую надстройку к Сети — Semantic Web. Таким образом, Semantic Web предусматривает создание такой единой семантической структуры, где каждому элементу «человеческой» информации будет соответствовать машинный код в виде специального смыслового тега, выступающего в роли метаданных.

Идея создания Semantic Web принадлежит известному специалисту Тиму Бэрнерсу-Ли, предложившему создать семантическую надстройку к Сети в виде технологий, позволяющих автоматически обрабатывать сведения из Интернета. Тогда на основе соответствующей разметки сетевых документов будет возможно с помощью программ-агентов собирать в Интернете разрозненную информацию, сопоставлять данные, принимать решение об их достоверности и даже делать некоторые логические выводы, предоставляя на выходе пользователю готовый информационный продукт. С помощью семантической надстройки любые сведения, опубликованные в Сети, пусть даже на разных сайтах, будут найдены, сведены воедино и обработаны в соответствии с запросом пользователя. Для реализации этой идеи Тим Бэрнерсу-Ли предложил создать комплекс инструментов, необходимых для работы Semantic Web, в виде схемы из шести уровней [95, 96, 97, 93].

На первом уровне находятся Unicode и Uniform Resource Identification (URI). Назначение URI — однозначная идентификация (обозначение) любых порций сетевых данных, причем эти данные даже могут быть не опубликованы в Сети.

Создавать URI-идентификаторы может любой пользователь по своему усмотрению. Кроме того, не существует какой-либо единой базы данных URI или же организации, управляющей их созданием, что придает системе огромную гибкость.

Второй уровень — язык разметки XML, который позволяет создавать собственные форматы документов и любые смысловые теги. Такая разметка в Semantic Web должна сообщить компьютеру сведения о смысле и значении отдельных элементов документа.

Третий уровень — технология среды описания ресурсов RDF (Resource Description Framework). Технология RDF позволяет сложить отдельные «слова» в понятные компьютеру «фразы», описав связи между отдельными объектами.

По существу, RDF представляет собой простой способ описания экземпляров данных в формате троек «субъект — предикат (свойство) — объект», в котором в качестве любого элемента тройки используются только U RI-идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределенной структуры.

RDF также позволяет формулировать утверждения об утверждениях (reification). Например, утверждение о том, что в Википедии сказано, что Шекспир написал трагедию «Гамлет» в RDF будет выглядеть следующим образом:

q:nl rdf:subject lit:Shakespeare ; rdf:predicate lit:wrote; rdf:object lit:Hamlet. web:Wikipedia m:says q:nl

Важно подчеркнуть, что наличие в Semantic Web таких утверждений совершенно не означает их достоверность, так как мы можем не доверять информации из Википедии.

Четвертый уровень — уровень Web-онтологии, предназначенный для объяснения компьютеру значения или способа применения определенного термина.

Онтология в данном случае — это записанные на особом языке правила и способы описания значений и отношений терминов.

Эти описания сохраняются с помощью RDF, что дает возможность использовать их для автоматической обработки. Кроме того, онтология позволяет устанавливать синонимию различных терминов. Схема анализа документов на основе онтологии предметной области представлена на рис. 2.3.

В настоящее время разработан язык описания онтологий Web Ontology Language (WOL), спецификация на который была выпущена в 2004 году.

Пятый уровень — это технологии, позволяющие программам обрабатывать не только отдельные фразы, но и целые высказывания, формируя по законам логики собственные заключения на основе разрозненных выражений, содержащихся в различных сетевых документах.

Шестой уровень — это технологии проблем достоверности данных. Вопрос доверия к опубликованной информации очень важен, поскольку выкладывать в Интернете данные в форматах Semantic Web может любой желающий.

На данный момент стандартизованы основные три фундаментальные технологии, которые легли в основу Semantic Web: RDF, OWL, SPARQL (язык запросов к базам знаний).

Semantic Web является логическим продолжением развития Web: от гипертекстовых страниц — к XML-данным, от XML — к машинной интерпретации данных и объединению разбросанной в Web информации.

Анализ документа на основе онтологии предметной области

Рис. 2.3. Анализ документа на основе онтологии предметной области

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >