Семантическая надстройка над WWW Semantic Web
В настоящее время Web является крупнейшей базой знаний в истории. Извлекая информацию из Web-ресурсов, человек способен воспринимать ее на ЕЯ (как на родном для него, так и на иностранных). Однако Web-ресурсы направлены лишь на восприятие человеком информации из разных источников, и только проанализировав ее, он может построить объемную картину интересующих его событий и явлений.
Компьютеры пока такими способностями не наделены. Для них наполнение Web-страниц — просто последовательность текстовых строк, а их смысл компьютерам неведом. Именно поэтому даже самый простой поиск информации в Web является ручной работой, связанной с необходимостью изучать множество страниц интернет-сайтов и вникать в соответствующую терминологию. Вместо этого пользователю было бы гораздо проще и быстрее сформулировать свой вопрос на ЕЯ и получить ответ также на ЕЯ.
Разработка технологий построения сети, информацией из которой смогут оперировать не только люди, но и компьютерные программы, и составляет цель проекта Semantic Web. В отличие от Web, где информация хранится в виде ЕЯ, данные в Semantic Web структурируются и унифицируются с помощью специального языка описаний — метаданных.
Метаданные — это информация о документе, понимаемая компьютером, т.е. обладающая свойством внутренней интерпретируемости. Метаданные для информационных ресурсов отражают название информационного ресурса, его тип, назначение, объем, предметное содержание, технические особенности, сведения об авторах и разработчиках и другую информацию, которая может быть полезна при выборе информационных ресурсов.
Использование метаданных позволяет привести информацию в сети Интернет к дружественному для компьютера виду и создать тем самым семантическую надстройку к Сети — Semantic Web. Таким образом, Semantic Web предусматривает создание такой единой семантической структуры, где каждому элементу «человеческой» информации будет соответствовать машинный код в виде специального смыслового тега, выступающего в роли метаданных.
Идея создания Semantic Web принадлежит известному специалисту Тиму Бэрнерсу-Ли, предложившему создать семантическую надстройку к Сети в виде технологий, позволяющих автоматически обрабатывать сведения из Интернета. Тогда на основе соответствующей разметки сетевых документов будет возможно с помощью программ-агентов собирать в Интернете разрозненную информацию, сопоставлять данные, принимать решение об их достоверности и даже делать некоторые логические выводы, предоставляя на выходе пользователю готовый информационный продукт. С помощью семантической надстройки любые сведения, опубликованные в Сети, пусть даже на разных сайтах, будут найдены, сведены воедино и обработаны в соответствии с запросом пользователя. Для реализации этой идеи Тим Бэрнерсу-Ли предложил создать комплекс инструментов, необходимых для работы Semantic Web, в виде схемы из шести уровней [95, 96, 97, 93].
На первом уровне находятся Unicode и Uniform Resource Identification (URI). Назначение URI — однозначная идентификация (обозначение) любых порций сетевых данных, причем эти данные даже могут быть не опубликованы в Сети.
Создавать URI-идентификаторы может любой пользователь по своему усмотрению. Кроме того, не существует какой-либо единой базы данных URI или же организации, управляющей их созданием, что придает системе огромную гибкость.
Второй уровень — язык разметки XML, который позволяет создавать собственные форматы документов и любые смысловые теги. Такая разметка в Semantic Web должна сообщить компьютеру сведения о смысле и значении отдельных элементов документа.
Третий уровень — технология среды описания ресурсов RDF (Resource Description Framework). Технология RDF позволяет сложить отдельные «слова» в понятные компьютеру «фразы», описав связи между отдельными объектами.
По существу, RDF представляет собой простой способ описания экземпляров данных в формате троек «субъект — предикат (свойство) — объект», в котором в качестве любого элемента тройки используются только U RI-идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределенной структуры.
RDF также позволяет формулировать утверждения об утверждениях (reification). Например, утверждение о том, что в Википедии сказано, что Шекспир написал трагедию «Гамлет» в RDF будет выглядеть следующим образом:
q:nl rdf:subject lit:Shakespeare ; rdf:predicate lit:wrote; rdf:object lit:Hamlet. web:Wikipedia m:says q:nl
Важно подчеркнуть, что наличие в Semantic Web таких утверждений совершенно не означает их достоверность, так как мы можем не доверять информации из Википедии.
Четвертый уровень — уровень Web-онтологии, предназначенный для объяснения компьютеру значения или способа применения определенного термина.
Онтология в данном случае — это записанные на особом языке правила и способы описания значений и отношений терминов.
Эти описания сохраняются с помощью RDF, что дает возможность использовать их для автоматической обработки. Кроме того, онтология позволяет устанавливать синонимию различных терминов. Схема анализа документов на основе онтологии предметной области представлена на рис. 2.3.
В настоящее время разработан язык описания онтологий Web Ontology Language (WOL), спецификация на который была выпущена в 2004 году.
Пятый уровень — это технологии, позволяющие программам обрабатывать не только отдельные фразы, но и целые высказывания, формируя по законам логики собственные заключения на основе разрозненных выражений, содержащихся в различных сетевых документах.
Шестой уровень — это технологии проблем достоверности данных. Вопрос доверия к опубликованной информации очень важен, поскольку выкладывать в Интернете данные в форматах Semantic Web может любой желающий.
На данный момент стандартизованы основные три фундаментальные технологии, которые легли в основу Semantic Web: RDF, OWL, SPARQL (язык запросов к базам знаний).
Semantic Web является логическим продолжением развития Web: от гипертекстовых страниц — к XML-данным, от XML — к машинной интерпретации данных и объединению разбросанной в Web информации.

Рис. 2.3. Анализ документа на основе онтологии предметной области