Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Интеллектуализация сетевых систем поиска экономической информации

ОБЗОР И АНАЛИЗ СУЩЕСТВУЮЩИХ ПОДХОДОВ К СМЫСЛОВОМУ АНАЛИЗУ ТЕКСТОВ И ЗАПРОСОВ В ПОИСКОВЫХ СИСТЕМАХ

Системы полнотекстового поиска

Обмен информацией в обществе осуществляется в основном в текстовой форме, поэтому в компьютерных информационных хранилищах, распределенных по всему миру, собраны терабайты текстовых (неструктурированных) данных. Они составляют не менее 90% информации, с которой имеют дело пользователи, и лишь 10% приходится на структурированные данные, хранящиеся в реляционных базах данных [92].

Согласно данным исследовательской службы Cveillance, еще в 2001 г. общее количество страниц в Интернете превысило 4 миллиарда. Средний размер Web-страницы — 10 Кб, среднестатистическая страница содержит 23 внутренние ссылки, 5—6 — внешних ссылок и 14—15 изображений. Если к этому добавить массивы неструктурированных документов в корпоративных файловых системах и БД, то легко видеть, что найти в таких сырых неструктурированных данных нечто ценное можно лишь посредством специализированных технологий автоматизированного анализа и классификации информации, представленной на естественном языке (ЕЯ).

Содержательное разнообразие такой информации довольно велико — это могут быть статьи, опубликованные в газетах и журналах, разнообразные технические руководства, отчеты, книги, диссертации, письма, законодательные акты и пр. Все эти законченные, идентифицируемые уникальным образом единицы информации, представленные на каком-либо ЕЯ, принято называть документами.

Технологии обработки ЕЯ должны учитывать следующие особенности текстовой информации:

  • • высказываниям на естественном языке свойственна двусмысленность и избыточность, синонимия и омонимия терминов;
  • • многообразие грамматических форм элементов языка;
  • • наличие множества словоформ, образованных от единой основы, что повышает сложность реализации поиска, учитывающего вхождение данного слова во всех возможных словоформах;
  • • в лексике естественных языков довольно часто появляются новые понятия и термины;
  • • смысловые связи между словами в предложении часто представляются в неявной форме;
  • • в поисковом массиве документов нередко присутствует только намек на необходимую информацию.

Указанные особенности приводят к отсутствию какой-либо регулярной структуры у текстовых документов на ЕЯ, поэтому данные, представляющие информационные ресурсы такой природы, называют неструктурированными.

Для того чтобы различать системы поиска текстов на ЕЯ и поисковые системы, ориентированные на иные виды информационных ресурсов, в последние годы наряду с термином «информационно-поисковая система» (ИПС) стал употребляться термин «система текстового поиска» (Text Search System или Text Retrieval System).

Основной единицей информации в системах текстового поиска является документ. По способу обработки документа для его представления в информационном фонде системы различают системы с полнотекстовым поиском (обрабатывается весь текст) и неполнотекстовым (обрабатываются наиболее значимые части текста: заголовки, названия, ключевые поля, начальные слова разделов и т.д.).

Системы текстового поиска являются развитием документальных ИПС, в которых основное содержание каждого текстового документа и пользовательских поисковых запросов описывается наборами дескрипторов — ключевых слов и словосочетаний, а индексирование представляет собой процедуру перевода документа и запроса в форму дескрипторного представления, принятую в данной ИПС. При сопоставлении дескрипторов поискового образа документа и поискового предписания пользователя в системах используется тот или иной критерий смыслового соответствия (релевантности).

С помощью дескрипторов можно лишь приблизительно отразить смысл документов и запросов, поэтому документальные ИПС могут выдать документы, не относящиеся к поисковому запросу, или же не найти документы, соответствующие запросу.

Документальный поиск относится к числу сложных информационных процессов, поскольку он связан с проблемой оценивания смыслового соответствия документа и запроса. Из-за субъектив-

и

ности и неоднозначности подобного оценивания этот вид поиска в принципе не может быть исчерпывающе точным и полным, в нем всегда будет присутствовать элемент нечеткости.

Развитием поиска по дескрипторам является полнотекстовый поиск, реализованный, в частности, в поисковых машинах Интернета, таких как как AltaVista (http://www.altavista.com); Excite (http://www.excite.com); HotBot (http://www.hotbot.com); Lycos (http://www.lycos.com); Yahoo! (http://www.yahoo.com); Google (http://www.google.com.ru); Яндекс (http://www.yandex.ru); Rambler (http://www.rambler.ru); Апорт (http://www.aport.ru); Rundex (http:// www.rundex.ru) и др.

В отличие от технологий документальных дескрипторных систем развитые современные технологии полнотекстового поиска обеспечивают поиск интересующих пользователя документов на основе их информационного содержания, а не только по наборам дескрипторов или значениям каких-либо атрибутов, ассоциированных с этими документами (год издания, автор, издательство и т.п.). Эти атрибуты, хотя и могут, в частности, быть уникальными идентификаторами документов, но никак не зависят от их содержания.

Системы полнотекстового поиска работают не с самими документами, а с некоторыми структурированными представлениями их содержания — представлениями документов (в некоторых публикациях их называют также представителями документа).

Представление документа обычно конструируется на основе множества свойств (атрибутов) этого документа, образующих индексирующие свойства документа. На основе этих индексирующих свойств строится вспомогательная структура данных, позволяющая по их значениям эффективным образом (без полного просмотра содержания документов и без полного их перебора) обнаруживать документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к этим документам. Такая вспомогательная структура данных образует индекс, а процедура индексирования документа заключается в назначении документу индексирующих его атрибутов.

Индекс формируется на основе всех слов и словосочетаний, содержащихся в документах, за исключением служебных неинформативных слов (союзов, предлогов, местоимений и т.п.). При индексировании с помощью словарей и средств морфологического анализа слова приводятся к базовой грамматической форме (именительный падеж, единственное число и т.д.).

Некоторые поисковые системы не учитывают морфологию и ищут либо точное вхождение заданного слова, либо строят словоформы по каноническим правилам.

Использование индекса документа вместо самого документа позволяет избежать трудоемкого процесса просмотра и анализа полного его содержания на стадии поиска и при этом использовать преимущества структурированного индексного представления для повышения эффективности поиска.

В современных системах текстового поиска используются различные подходы к построению представлений хранимых документов и пользовательских запросов [90, 91, 98, 99]. От характера используемых представлений документов существенно зависит качество поиска — его точность, полнота, производительность и другие характеристики.

Общая схема обработки запроса в полнотекстовых И ПС приведена на рис. 2.1.

Развитием систем, работающих с неструктурированными текстами, являются гипертекстовые системы, в которых кроме содержимого документов отражается их семантическая структура и используются различные способы навигации по тексту [89, 90, 98].

Гипертекст представляет собой нелинейную, сетевую форму организации текстового материала. Предварительно текст делится на фрагменты, для них явным образом указываются возможные связи, при помощи которых можно переходить от одного фрагмента к другому. Фактически предварительная гипертекстовая разметка текста есть своего рода аналог построения поискового образа документа, но при этом исходный текст остается неизменным и доступным для работы.

По глубине формализации поиска гипертекстовые системы занимают промежуточное положение между документальными и

Схема обработки запроса в системах полнотекстового поиска фактографическими ИПС, в которых хранятся не документы, а собственно сведения (факты) об объектах предметной области

Рис. 2.1. Схема обработки запроса в системах полнотекстового поиска фактографическими ИПС, в которых хранятся не документы, а собственно сведения (факты) об объектах предметной области.

Гипертекстовая организация данных в ИПС реализуется как внутри отдельного документа, так и на множестве документов, лежащих подчас на разных серверах. Гипертекстовая технология поиска информации значительно облегчает работу пользователя и предоставляет ему эффективные средства работы с текстовым материалом.

Особенно широкое распространение гипертекстовые системы получили в сети Интернет. Все стандартные браузеры для сети используют способы представления текстов, основанные на языке HTML. Ручное формирование гипертекста на основе объемного текстового материала — весьма трудоемкий процесс. Для упрощения построения гипертекстов служит ряд средств, позволяющих автоматически определять позиции, в которых нужно устанавливать гиперссылки, а также автоматически выявлять связи между документами. В ряде гипертекстовых систем автоматизация расстановки гиперссылок основывается на использовании базы правил. Каждое такое правило содержит условие выделения фрагмента текста, от которого должна быть установлена гиперссылка, и идентификатор целевого кадра, на который эта ссылка должна указывать. Обычно разработчику гипертекста предоставляется возможность создавать, изменять и удалять правила. Кроме того, каждому правилу может быть приписан признак активности, позволяющий запретить его применение, не исключая из базы правил.

Среди российских программных продуктов можно отметить следующие средства автоматизации построения гипертекста [98]:

  • • авторская система HyperMethod (разработчик — компания «Ги- перМетод»), включающая компонент HyperText Assistant, выполняющий автоматическую расстановку гиперссылок в формируемом электронном издании на основе системы настраиваемых правил;
  • • комплексная система анализа текстов Text Analyst (разработчик — научно-производственный инновационный центр «Микросистемы»),

В настоящее время проблематика текстового поиска стала довольно обширной. Она охватывает различные области теории и разработки систем текстового поиска: разработка методов существенного улучшения представления смысла документов и пользовательских поисковых запросов; развитие конкретных моделей поиска; разработка методологии тестирования и оценки систем; методы сжатия данных; обеспечение возможностей для совместной обработки текстовых документов с документами иной природы — статическими изображениями, аудио, видео и др.; разработка эффективных методов поиска не только в статических массивах документов, но и в потоках документов; методы классификации и кластеризации текстовых документов; технологии реализации текстового поиска; поиск в среде Web; глубинный анализ текстов; приложения информационного поиска в электронных библиотеках; интерфейсы «человек — компьютер» и т.д.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Пред   СОДЕРЖАНИЕ ОРИГИНАЛ   След >
 

Популярные страницы