АКТУАЛЬНОСТЬ КОМПЬЮТЕРНОЙ ОБРАБОТКИ ЕСТЕСТВЕННОЯЗЫКОВЫХ ЗАПРОСОВ В СРЕДЕ ИНТЕРНЕТА

Поиск информации — важнейшая часть деятельности не только менеджеров, но и политиков, ученых и т.д., результативность работы которых зависит от качества и своевременности найденной информации. В настоящее время трудно переоценить влияние сети Интернет на все без исключения сферы человеческой деятельности, так как в ней содержатся огромные объемы разнообразной информации. Однако по мере развития глобальной сети обостряется парадокс: вероятность существования нужной информации возрастает, а возможность ее получения уменьшается. Теоретически гипертекстовая природа WWW обеспечивает нахождение любой информации в процессе целенаправленного продвижения по ссылкам. Однако, согласно оценкам, в Интернете сегодня существует более 60 млн документов, и чтобы найти нужные сведения в этом пространстве, продвигаясь от ссылки к ссылке, нужно потратить немало времени, иначе можно получить низкокачественную информацию.

Эффективность компьютерного поиска электронных документов сегодня остается низкой. Становится все более очевидным, что без извлечения необходимых знаний с учетом их смысла проблема поиска будет только усугубляться. Причем такая ситуация наблюдается как при анализе текстовых, т.е. неструктурированных или слабоструктурированных документов, так и структурированных — табличных.

Лавинообразный рост количества слабоструктурированной информации, наполняющей сайты World Wide Web, обусловливает сложность работы с отчетами поисковых машин, которые порой содержат тысячи ссылок, большинство из которых не имеют прямого отношения к цели поиска. Поиск сегодня представляет собой отбор документов на основе частоты вхождения в них ключевых слов, составляющих запрос, т.е. работают механизмы контекстного поиска. Такой поиск не затрагивает содержание документов, вследствие чего цель поиска, как правило, достигается не сразу.

Еще одной проблемой, которую принципиально невозможно решить с помощью применения обычных поисковых машин, является отсутствие обратной связи между запросом и результатами поиска. Наличие таковой позволило бы улучшить качество результатов поиска с помощью пошаговой процедуры уточнения целей поиска, состоящей из повторного использования некоторых параметров, полученных на предыдущих шагах, и вариации других.

Данной проблемой озабочено мировое научное сообщество. Анализ показал, что в основном оно пока сосредоточилось на автоматическом реферировании и аннотировании, а также автоматической классификации документов.

Всемирная паутина стремительно «расползается» и «вплетается» буквально во все сферы жизни. Web становится все более мощным и важным источником информации. Средствам обработки данных в сети все труднее и труднее справляться с лавиной информации, уже существующей и добавляемой в сеть ежедневно. Кроме того, данные в Интернете организованы стихийно и не систематично. Помимо серверов, поддерживаемых компаниями, фирмами, университетами и другими официальными организациями, на которых в основном представлена тематическая информация, более или менее структурированная, Web «населяют» домашние страницы, соединяющие в себе все что угодно. Для выхода на новый уровень в использовании сети Интернет в первую очередь необходимо документы, представленные в ней, снабдить специальными семантическими структурами, отображающими их содержание. Работы, представленные на международных конференциях за последние два года, показывают, что мировое сообщество не только уже осознало необходимость, но и активно включилось в процесс реконструирования Web-пространства. В настоящей монографии представлен взгляд и метод интеллектуализации поиска в Интернете за счет использования ассоциативных и интуиционистских базовых семантических структур, позволяющих обратиться не к механической форме запроса, а к его содержанию. По мнению авторов, это существенно повысит эффективность поиска нужной информации.

За последние десятилетия в области создания искусственных интеллектуальных систем были и впечатляющие успехи, и разочарования. В работе [5] состояние исследований в данной области характеризуется как застойное или кризисное. Тем не менее десятилетия, потраченные на подобного рода исследования, стимулировали развитие таких смежных с информатикой и когнитологией научных направлений, как психолингвистика, психосемантика, нейролингвистика, нейросемантика и пр. Главный же результат, на наш взгляд, состоит в более глубоком понимании того, что на самом деле представляет собой человек, а также постоянном осознании невозможности достижения первоначально поставленной цели — создании антропоморфной интенциональной системы.

Трезвый анализ неудач, постигших разработки в данной области, дан X. Дрейфусом в [30J, рассматривающим три направления исследований: машинный перевод, решение задач и распознавание образов. Автор указывает на множество причин, породивших пессимизм в данной области, но, на наш взгляд, основная причина состоит в отсутствии ясного понимания необходимости интеграции систем, воспроизводящих сознательные и бессознательные мыслительные усилия человека. Бессознательное, по оценкам ведущих психологов, играет доминирующую роль в жизни человека. Термины «сознательное» и «бессознательное» используются в данном случае в качестве метафор, ибо далее речь будет идти не об интенциональных системах (системах, способных различать предмет и мысль о предмете), а системах, способных к имитации мыслительных усилий человека в своем постформализованном мире.

Далее рассмотрим:

  • 1) основные недостатки классической теории ментальных репрезентаций, базирующейся и по сей день исключительно на комбинаторной семантике и комбинаторном синтаксисе. Эта теория, как нам кажется, преследует цель воссоздания «осознанной» деятельности человека;
  • 2) основные недостатки коннекционистского подхода к ментальным репрезентациям. При этом будем считать его средством для воспроизведения «бессознательной» деятельности человека;
  • 3) задачу интеграции классической теории и коннекционист- ских моделей на основе синтеза дискретных и недискретных репрезентаций.
  • 1. Картезианский взгляд на принципы познания мира своеобразно отразился на когнитивной семантике, воплотившись в дискретных теориях ментальных репрезентаций. Убежденность в правильности картезианского подхода породила следующее понимание когнитивной деятельности: существует объективная реальность; роль познающего эту реальность заключается в сборе информации о предметах, их свойствах и отношениях, а затем построении соответствующих моделей. Модели имеют дискретный характер и базируются на комбинаторной семантике и комбинаторном синтаксисе [43].

Такая парадигма была положена в основу построения современных компьютеров, воплотившись в принципах Тьюринга и фон Неймана. Главная характерная черта этих машин — дискретность обрабатываемой информации, она же является причиной ничтожной, по сравнению с возможностями человека, скорости ее обработки.

Низкая скорость — не самое страшное последствие дискретности. Другая, более грозная проблема, которая не может быть решена в рамках дискретной классической теории, — это невозможность создания методов репрезентации имплицитных знаний («бессознательных»), форма существования которых невербальна. Между тем, по 3. Фрейду и М. Хайдеггеру, хорошо известно, что 80—90% знаний человека имплицитны [43]. А это значит, что данная парадигма требует отказа от моделирования таких антропоморфных категорий, как страх, радость, стыд, боль, ревность и пр.

И последнее, классическая теория бессильна в решении проблемы вербализации и девербализации знаний. Перед ней такая проблема даже и не стоит. Известно, что знания человека существуют в различных по своей природе формах. Комбинаторная семантика, основанная на структурированной символике, здесь беспомощна.

2. Имманентные недостатки классической теории потребовали пересмотра картезианского взгляда и стимулировали появление новых идей. Одним из первых отошел от такого взгляда выдающийся когнитолог М. Хайдеггер, сделавший следующий вывод: человек не может иметь об окружающем мире объективного знания, ибо он (мир) структурируется человеком в зависимости от целей, обстоятельств, намерений и т.д. [30, 43]. Он отказывается от традиционного подхода, согласно которому познавание мира — это процесс формирования дискретных моделей, отображающих этот мир, и настаивает на том, что подобные модели играют небольшую (если не ничтожную) роль не только в повседневной жизни человека, но и в трудовой деятельности. Причем определяющими являются не дискретные знания, а существующие в подсознании навыки и живой опыт. Эти навыки и опыт имеют отличную от классической формы существования природу — недискретную.

Новый взгляд был поддержан огромным количеством ученых, ибо, казалось, найден выход из картезианского тупика. В результате появилась коннекционистская модель интеллектуальной деятельности. В ряде работ эта модель представлена как полная смена парадигмы, ибо призвана ликвидировать главный недостаток классической теории — ее дискретность, что позволит в полной мере воспользоваться результатами нейронауки.

Суть новой теории, призванной по замыслу авторов «низвергнуть основы наук», состоит в следующем: сеть состоит из огромного числа простых элементов, связанных между собой нитями. Последние отражают с помощью чисел интенсивность связи между элементами. Элементы возбуждаются, т.е. становятся активными (существует порог активности или неактивности) в зависимости от:

  • • начального состояния сети, т.е. от того, какие элементы возбуждены, а какие нет;
  • • состава внешних возбудителей, воздействующих на сеть.

Коннекционистская сеть постулирует ментальные состояния и

при этом, что важно, репрезентация недискретна. Система переходит из одного состояния в другое путем возбуждения тех или иных элементов сети. Здесь не требуется каких-либо операций поиска, хранения и обработки информации, к которым так привыкли сторонники классической теории. Последние имеют дело исключительно со структурированными символическими выражениями.

Сильное впечатление производит тот факт, что коннекционист- ские модели не программируются в обычном смысле этого слова, они обучаются. Программное обеспечение в традиционном понимании заменяется процедурами обучения. Такое качество способно снять серьезную проблему прогнозирования многообразных ситуаций, возникающих вокруг искусственной системы, с целью их моделирования и программирования. Ситуаций слишком много, чтобы их можно было предусмотреть и запрограммировать. Это серьезный козырь в аргументации сторонников коннекционизма, ибо классическая теория совершенно бессильна перед бесконечным количеством реальных ситуаций, которые следует предусмотреть и запрограммировать. Над «классиками» постоянно висит угроза «регресса в бесконечность» [30J, ибо идея разработки правил для автоматического построения правил явно утопична.

Дж. Фодор проделал тщательный анализ и показал серьезные изъяны новой теории, процитировав «Критику чистого разума» И. Канта: «Когда я исследую... отношение модусов знания в некотором суждении, я отличаю его как относящееся к пониманию от отношения, отвечающего законам репродуктивного воображения [например, законам ассоциации], имеющим лишь субъективную ценность» [43, с. 259]. Иначе говоря, теория ментальной репрезентации должна отличать случаи, когда два предмета просто учитываются, а когда свойства одного предмета позволяют понять свойства другого.

Коннекционистская сеть, являясь лишь каузальной, ничего подобного обеспечить не может, ибо избавление от дискретности повлекло тяжкие последствия. Например, использование только

ю

простейших элементов в сети предопределило отказ от структурного уровня представления любого появившегося на входе возбудителя. Исчезла возможность рассматривать, например, язык как целое, включающее части. Отсутствие каких-либо операций по обработке частей (например, символов) позволяет использовать их роли, только если они представлены в готовом виде. Но если предположить, что активизация ролей в коннекционистской модели происходит с помощью микропризнаков, т.е. помет типа актив- ный/неактивный узел, то тогда в памяти компьютера следует представить все возможные предложения естественного языка. Дж. Фо- дор ссылается на Дж. Миллера, который оценил число правильно построенных двадцатисловных предложений английского языка и установил, что его порядок соответствует количеству секунд в истории Вселенной [43].

Здесь мы выскажем следующее мнение. Упомянутый автор (известный когнитолог) слишком много требует от коннекционизма. Используя метафоры «сознательное» и «бессознательное», мы считаем, что новая теория успешно может быть использована (и используется) для имитации «бессознательного». Достаточно проанализировать серьезные успехи в создании нейрокомпьютеров [45, 46, 50, 60, 61]. Проблема состоит не в том, как использовать кон- некционистские сети для несвойственных им функций, а как ликвидировать параллелизм в исследованиях обеих теорий. Интеграция двух качественно различных теорий — это тот путь, который, возможно, поможет сделать серьезный шаг в направлении интен- циональных систем.

  • 3. Таким образом, имеем:
    • • классическую теорию, имитирующую «сознательные» операции человека на базе комбинаторной семантики и комбинаторного синтаксиса, но беспомощную перед имплицитными знаниями (страх, гнев, радость и т.д.). Кроме того, эта теория не в состоянии объяснить процесс вербализации знаний, т.е. превращения смысла в слово (знак);
    • • коннекционистскую теорию, имитирующую «бессознательные» ментальные акты на базе недискретных моделей нейросетей. Данная теория способна представить имплицитные знания, но не в состоянии распознать семантику составляющих смежных конструкций (например, текст предложения).

На наш взгляд, невозможно обойтись без обеих теорий. Достаточно вспомнить, что в природе всегда существуют парные категории, без которых исключено миропонимание (левое — правое, низ — верх, радость — горе). Дискретность и непрерывность в мышлении — одна из таких парных категорий. Речь и язык — дискретны, но дискретны уже после вербализации. До выполнения этой процедуры слова находятся в иной ипостаси: форме возбуждения множества нейроузлов, в совокупности отражающих их смысл.

Синтез обеих теорий не создает трудностей принципиального характера, ибо недискретные системы всегда можно представить с той или иной степенью точности дискретными. Выполнение такого перехода даже предпочтительно, и для этого существуют убедительные причины. В работе [74, с. 66] по этому поводу приводятся такие аргументы: «Если явления реального мира и описываются с помощью непрерывных переменных и параметров, то редко оказывается так, что для работы с этими описаниями удается использовать методы непрерывной математики. Дифференциальные уравнения, описывающие явления реального мира, обычно или не могут быть решены аналитически, или их решение чересчур трудоемко».

В заключение следует выразить некоторое несогласие с крайними взглядами известного чилийского ученого У. Матураны. Он утверждает, что основная функция языка заключается не в передаче информации, а в активизации адекватных сообщению знаний, полученных слушателем. Иными словами, слушатель сам создает необходимую информацию для понимания путем возбуждения соответствующих ассоциативных знаний без какого-либо осознанного процесса обработки исходного текста. Не оспаривая доминирующей роли неосознанных актов мыслительной деятельности, мы настаиваем на том, что существуют, хоть и в небольшом объеме, сознательные дедуктивные формы обработки входных текстов. Следовательно, без классической теории ментальных репрезентаций обойтись невозможно, как невозможно представить любую искусственную или естественную систему без парных категорий. В данном случае — без дискретного символьного представления языка, с одной стороны, и без непрерывной среды, в которой зарождается каждый дискретный знак, — с другой.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >