Принципы работы поисковых систем

Поисковая система (поисковая машина, поисковик) — программноаппаратный комплекс, который предназначен для осуществления поиска в Интернете и реагирует на запрос пользователя, задаваемый текстовой фразой, выдачей набора ссылок на страницы и сайты, соответствующих запросу (по «мнению» поискового сервера).

В задачи поисковых систем входит обеспечение оптимальной производительности и эффективного поиска и равноправного доступа ко всем ресурсам, полный охват сетевой информации. Эти задачи решаются на основе статистической обработки информации.

Любая поисковая система уникальна, все применяемые методы индексирования и ранжирования документов являются коммерческой тайной, однако основные принципы работы поисковых систем сходны.

В структуре поисковой системы (рис. 4.14) можно выделить следующие модули:

  • • поисковый робот (краулер) — программа, осуществляющая сканирование сети;
  • • индексатор;
  • • база данных документов;
Структура поисковых систем

Рис. 4.14. Структура поисковых систем

  • • модуль ранжирования;
  • • интерфейс пользователя.

Поисковая машина работает по следующей схеме.

  • 1. Поисковый робот просматривает документы в Интернете с целью выявления новых документов для включения их в индекс — базу данных поисковой системы. Процесс занесения информации называется индексированием. Поисковый робот использует наличие в документах гиперссылок на другие документы, что позволяет автоматически формировать очередь таких документов. Кроме того, поисковые системы имеют механизм регистрации, что дает возможность владельцам сайтов вручную добавлять свои страницы в очередь на индексирование. Таким образом, поисковый робот:
    • • исследует веб-страницы из списка URL, полученного при предыдущем исследовании сети;
    • • извлекает на страницах ссылки на другие сайты;
    • • исследует URL, добавляемые веб-мастерами вручную (регистрация в поисковике).
  • 2. Все найденные страницы закачиваются в базу данных поисковой системы в определенном формате (индексируются) для последующей обработки и определения релевантности страниц. В процессе занесения документов в индекс составляется список слов документа, которые являются потенциальными ключевыми словами запросов пользователей. Каждая поисковая система имеет свои алгоритмы индексирования и форматы индексных файлов.
  • 3. После формирования базы данных рассчитываются внутренние и внешние характеристики страниц для определения их релевантности и ранжирования в будущей выдаче поисковой системы по определенным запросам. Алгоритм определения релевантности представляет собой математическую формулу с сотнями параметров, которые могут ежедневно меняться.

В процессе сопоставления сайта запросу поисковая машина присваивает каждой странице определенный рейтинг, который показывает, насколько она соответствует формуле релевантности данной поисковой машины.

  • 4. По запросам пользователей веб-сервер обращается к серверу индексации. Осуществляется поиск страниц, содержащих ключевые слова, соответствующие запросу.
  • 5. В базе данных осуществляется поиск нужных страниц. Производится ранжирование (сортировка) — процесс выбора страниц из базы поисковой машины, соответствующих запросу пользователя, и упорядочение их по степени убывания соответствия (релевантности) запросу. Создаются фрагменты (сниппеты, snippet — обрывок, отрывок) для размещения в выдаче поисковой машины.

Сниппет представляет собой краткую «выжимку» содержания документа, показывается в результатах поиска и располагается сразу под заголовком найденной страницы. Он формируется автоматически на основе части текста страницы, содержащей слова запроса, и во многих случаях позволяет пользователю получить представление о документе или даже искомую информацию, не переходя по ссылке.

Схема работы поисковой системы приведена на рис. 4.15 [3]. [1]

Схема работы поисковых систем (скрипт, база данных, сайт)

Рис. 4.15. Схема работы поисковых систем (скрипт1, база данных, сайт)

Объем индекса — характеристика, позволяющая оценить потенциальные возможности поисковой системы с точки зрения полноты поиска.

  • [1] Скрипт (сценарий) — программа, автоматизирующая некоторую задачу, которую без сценария пользователь делал бы вручную, используя интерфейс программы.
 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >