Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow Интернет-технологии в экономике знаний

ПОИСК СРЕДСТВАМИ ТРАДИЦИОННЫХ ПОИСКОВЫХ МАШИН

Традиционные поисковые машины обычно состоят из двух независимых частей: индексирующего робота (паука, слайдера) и собственно поискового движка (engine), работающего с внутренней базой данных поисковой системы.

Индексирующий робот — это программа, которая, начав свою работу с заданного адреса (URL), рекурсивно обходит все найденные на страницах ссылки, сканируя имеющуюся на них информацию и внося резюме о ней в БД поисковой машины. Этот робот производит индексирование и тех ресурсов, информация о которых была получена от пользователя, а не найдена непосредственно.

Поисковый движок — система, позволяющая по запросу пользователя выдать список ресурсов, ранее проиндексированных роботом и наиболее релевантных запросу пользователя.

Соответственно, возникают и две группы проблем, связанные с этими частями поисковой машины.

1. Робот анализирует информацию, представленную пользователю в статическом текстовом виде. Извлечение информации из графических образов сложно по вполне понятным причинам, а попытка анализа динамически формируемых страниц почти всегда приводит к резкому уменьшению конечной релевантности, поскольку для динамических страниц переход в различных условиях (например, в различное время) по сохраненному в базе URL может возвращать различную информацию.

2. Затруднено определение степени истинной релевантности описанного в базе ресурса по отношению к запросу пользователя, поскольку в БД сохраняются только косвенные характеристики информации, по которым сложно восстановить реальный контекст ресурса, а используемые методики оценки релевантности являются механистичными.

Последнее утверждение можно пояснить, приведя используемые для оценки релевантности термины:

Ключевое слово (keyword) — слово, или фраза, которую вы вводите в форму поиска, когда ищете информацию по интересующей вас теме.

Частота ключевого слова (keyword frequency) — встречаемость, частота использования. Сколько раз встречается данное ключевое слово на странице.

Плотность ключевого слова (keyword density) — показатель, учитывающий не только, сколько раз встречается ключевое слово на странице, но и как часто оно используется в определенном объеме текста. «Перебор» по плотности может быть расценен поисковой системой как спамдексинг, и страница будет исключена из индекса.

ззо

Положение ключевого слова на странице (keyword prominence) — показатель, учитывающий, как близко к началу страницы находится заданное ключевое слово. Как правило, чем ближе к началу страницы встречается слово запроса, тем релевантнее считается данная страница по данному слову, но бывают и исключения.

Титул (title tag) — содержание тэга титул отображается в титульной строке браузера (на самом верху окна). Поисковые системы в листе ответов используют текст титула для оформления ссылки на сайт, соответствующий запросу пользователя. Размещение ключевых слов в титуле страницы резко повышает ее релевантность по данным словам.

Вес ключевого слова (keyword weight) — отношение частоты использования ключевого слова к общему количеству слов на индексируемой странице, выраженное в процентах. В общем случае увеличение веса ключевого слова на странице ведет к повышению ее релевантности. Но существует предел, превышение которого расценивается как спам и ведет к исключению страницы из индекса.

Индекс цитирования (link popularity) — количество сайтов, которые ссылаются на данный сайт. Многие поисковые системы учитывают этот показатель при ранжировании результатов поиска. Итак, несмотря на попытки сделать поиск контекстно-зависимым

(например, введением плотности ключевого слова), подобные технологии обеспечивают лишь механистический поиск. Попробуем это проиллюстрировать.

Пусть, например, пользователь ввел такой текстовый запрос к поисковой машине: АСТРОЛОГИЧЕСКОЕ СОЗВЕЗДИЕ ОСКАРА УАЙЛЬДА, имея в виду, что он желает узнать, под каким знаком родился указанный литературный деятель. Предположим также, что в базе находятся только три фрагмента текста, имеющих отношение к этой теме:

1. Книжный магазин «Купи и Читай». Созвездие великих литераторов, таких, как Марк Твен, Оскар Уайльд, Владимир Набоков, Агата Кристи теперь доступно вашему вниманию в новой серии издательства «КиЧ». Каждому купившему всю серию — бесплатно новый бестселлер великого астролога Линды Гудмен.

2. Знаки Зодиака известных личностей... Оскар Уайльд родился под знаком Девы.

3. Сайт «Созвездие астрологов», на которой приводятся работы известных астрологов. В одной из работ имеется эпиграф, цитирующий Оскара Уайльда.

Нетрудно предсказать наиболее вероятный исход поиска при таких условиях. Позиции 1 и 3 займут первые два места в списке релевантных ресурсов, а позиция 2, на 100% релевантная запросу пользователя, может вообще не попасть в этот список. Можно предположить, что в таком случае результаты поиска не удовлетворят пользователя и заставят его многократно переформулировать запрос, чтобы получить релевантный отклик.

Поисковые машины не учитывают структуру текста, его семантику, и тем самым контекстно-независимы.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
 
Популярные страницы