тематический указатель:
поисковые
поисковые системы
Назад (Заключение) Вперёд (Приложение А)

Приложение А

Приложение А

Роботы поисковых систем

Определения и терминология

Имена роботов

Немного истории

Что делают роботы поисковых систем

Поведение роботов на сайте

Управление роботами

Выводы

Полезные ссылки

Что такое роботы поисковых систем ? Какую функцию они выполняют? Каковы особенности работы поисковых роботов? Здесь мы постараемся дать ответ на эти и некоторые другие вопросы, связанные с работой роботов.

А.1. Определения и терминология

В английском языке существует несколько вариантов названий поисковых роботов: robots, web bots, crawlers, spiders; в русском языке фактически прижился один термин — роботы, или сокращенно — боты . На сайте www.robotstxt.org дается следующее определение роботам: “Веб-робот — это программа, которая обходит гипертекстовую структуру WWW, рекурсивно запрашивая и извлекая документы”. Ключевое слово в этом определении — рекурсивно, т.е. имеется в виду, что после получения документа робот будет запрашивать документы по ссылкам из него и т.д.

А.2. Имена роботов

Большинство поисковых роботов имеют свое уникальное имя (кроме тех роботов, которые по каким-то причинам маскируются под пользовательские браузеры).

Имя робота можно увидеть в поле User-agent серверных лог-файлов, отчетах систем серверных статистик, а также на страницах помощи поисковых систем. Так, робота Яндекса собирательно называют Yandex, робота Рамблера — StackRambler , робота Yahoo ! — Slurp и т.д. Даже пользовательские программы, собирающие контент для последующего просмотра, могут специальным образом представляться с помощью информации в поле User-agent. Кроме имени робота, в поле User-agent может находиться больше информации: версия робота, предназначение и адрес страницы с дополнительной информацией. Приведем в качестве примера полное имя робота Google (рис. А.1) Рис. А.1. Структура полного имени робота Google 116.1.gif

А.3. Немного истории

Еще в первой половине 1990-х годов, в период развития Интернета, существовала проблема веб-роботов, связанная с тем, что некоторые из первых роботов могли существенно загрузить веб-сервер, вплоть до его отказа, из-за того, что делали большое количество запросов к сайту за слишком короткое время. Системные администраторы и администраторы веб-серверов не имели возможности управлять поведением робота в пределах своих сайтов, а могли лишь полностью закрыть доступ роботу не только к сайту, а и к серверу. В 1994 году был разработан протокол robots.txt, задающий исключения для роботов и позволяющий пользователям управлять поисковыми роботами в пределах своих сайтов. Об этих возможностях вы читали в главе 6 “Как сделать сайт доступным для поисковых систем”.

В дальнейшем, по мере роста Сети, количество поисковых роботов увеличивалось, а функциональность их постоянно расширялась. Некоторые поисковые роботы не дожили до наших дней, оставшись только в архивах серверных лог-файлов конца 1990-х. Кто сейчас вспоминает робота T-Rex, собирающего информацию для системы Lycos? Вымер, как динозавр, по имени которого назван. Или где можно найти Scooter — робот системы Altavista? Нигде! А ведь в 2002 году он еще активно индексировал документы. Даже в имени основного робота Яндекса можно найти эхо минувших дней: фрагмент его полного имени “compatible; Win16;” был добавлен для совместимости с некоторыми старыми веб-серверами.

Назад (Заключение) Вперёд (Приложение А)
Связаться с нами: info@internet-marketing-theory.ru