тематический указатель:
поисковые
поисковые машины
индексация
поисковики
результат поиска
оптимизация
гиперссылки
Назад (Поисковые системы в перспективе) Вперёд (Поисковая система «Апорт»: сегодня и завтра)

Изменения в архитектуре поисковой машины Рамблер

Изменения в архитектуре поисковой машины Рамблер

Андрей Коваленко, Rambler, ведущий разработчик

Новая версия «Рамблера».

Особенности индексации и ссылочного ранжирования.

Предыстория

История развития поисковой машины Рамблер состоит из двух больших этапов, граница между которыми проходит в 2000 году. Собственно, именно тогда была проведена перестройка компании, сменилась команда разработчиков и началось проектирование новой поисковой машины. Работавший на тот момент поисковик, хоть и выполнял свои функции, уже устарел и стал заметно отставать и по качеству поиска, и по технологическим характеристикам, таким, как частота обновления информации, устойчивость к растущим нагрузкам, расширяемость. Двухтысячный год ушел на проектирование и изготовление индексирующих и поисковых алгоритмов и частей системы, и, поджимаемые обстоятельствами, в конце года мы запустили новую версию, рассчитывая на то, что в фоновом режиме позже сделаем и наладим всю технологическую обвязку, позволяющую поисковику работать без постоянного нашего вмешательства.

Далее, как водится, жизнь расставила все по местам — объемы информации росли, нагрузка росла, силы уходили на «поджимание» индексов, на борьбу с результатами трудов оптимизаторов, на ускорение ключевых мест поисковика, а архитектура системы оставалась без принципиальных изменений: все машины, обрабатывающие запросы, содержали полную копию всего поискового индекса. Чуть позже был предпринят первый шаг в сторону распределенной обработки запросов: были выделены машины-proxy и машины-поисковики. Последние собственно вычисляли запросы и ранжировали выдачу, а первые «навешивали» на результаты мишуру — строили цитаты и подставляли названия документов. Это позволило, как ни странно, значительно сократить требования к объему дисков используемых машин.

Однако объемы информации продолжали расти, и Рамблеру опять стало тесно. Тогда и началась долго обсуждавшаяся в команде разработка новой версии поисковой машины.

Цвета Интернета

Обрабатываемый сегмент Интернета был формально разбит на непересекающиеся множества сайтов, каждое из которых было названо «цветом» по аналогии со спектром белого. Вообще же количество этих цветов может быть любым. Каждый из «цветов» растиражирован на несколько машин, причем количество этих машин можно увеличивать по мере роста нагрузки. Обновление индекса по каждому из цветов может происходить независимо.

Поиск по всем частям базы осуществляется параллельно, результаты поиска объединяются. За счет этого поиск происходит в несколько раз быстрее по сравнению с поиском по монолитной индексной базе.

Распределение обеспечивает устойчивость и стабильность работы системы при повышении нагрузки или авариях. В подобных случаях из результатов поиска не пропадают соответствующие части индекса, так как поток запросов динамически перенаправляется на наименее нагруженные машины.

В результате этих изменений частота обновления индекса сейчас как минимум ежедневная — обновляется как минимум один «цвет», то есть полное обновление происходит за неделю.

Еще одна, восьмая, часть индекса представляет собой «быструю базу», построение которой занимает всего два часа. Туда входят страницы, на которых размещен счетчик Тор100. Каждый раз, когда на одном из ресурсов, участвующих в рейтинге Тор100, появляется новая страница, которой еще нет в индексе, она отправляется в очередь на обработку. Перед обработкой страницы фильтруются, из них отбираются наиболее посещаемые. В настоящее время быстрая база обновляется два раза в сутки, однако в ближайшее время планируется обновлять ее чаще. Кроме того, ежедневно индексируется описание сайта в Тор100. Остальные изменения касаются оптимизации формата индекса, давшей почти тридцатипроцентную экономию дискового пространства, и оптимизации производительности поиска. «Рамблер» и Flash

Еще в марте 2003 года Рамблер начал извлекать гиперссылки из объектов Macromedia Flash. Если сайт имеет заставку или навигационные панели, выполненные c использованием этой технологии, Рамблер обработает их, найдет адреса всех страниц сайта и проиндексирует весь сайт. Однако сами тексты, размещённые в fl ash-объектах не индексируются. Это решение принято потому, что большая часть таких объектов содержит элементы навигации, заставки, меню и другие фрагменты, очень важные в качестве источника гиперссылок, но малоинформативные как текст. Поэтому для сайтов, которые целиком состоят из fl ash-объектов, рекомендуется создать HTML-копию и зарегистрировать ее в поисковой машине. «Рамблер» и ссылки

Осенью 2002 года поисковая машина стала рассчитывать для каждого документа коэффициент популярности. Данный коэффициент, как и алгоритм PageRank, основан на учете гиперссылок между страницами сети, однако наша реализация дополнительно использует данные о реальной посещаемости страниц, полученные от счетчика Top100. Дело в том, что «классические» ссылочные алгоритмы фактически учитывают мнение только одной категории пользователей сети — web-мастеров. Действительно, если большому количеству web-мастеров нравится тот или иной ресурс, они размещают на него ссылки. Обычные пользователи, как правило, созданием страниц и сайтов не занимаются, и поэтому учесть их мнение оказывается невозможно. Счетчик Top100 как раз и предназначен для того, чтобы сделать коэффициент популярности более справедливым.

Весной 2003 года на «Рамблере» заработал и ссылочный поиск. Сейчас в выдаче поисковой машины наверх поднимаются те страницы, на которые есть гиперссылки с других станиц Сети, причем учитываются только ссылки, содержащие слова запроса.

Назад (Поисковые системы в перспективе) Вперёд (Поисковая система «Апорт»: сегодня и завтра)
Связаться с нами: info@internet-marketing-theory.ru