тематический указатель:
поисковые
поисковые системы
поисковики
Назад (Рынок поиска в Рунете) Вперёд (Поисковые системы в перспективе)

Поисковые системы в перспективе

Поисковые системы в перспективе

Илья Сегалович, Яндекс, технический директор

Обзор развития поисковых систем, современные задачи, стоящие перед поисковиками.

Введение

Востребованность поисковых технологий растет вместе с популярностью Интернета или даже опережает ее. При этом «полезность» самого Интернета во многом определяется именно наличием в нем поисковых систем и качеством их работы. По-видимому, это взаимообусловленный процесс. Кто знает, как развивался бы Интернет, если бы поисковые системы пошли по пути платного использования: а ведь это был вполне возможный сценарий в 1994-1995 гг.? Особенности среды, в которой функционируют поисковые системы: корпус, запросы пользователей, — то, что поначалу казалось мелкими досадными проблемами, осложняющими работу, теперь воспринимаются как имманентные признаки интернет-поиска, более того, парадоксальным образом обуславливающие его популярность.

Иными словами, по-настоящему массово поиск востребован только в самой «живой» и полной коллекции, которая по определению не является чистой. Массовость же использования привносит в парадигму человеко-машинного взаимодействия эффекты «необучаемости», «телеграфного языка»No и «рваного синтаксиса» и накладывает жесткие требования на содержание ответов и логику работы поисковых систем.

История развития

Поисковые системы прошли несколько стадий в своем развитии. Первый этап: 1994-1999

1994 год - запуск Infoseek

1995 год - запуск Altavista

1996 год - запуск Inktomi, Excite, Rambler

1997 год - запуск Яndex, Апорт

Первое поколение существовало на уровне мировых поисковых систем в 1994-1999 годах, в России в 1996-2000 гг.

Для этого периода характерно использование традиционных для IR (Information Retrieval — наука информационного поиска) техник: учет в ранжировании преимущественно текстовой информации на странице (частотных характеристик или «различительной силы» слов (TF*IDF — численная мера соответствия слова и документа в векторной модели; тем больше, чем относительно чаще слово встретилось в документе и относительно реже в коллекции), их взаимного положения, особенностей HTML-форматирования). Кроме того, поисковые системы первого поколения поддерживали простейшее удаление точных копий документов.

Второй этап: после 1999

В течении лета-осени 1999 года все основные мировые поисковые системы включили ссылочную популярность в число факторов, влияющих на ранжирование поисковой выдачи. В России этот фактор в веб-поиске был впервые применен системой «Апорт» в 2000 г., а затем «Яндексом» в

2000 г. частично, и в 2001 г.в полном объеме.

Второе поколение поисковых систем привнесло в процесс поиска и ранжирования несколько важных «внетекстовых» факторов, или, другими словами, факторов «популярности». Анализ графа ссылок и текста ссылок впервые появился в прототипе поисковой системы Google в 1998 году (официальный старт сайта www.google.com — январь 1999 года), а данные о переходах пользователей по поисковым запросам начали использоваться в системе DirectHit тогда же, в 1998. Однако именно анализ ссылок оказался наиболее продуктивным решением, обусловившим доминирование поисковой системы Google на мировом поисковом рынке.

Назад (Рынок поиска в Рунете) Вперёд (Поисковые системы в перспективе)
Связаться с нами: info@internet-marketing-theory.ru