тематический указатель:
поисковые
поисковые машины
гиперссылки
поисковые системы
поисковики
результат поиска
Назад (Основные факторы, влияющие на релевантность) Вперёд (Основные факторы, влияющие на релевантность)

Факторы, не зависящие от запроса (статические)

Если выразиться точнее — фактор, который в общем случае имеет название показатель авторитетности или ранг документа. В нашей формуле он обозначается как PRa. В рассматриваемых поисковых машинах он именуется по-разному, однако все они при его расчёте используют алгоритмы, учитывающие гиперссылки между документами. Эти алгоритмы являются, по сути, модификациями алгоритма PageRank, придуманного в свое время двумя американскими аспирантами Сергеем Брином и Ларри Пейджем, основавшими в последствии поисковую машину Google.

PageRank в Google

С ростом объёма информации в Интернете вообще и информации, индексируемой поисковыми системами в частности, перед разработчиками поисковиков встала серьёзная проблема — количество одинаково релевантных запросу документов было велико, и корректно ранжировать их в результатах поиска становилось всё сложнее. К тому же алгоритмы ранжирования, разработанные для контролируемых коллекций документов, оказались беззащитны перед простейшими способами воздействия на них, когда для обеспечения хорошего результата достаточно было просто скопировать структуру расположения ключевых слов из текста хорошо ранжируемого по этому запросу документа. Появилась необходимость разделять информацию на более и менее достоверную, учитывать «важность» или «авторитетность» ресурсов, предоставляющих её. Как это сделать? Лучше всего на основе данных о популярности страницы у пользователей, например посещаемости. Но тогда потребуется устанавливать какой-либо счётчик на каждую страницу. Такой вариант для глобального поиска не подходит. Тогда в качестве критерия была выбрана теоретическая посещаемость страницы.

Была разработана модель, эмулирующая движение пользователя по документам сети путем перехода по ссылкам с документа на документ, подразумевающая, что пользователь с равной долей вероятности перейдет по любой из ссылок, содержащихся в документе, который он в данный момент просматривает. Следовательно, вероятность пользователя попасть на конкретный документ зависит от количества ссылок на него с других документов и от того, насколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько исходящих ссылок содержит этот ссылающийся документ. Эта вероятность и была принята за показатель авторитетности или ранг страницы (PageRank): 041.1.gif

PRa — PageRank рассматриваемой страницы, d — коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, обычно устанавливается равным 0,85),

PRi — PageRank i-й страницы, ссылающейся на страницу а, Ci — общее число ссылок на i-й странице.

Одним из распространенных заблуждений является то, что можно вычислить PageRank по этой формуле для отдельно взятого документа, используя известные значения PageRank для ссылающихся на него документов. Так делать нельзя. Чтобы вычислить PageRank какого-либо документа надо составить систему N линейных уравнений данного вида для каждого из документов из поисковой базы, где N — количество документов в поисковой базе. Эта система будет содержать N неизвестных. Решив ее, получим значения PageRank для каждого документа, известного поисковой машине. В поисковой базе крупнейших поисковых машин содержится огромное количество документов. Несмотря на то, что матрица, соответствующая системе уравнений будет сильно разрежена, численное решение этой системы требует огромных вычислительных мощностей. Поэтому поисковая система должна постараться максимально упростить процесс расчета, вводя некоторые допущения. Вот эти конкретные особенности реализации классической формулы PageRank, увы, составляют коммерческую тайну поисковых машин. Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar — специальную панель инструментов для работы с этим поисковиком.

ВИЦ в Яндексе

В Яндексе аналогичная PageRank величина, обозначающая количественное представление «авторитетности» страницы и называемая «взвешенный индекс цитирования» — ВИЦ, была введена весной 2001 года. Как говорили сами представители Яндекса, ВИЦ высчитывается на основе классического алгоритма PageRank «с точностью до деталей реализации».

До осени 2002 года ВИЦ можно было посмотреть с помощью Яндекс-Бара, специальной панели инструментов. В нем отражался ВИЦ главной страницы с точностью до сотых. Теперь в этом индикаторе отображается значение тИЦ, совсем другого показателя, использующегося для ранжирования ресурсов в каталоге Яндекса, и узнать значение ВИЦ не представляется возможным.

Назад (Основные факторы, влияющие на релевантность) Вперёд (Основные факторы, влияющие на релевантность)
Связаться с нами: info@internet-marketing-theory.ru