Что такое Page Rank (PR) для сайтов?
Что такое Page Rank (PR) для сайтов?Page Rank – название одного из критериев оценки сайтов от Google. От отражает авторитетность сайтов и влияет на место в выдаче при ранжировании. Главное отличие Page Rank от тИЦ – он рассчитывается для каждой страницы сайта.
Есть 2 типа PR:
- Внешний
- Внутренний
Узнать формулу, по которой рассчитывают внутренний PR сайта, нельзя. Поэтому далее в статье мы будем говорить только о внешнем Page Rank. Текст будет полезен для вебмастеров, SEO-специалистов и маркетологов.
Формула для определения Page Rank сайта
Критерий важен для продвижения, но не является основным, чтобы ради его повышения пренебрегать действительно обязательными пунктами для SEO. Но сайты с PR 1-5 считаются гораздо авторитетнее, чем с нулевым показателем. Максимальный показатель – 10.
Факторы, влияющие на Page Rank:
- Контент: уникальность, полезность, релевантность
- Внешние ссылки: количество, качество, естественность
Более подробная формула алгоритма:
Для подсчёта PR используются разные плагины для браузера или сервисы. Достаточно только ввести адрес своего сайта и через несколько секунд получить результат.
Как Page Rank влияет на ранжирование?
Необходимо знать 5 правил формирования выдачи:
- Поисковые роботы анализируют все страницы, отвечающие на запрос
- На основе результатов анализа проходит предварительное ранжирование
- Алгоритм Google отфильтровывает сайты с неестественными ссылками
- Итоговый список сайтов ранжируется и отображается в выдаче поисковика
- Google редко обновляет показатель авторитетности: всего 1-2 раза в год
Стоит ли SEO-специалисту в 2023 году обращать внимание на Page rank страницы
Google PageRank был одним из основных показателей релевантности и важности веб-страницы, который оценивался Google на основе ссылок, указывающих на эту страницу. Однако, Google объявил о прекращении поддержки PageRank в 2016 году и больше не обновляет этот показатель.
Сегодня для SEO-специалиста гораздо важнее следить за другими показателями, такими как позиция страницы в выдаче поисковика (SERP), ее скорость загрузки, пользовательский опыт (UX), количество внешних ссылок, внутренняя структура сайта и многие другие факторы, которые могут повлиять на позиции сайта в поисковой выдаче.
Таким образом, SEO-специалистам в 2023 году не стоит обращать внимание на PageRank страницы, поскольку этот показатель устарел и больше не используется Google для оценки релевантности и важности веб-страниц.
Как поднять Page Rank с помощью перелинковки?Перелинковка — это процесс построения связей между веб-сайтами для повышения релевантности и поднятия Page Rank. Для этого необходимо создавать ссылки на страницы своего сайта на других сайтах, а также получать ссылки с других сайтов. Одним из наиболее эффективных способов построения ссылок является гостевое письмо, в котором можно предложить размещение ссылки на свой сайт. Также размещение своих статей, публикация в социальных сетях, а также публикация обзоров, отзывов и комментариев — это еще один эффективный способ построения связей.
СПАСИБО, ЧТО ДОВЕРИЛИСЬ НАМ!
Мы вас не подведём! Наш менеджер перезвонит в течение часа, чтобы обсудить всё, что вам интересно. Не бойтесь спрашивать, мы не кусаемся!
СПАСИБО, ЧТО ДОВЕРИЛИСЬ НАМ!
Мы вас не подведём! Наш менеджер перезвонит в течение часа, чтобы обсудить всё, что вам интересно.
Не бойтесь спрашивать, мы не кусаемся!СПАСИБО, ЧТО ДОВЕРИЛИСЬ НАМ!
Мы вас не подведём! Наш менеджер перезвонит в течение часа, чтобы обсудить всё, что вам интересно. Не бойтесь спрашивать, мы не кусаемся!
Беларусь
Россия
Другие
СПАСИБО, ЧТО ДОВЕРИЛИСЬ НАМ!
Мы вас не подведём! Наш менеджер перезвонит в течение часа, чтобы обсудить всё, что вам интересно. Не бойтесь спрашивать, мы не кусаемся!
Беларусь
Россия
Другие
При нахождении на сайте Вы соглашаетесь с политикой обработки персональных данных.
Всё понятно!
PageRank (PR) — глоссарий КСК ГРУПП
PageRank (PR) — глоссарий КСК ГРУППНесмотря на разрушительный эффект нового алгоритма Penguin в отношении сайтов с сомнительным профилем бэклинков, пресловутые гиперссылки по-прежнему остаются одним из базовых элементов любой цифровой маркетинговой кампании. В этом посте я хочу рассмотреть семь разрешенных стратегий линкбилдинга на 2017 г.
Однако сначала давайте взглянем на то, почему в 2017 г. линкбилдинг по-прежнему очень важен, что он вообще собой представляет.
Почему в 2017 году ссылки все еще важны
В цифровом маркетинге термин «линкбилдинг» часто рассматривается в негативном свете. Действительно, для многих малых компаний, успевших пострадать от сотрудничества с недобросовестными SEO-агентствами, любая стратегия, которая даже неявно пытается обмануть алгоритмы Google, вызывает страх и ужас. И давайте говорить прямо: эти опасения отчасти оправданы, поскольку исторически линкбилдинг действительно был связан с запрещенными SEO-техниками.
И все же сама идея того, что наращивание ссылочной массы может рассматриваться с негативной точки зрения, парадоксальна, поскольку для Google ссылки продолжают оставаться самым сильным фактором ранжирования.
Вместо этого среди оптимизаторов и коммерческих структур, которые пользуются их услугами, необходимо изменить само представление о том, что существует простой и быстрый способ увеличить объем ссылочной массы.Немного об алгоритме Penguin
С сентября 2016 г. обновление Google под название Penguin работает в режиме реального времени в рамках основного алгоритма поиска Google. Penguin вышел в 2012 г. и с тех пор забраковал немало некачественных сайтов. Теперь некачественно выстроенный линкбилдинг приведет к тому, что вы (или ваш клиент) ощутите штрафные санкции поисковика намного быстрее, чем раньше (хотя, если судить с другой стороны, это также означает более быстрое восстановление от его последствий). Для тех SEO-оптимизаторов, которые до сих пор пользуются так называемыми «черными» техниками наращивания ссылочной массы, это означает, что теперь у них будет гораздо меньше простора для маневра в том, что касается быстрых результатов, независимо от неизбежных последствий, о которых можно какое-то время не переживать.
Как это коснется линкбилдинга в 2017 г.? В целом Penguin продолжает оказывать давление на оптимизаторов с целью заставить их работать корректно, в то же время круг возможностей для избегания штрафов со стороны системы значительно сузился. В 2017 г. просто не будет простых и быстрых способов нарастить гигантскую ссылочную массу и выйти сухим из воды. Если вы хотите сделать все грамотно и без негативных последствий, заставьте своего клиента запастись терпением.
Так что без лишних слов предлагаю перейти к рассмотрению ряда полезных тактик линкбилдинга, которые могут пригодиться в 2017 г., а также к обзору тех методов, которые вам действительно стоит оставить в прошлом.
- PBN для линкбилдинга больше не работает
- Сегодня накрутка рейтинга сайтов при помощи сетки частных сайтов (PBN, или Private Blog Network) — это мертвая тактика. Пару лет назад этот запрещенный метод еще применялся, однако риски, связанные с этим видом деятельности, а также время и деньги, потраченные на поиск и покупку высококачественных доменов, говорили о том, что игра попросту не стоит свеч. Более подробно об этом вы сможете узнать в статье Натана Готча о PBN.
- Инвестируйте свое время в налаживание прочных контактов
- Поскольку возможностей для относительно простого и малозатратного наращивания ссылочной массы становится все меньше, приходит понимание важности построения реальных и прочных отношений с авторитетными сайтами и доменами. Да, здесь придется приложить намного больше усилий, но выигрыш от подобного сотрудничества с популярными ресурсами с большой аудиторией читателей и подписчиков несравненно больше. Лучше получить одну ссылку с сайта DA70, чем 4 от слабых DA30 блогов, поскольку шансы, что страница с сайта DA70 получает ссылки естественным путем, намного выше. Если разобраться в этом вопросе поподробнее, становится очевидным, почему домены с высоким показателем DA так высоко ценятся в сети.
- Фокусируйтесь на релевантности сайта
- Если сравнивать с качеством домена и прочими показателями метрики, релевантность сайта всегда оставалась на второстепенных ролях, однако с точки зрения линкбилдинга такой подход весьма близорук. Ориентация на релевантные сайты — это гарантированный и безопасный способ налаживания связей. При этом сайт с высокой релевантностью и средним DA всегда будет иметь преимущество перед сайтом со средней или низкой релевантностью, но высоким показателем DA. Trust Flow от Majestic — это мощный инструмент для определения качества сайта на основе его релевантности.
- Знайте своего клиента в лицо
- Еще более действенное средство поиска и идентификации релевантных сайтов — умение по-настоящему понять потребности ваших клиентов, а также те проблемы, с которыми они сталкиваются. Еще важно знать в лицо контент, который они читают, и интернет-площадки, на которых они любят тусоваться. Создание маркетинговых «портретов», основанных на вашем видении образа «идеального клиента», также поможет вам создать более релевантный контент, а также искать более релевантные сайты. Можно поддаться искушению и положиться на специальные веб-инструменты, однако зачастую этот ручной и более деликатный подход является гораздо более эффективной стратегией.
- Найдите альтернативу Page Rank
- Несмотря на отсутствие обновлений в течение многих лет, система Google PageRank официально ушла в прошлое лишь в апреле 2016 г. Это заставило некоторых оптимизаторов, которые по-прежнему настаивали на использовании его в качестве метрики, искать новые альтернативные варианты. Если вы отказались от PageRank сравнительно недавно (если нет, то пришло время это сделать), в 2017 г. вам следует наконец вычеркнуть этот алгоритм из списка индикаторов, определяющих авторитетность сайта, и начать использовать более актуальные и регулярно обновляемые метрики от Moz, Majestic или Ahrefs.
- Распределяйте анкоры с умом
- Анкорный текст является одним из основных сигналов релевантности для Google, но он также может стать потенциальной ловушкой для тех, кто решит злоупотребить им. Неестественное распределение анкорного текста в контенте может обрушить ваш рейтинг или даже стать причиной штрафа со стороны поисковика. Попробуйте распределить свои ключевые слова по различным видам анкорных ссылок и не забывайте следить за соотношением этих ссылок с брендовыми и голыми анкорами. Помните, что прямое вхождение анкора не должно превышать 1%.
- Создавайте качественный контент
- Преимущества создания качественного и уникального контента обсуждались на всевозможных площадках столько раз, что мне даже неудобно снова поднимать этот вопрос в 2017 г. Скажем просто: если вы до сих пор создаете контент для поисковых систем, а не для людей, ваша линкбилдинг-стратегия совершенно точно потерпит неудачу. Точка. И тем не менее у многих людей старые привычки умирают с трудом. Безусловно, идея разместить дешевый контент часто выглядит весьма заманчивой, однако прямая связь между качеством контента и SEO-рейтингом сегодня становится слишком очевидной. Так что избавьтесь от некачественного копирайта и начните производить по-настоящему интересный и качественный контент, который придется читателю по душе.
- Не игнорируйте социальные медиа
- Хорошо, социальные медиа напрямую не влияют на ранжирование в Google, и вряд ли в этом смысле что-то изменится в 2017 г. Однако в настоящее время такие платформы, как Facebook и Twitter, настолько сильно влияют на то, как мы осуществляем поиск и обмениваемся контентом в Интернете, что было бы просто непростительно не обратить на них внимание. Преимущества такого метода с точки зрения SEO проявляются косвенно: продвижение вашего контента происходит через базу ваших подписчиков, которые, в свою очередь, показывают ваш контент своим подписчикам и т. д. Это надежная стратегия линкбилдинга, которую вы не имеете права игнорировать.
Заключение
Если говорить о линкбилдинге, то искушение воспользоваться запрещенными методиками будет жить вечно. Одна общая тенденция, которую мы наблюдали в течение последних нескольких лет с тех пор, как Penguin и Panda устроили переворот в SEO, заключается в том, что Google все более активно борется с методами, направленными на искусственное повышение рейтинга сайта. Мой совет прост: держитесь подальше от подобных методов и относитесь с большим подозрением к любым тактикам, которые могут показаться сомнительными.
Безусловно, нормальный линкбилдинг занимает куда больше времени. Действительно, на ранней стадии придется инвестировать больше средств и времени, прежде чем вы увидите результаты. Но в среднесрочной и долгосрочной перспективе вы получите ощутимый результат в виде надежного бэклинк-профиля, который сможет выдержать проверку временем.
Возврат к списку
Объяснение Google PageRank для начинающих SEO-специалистов
PageRank когда-то был в самом центре поиска — и это то, что сделало Google империей, которой она является сегодня.
Даже если вы считаете, что поиск ушел от PageRank, нельзя отрицать, что эта концепция уже давно широко распространена в отрасли.
Каждый специалист по поисковой оптимизации должен хорошо понимать, что такое PageRank и чем он является сегодня.
В этой статье мы рассмотрим:
- Что такое PageRank?
- История развития PageRank.
- Как PageRank произвел революцию в поиске.
- PageRank панели инструментов и PageRank.
- Как работает PageRank.
- Как PageRank перемещается между страницами.
- PageRank все еще используется?
Давайте углубимся.
Что такое PageRank?
Созданный основателями Google Ларри Пейджем и Сергеем Брином, PageRank представляет собой алгоритм, основанный на совокупной относительной силе всех гиперссылок в Интернете.
Большинство людей утверждают, что название было основано на фамилии Ларри Пейджа, в то время как другие предполагают, что «Пейдж» относится к веб-странице. Обе позиции, вероятно, верны, и совпадение, вероятно, было преднамеренным.
Когда Пейдж и Брин учились в Стэнфордском университете, они написали статью под названием: Рейтинг цитируемости PageRank: наведение порядка в Интернете .
Опубликованная в январе 1999 года статья демонстрирует относительно простой алгоритм оценки надежности веб-страниц.
Изображение с сайта patches.google.com, апрель 2023 г.Документ стал патентом в США (но не в Европе, где математические формулы не подлежат патентованию).
Изображение с сайта patches.google.com, апрель 2023 г.
Стэнфордский университет владеет патентом и передал его компании Google. В настоящее время срок действия патента истекает в 2027 году.
Изображение с сайта patches.google.com, апрель 2023 г.История развития PageRank
Во время их пребывания в Стэнфорде в концеВ 90-е годы и Брин, и Пейдж искали методы поиска информации.
В то время использование ссылок для определения того, насколько «важна» каждая страница по отношению к другой, было революционным способом упорядочения страниц. Это было сложно с вычислительной точки зрения, но ни в коем случае не невозможно.
Идея быстро воплотилась в Google, который на тот момент был мелочью в мире поиска.
Некоторые стороны так сильно верили в подход Google, что компания изначально запустила свою поисковую систему, не имея возможности получать доход.
И хотя Google (известный в то время как «BackRub») был поисковой системой, PageRank был алгоритмом, который он использовал для ранжирования страниц на страницах результатов поисковой системы (SERP).
Google Dance
Одна из проблем PageRank заключалась в том, что математика, хотя и простая, требовала многократной обработки. Расчет выполняется несколько раз для каждой страницы и каждой ссылки в Интернете. На рубеже тысячелетий для обработки этой математики требовалось несколько дней.
За это время поисковая выдача Google двигалась вверх и вниз. Эти изменения часто были ошибочными, так как для каждой страницы рассчитывались новые значения PageRank.
Это было известно как «Танец Google», и оно, как известно, останавливало SEO-профессионалов дня каждый раз, когда Google запускал ежемесячное обновление.
(Позже Google Dance стал названием ежегодной вечеринки, которую Google устраивал для экспертов по поисковой оптимизации в своей штаб-квартире в Маунтин-Вью.) запустить алгоритм, а не давать каждой странице в Интернете одно и то же начальное значение.
Reasonable Surfer
Еще одна версия модели представила идею «разумного серфера».
Эта модель предполагает, что PageRank страницы может не распределяться поровну между страницами, на которые она ссылается, но может взвешивать относительную ценность каждой ссылки в зависимости от того, насколько вероятно, что пользователь щелкнет по ней.
The Retreat Of PageRank
Алгоритм Google изначально считался «незащищающим от спама», поскольку важность страницы диктовалась не только ее содержанием, но и своего рода «системой голосования», генерируемой ссылками на страницу. .
Однако уверенность Google была недолгой.
PageRank начал становиться проблематичным по мере роста индустрии обратных ссылок. Поэтому Google удалил его из публичного доступа, но продолжал полагаться на него в своих алгоритмах ранжирования.
Панель инструментов PageRank была закрыта к 2016 году, и, в конце концов, весь публичный доступ к PageRank был ограничен. Но к этому времени Majestic (инструмент SEO), в частности, смог достаточно хорошо соотнести свои расчеты с PageRank.
До января 2017 года Google много лет отговаривала специалистов по поисковой оптимизации от манипулирования ссылками с помощью документации «Рекомендации Google» и советов своей группы по борьбе со спамом, возглавляемой Мэттом Каттсом.0003
За это время изменились и алгоритмы Google.
Компания меньше полагалась на PageRank, и после покупки MetaWeb и ее проприетарной сети Knowledge Graph (названной в 2014 году Freebase) Google начала индексировать мировую информацию по-разному.
Панель инструментов PageRank против. PageRank
Поначалу Google так гордился своим алгоритмом, что был рад публично поделиться результатом его расчета со всеми, кто хотел его увидеть.
Наиболее заметным представлением было расширение панели инструментов для таких браузеров, как Firefox, которое показывало оценку от 0 до 10 для каждой страницы в Интернете.
По правде говоря, PageRank имеет гораздо более широкий диапазон оценок, но от 0 до 10 дает специалистам по поисковой оптимизации и потребителям мгновенный способ оценить важность любой страницы в Интернете.
Панель инструментов PageRank сделала алгоритм чрезвычайно наглядным, что также сопровождалось осложнениями. В частности, это означало, что ссылки — самый простой способ «обыграть» Google.
Чем больше ссылок (или, точнее, чем лучше ссылка), тем выше рейтинг страницы в поисковой выдаче Google по любому целевому ключевому слову.
Это означало, что сформировался вторичный рынок, покупающий и продающий ссылки, оцениваемые по PageRank того URL-адреса, по которому ссылка была продана.
Эта проблема усугубилась, когда Yahoo запустила бесплатный инструмент под названием Yahoo Search Explorer, который позволил любому начать поиск ссылок на любую страницу.
Позже два инструмента — Moz и Majestic — построили свой бесплатный вариант, создав собственные индексы в Интернете и отдельно оценивая ссылки.
Как PageRank произвел революцию в поиске
Другие поисковые системы в значительной степени полагались на анализ содержимого каждой страницы в отдельности. Этим методам было мало, чтобы определить разницу между влиятельной страницей и просто написанной со случайным (или манипулятивным) текстом.
Это означало, что SEO-специалистам было очень легко манипулировать методами поиска других поисковых систем.
Алгоритм PageRank Google был революционным.
В сочетании с относительно простой концепцией «nGrams», помогающей установить релевантность, Google нашел выигрышную формулу.
Вскоре он обогнал основных игроков того времени, таких как AltaVista и Inktomi (которые, среди прочего, поддерживали MSN).
Работая на уровне страниц, Google также нашел гораздо более масштабируемое решение, чем подход, основанный на «каталогах», принятый Yahoo, а затем DMOZ, хотя DMOZ (также называемый проектом Open Directory) изначально смог предоставить Google открытый -исходный каталог собственного.
Как работает PageRank
Формула PageRank представлена в нескольких формах, но ее можно объяснить в нескольких предложениях.
Изначально каждой странице в Интернете присваивается приблизительный рейтинг PageRank. Это может быть любое число. Исторически PageRank представлялся публике как оценка от 0 до 10, но на практике оценки не обязательно должны начинаться с этого диапазона.
PageRank для этой страницы затем делится на количество ссылок со страницы, что дает меньшую долю.
PageRank затем распределяется по связанным страницам – и то же самое делается для каждой другой страницы в Интернете.
Затем для следующей итерации алгоритма новая оценка PageRank для каждой страницы представляет собой сумму всех долей страниц, которые ссылаются на каждую данную страницу.
Формула также содержит «коэффициент демпфирования», который был описан как вероятность того, что человек, просматривающий веб-страницы, может вообще прекратить просмотр.
Перед запуском каждой последующей итерации алгоритма предлагаемый новый PageRank уменьшается на коэффициент демпфирования.
Эта методология повторяется до тех пор, пока показатели PageRank не достигнут установленного равновесия. Полученные числа затем для удобства обычно переводили в более узнаваемый диапазон от 0 до 10.
Один из способов представить это математически:
- Изображение автора, апрель 2023 г.
Где:
- PR = PageRank в следующей итерации алгоритма.
- d = коэффициент демпфирования.
- j = номер страницы в Интернете (если бы каждая страница имела уникальный номер).
- n=общее количество страниц в Интернете.
- i = итерация алгоритма (изначально установлено как 0).
Формула также может быть выражена в матричной форме.
Проблемы и итерации к формуле
Формула имеет некоторые проблемы.
Если страница не ведет на другую страницу, то формула не достигнет равновесия.
Таким образом, в этом случае PageRank будет распределяться между каждой страницей в Интернете. Таким образом, даже страница без входящих ссылок может получить 90 181 или 90 182 PageRank, но этого будет недостаточно, чтобы стать значительным.
Еще одна менее задокументированная проблема заключается в том, что новые страницы, хотя потенциально более важные, чем старые страницы, будут иметь более низкий PageRank. Это означает, что со временем старый контент может иметь непропорционально высокий PageRank.
Время существования страницы не учитывается в алгоритме.
Как PageRank распределяется между страницами
Если страница начинается со значения 5 и имеет 10 исходящих ссылок, то каждой странице, на которую она ссылается, присваивается 0,5 PageRank (за вычетом коэффициента демпфирования).
Таким образом, PageRank перемещается по Интернету между итерациями.
Когда новые страницы появляются в Интернете, они начинают с очень небольшого значения PageRank. Но по мере того, как другие страницы начинают ссылаться на эти страницы, их PageRank со временем увеличивается.
PageRank все еще используется?
Хотя публичный доступ к PageRank был удален в 2016 году, считается, что эта оценка по-прежнему доступна для поисковых инженеров в Google.
Утечка факторов, используемых Яндексом, показала, что PageRank остался фактором, который он мог использовать.
Инженеры Google предложили заменить первоначальную форму PageRank новой аппроксимацией, которая требует меньше вычислительной мощности для расчета. Хотя формула менее важна для ранжирования страниц Google, она остается постоянной для каждой веб-страницы.
И независимо от того, какие другие алгоритмы Google может использовать, PageRank, вероятно, остается встроенным во многие системы поискового гиганта и по сей день.
Диксон более подробно объясняет, как работает PageRank, в этом видео:
Оригинальные патенты и документы Для более подробного ознакомления:
- Метод ранжирования узлов в связанной базе данных.
- Рейтинг цитирования PageRank: наведение порядка в Интернете
- Анатомия крупномасштабной гипертекстовой поисковой системы
Дополнительные ресурсы:
- Поиск информации: введение для оптимизаторов
- Знакомство с Google Knowledge Graph и принципами его работы
- Расширенное техническое SEO: полное руководство
Рекомендуемое изображение: VectorMine/Shutterstock
Категория SEO Техническое SEO
Google PageRank — Алгоритм
Алгоритм PageRank
Оригинальный алгоритм PageRank был описан Лоуренсом Пейджем и Сергеем Брином в нескольких публикациях. Это дается
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
где
PR(A) — это PageRank страницы A, | |
PR(Ti) — это PageRank страниц Ti, которые ссылаются на страницу A, | |
C(Ti) — количество исходящих ссылок на странице Ti, а | |
d — коэффициент демпфирования, который можно установить в диапазоне от 0 до 1. |
Итак, прежде всего , мы видим что PageRank не ранжирует веб-сайты в целом, а определяется для каждой страницы в отдельности. Кроме того, PageRank страницы A рекурсивно определяется PageRank тех страниц, которые ссылаются на страницу A.
PageRank страниц Ti, которые ссылаются на страницу A, не оказывает равномерного влияния на PageRank страницы A. В рамках алгоритма PageRank PageRank страницы T всегда взвешивается количеством исходящих ссылок C(T) на странице T. Это означает, что чем больше исходящих ссылок имеет страница T, тем меньше пользы страница A получит от ссылки на страницу T. это на стр. Т.
Затем суммируется взвешенный PageRank страниц Ti. Результатом этого является то, что дополнительная входящая ссылка для страницы A всегда будет увеличивать PageRank страницы A.
Наконец, сумма взвешенных значений PageRank всех страниц Ti умножается на коэффициент демпфирования d, который может быть установлен в диапазоне от 0 до 1. Таким образом, расширение преимущества PageRank для страницы за счет другой страницы, ссылающейся на нее, уменьшается.
Модель случайного серфера
В своих публикациях Лоуренс Пейдж и Сергей Брин дают очень простое интуитивное обоснование алгоритма PageRank. Они рассматривают PageRank как модель поведения пользователя, когда пользователь нажимает на ссылки случайным образом, не обращая внимания на контент.
Случайный пользователь посещает веб-страницу с определенной вероятностью, которая зависит от PageRank страницы. Вероятность того, что случайный пользователь нажмет на одну ссылку, определяется исключительно количеством ссылок на этой странице. Вот почему PageRank одной страницы не полностью передается странице, на которую она ссылается, а делится на количество ссылок на странице.
Таким образом, вероятность того, что случайный посетитель достигнет одной страницы, равна сумме вероятностей случайного пользователя, перешедшего по ссылкам на эту страницу. Теперь эта вероятность уменьшается на коэффициент демпфирования d. Таким образом, модель случайного просмотра основана на том, что пользователь не нажимает на бесконечное количество ссылок, а иногда ему становится скучно, и он случайным образом переходит на другую страницу.
Вероятность того, что случайный посетитель не остановится, чтобы щелкнуть ссылку, определяется коэффициентом демпфирования d, который, в зависимости от степени вероятности, устанавливается между 0 и 1. Чем выше d, тем больше вероятность того, что случайный пользователь продолжайте нажимать ссылки. Поскольку пользователь случайным образом переходит на другую страницу после того, как перестал нажимать на ссылки, поэтому вероятность реализована в алгоритме как константа (1-d). Независимо от входящих ссылок вероятность того, что случайный пользователь перейдет на страницу, всегда равна (1-d), поэтому страница всегда имеет минимальный PageRank.
Другое обозначение алгоритма PageRank
Лоуренс Пейдж и Сергей Брин опубликовали две разные версии своего алгоритма PageRank в разных газетах. Во второй версии алгоритма PageRank страницы А равен
.PR(A) = (1-d) / N + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
, где N — общее количество всех страниц в Интернете. Второй вариант алгоритма, действительно, принципиально не отличается от первого. Что касается модели Random Surfer Model, PageRank второй версии страницы представляет собой фактическую вероятность того, что посетитель попадет на эту страницу после перехода по многим ссылкам. Затем рейтинги страниц формируют вероятностное распределение по веб-страницам, поэтому сумма рейтингов страниц всех страниц будет равна единице.
Напротив, в первой версии алгоритма вероятность того, что случайный посетитель достигнет страницы, взвешивается по общему количеству веб-страниц. Итак, в этой версии PageRank является ожидаемым значением для случайного пользователя, посещающего страницу, когда он перезапускает эту процедуру столько раз, сколько страниц в сети. Если бы в Интернете было 100 страниц и страница имела значение PageRank, равное 2, случайный посетитель достиг бы этой страницы в среднем дважды, если бы он перезапустился 100 раз.
Как было сказано выше, две версии алгоритма принципиально не отличаются друг от друга. PageRank, который был рассчитан с использованием второй версии алгоритма, должен быть умножен на общее количество веб-страниц, чтобы получить соответствующий PageRank, который был бы рассчитан с использованием первой версии. Даже Пейдж и Брин перепутали две версии алгоритма в своей самой популярной статье «Анатомия крупномасштабной гипертекстовой поисковой системы в Интернете», где они утверждают, что первая версия алгоритма формирует распределение вероятностей по веб-страницам с суммой PageRank всех страниц один.
В дальнейшем мы будем использовать первую версию алгоритма. Причина в том, что вычисления PageRank с помощью этого алгоритма легче вычислить, потому что мы можем не учитывать общее количество веб-страниц.
Характеристики PageRank
Характеристики PageRank должны быть проиллюстрированы небольшим примером.
Мы рассматриваем небольшую сеть, состоящую из трех страниц A, B и C, где страница A ссылается на страницы B и C, страница B ссылается на страницу C, а страница C ссылается на страницу A. Согласно Пейджу и Брину, коэффициент демпфирования d обычно устанавливается равным 0,85, но для простоты вычислений мы устанавливаем его равным 0,5. Точное значение коэффициента демпфирования d, по общему признанию, влияет на PageRank, но не влияет на фундаментальные принципы PageRank. Итак, мы получаем следующие уравнения для расчета PageRank:
PR(A) = 0,5 + 0,5 PR(C)
PR(B) = 0,5 + 0,5 (PR(A)/2)
PR(C) = 0,5 + 0,5 (PR(A)/2 + PR(B) ))
Эти уравнения легко решаются. Мы получаем следующие значения PageRank для отдельных страниц:
. PR(A) = 14/13 = 1,07692308
PR(B) = 10/13 = 0,76923077
PR(C) = 15/13 = 1,15384615
Очевидно, что сумма PageRank всех страниц равна 3 и, таким образом, равна общему количеству веб-страниц. Как показано выше, это не является конкретным результатом для нашего простого примера.
Для нашего простого примера с тремя страницами легко решить соответствующую систему уравнений для определения значений PageRank. На практике сеть состоит из миллиардов документов, и найти решение путем проверки невозможно.
Итеративное вычисление PageRank
Из-за размера фактической сети поисковая система Google использует приближенное итеративное вычисление значений PageRank. Это означает, что каждой странице присваивается начальное начальное значение, а затем PageRank всех страниц рассчитывается в нескольких вычислительных циклах на основе уравнений, определяемых алгоритмом PageRank. Итеративный расчет снова будет проиллюстрирован нашим примером с тремя страницами, где каждой странице присваивается начальное значение PageRank, равное 1.
Итерация | PR(A) | PR(B) | PR(C) |
0 | 1 | 9025 1 11 | |
1 | 1 | 0,75 | 1,125 |
2 | 1,0625 | 0,765625 | 1,1484375 |
3 | 9 0251 1,074218750,76855469 | 1,15283203 | |
4 | 1,07641602 | 0,76910400 | 1,15365601 |
5 | 1,07682800 | 0,76920700 9025 2 | 1. 15381050 |
6 | 1.07690525 | 0.76922631 | 1.15383947 | 902 55
7 | 1,07691973 | 0,76922993 | 1,15384490 |
8 | 1.07692245 | 0.76923061 | 1.15384592 |
9 | 1.07692296 | 0,76923074 | 1,15384611 |
10 | 1,07692305 | 0,76923076 | 1.15384615 |
11 | 1.07692307 | 0.76923077 | 1.15384615 9025 2 |
12 | 1,07692308 | 0,76923077 | 1,15384615 |
Мы видим, что получаем хорошее приближение к реальным значениям PageRank уже после нескольких итераций. Согласно публикациям Лоуренса Пейджа и Сергея Брина, необходимо около 100 итераций, чтобы получить хорошее приближение значений PageRank всей сети.
Кроме того, благодаря итеративному вычислению сумма PageRank всех страниц по-прежнему сходится к общему количеству веб-страниц.