PageRank
PageRank — это алгоритм оценки сайта поисковой системой Google по количеству и качеству внешних ссылок на данный ресурс. В дословном переводе PageRank означает «ранг страницы», то есть — ее «авторитет» для поисковой системы Google и является одним из факторов ранжирования сайтов для выдачи на странице результатов поиска. Кроме того, PR оценивает ресурсы и в абсолютном значении (ценность сайта для Google), и в относительном (ценность ресурса по сравнению с другими сайтами). При этом, в отличие от ТИЦ Яндекса, PageRank оценивает каждую страницу ресурса по отдельности, поэтому индекс PR для разных страниц одного и того же сайта может отличаться. Говоря об общем PR ресурса подразумевается PageRank его главной страницы. Значение PageRank зависит от количества внешних ссылок на ресурс и показателя PR сайта-донора.
История создания
Алгоритм PageRank был разработан создателями Google для своей первой поисковой машины BackRub еще в 1996 году. На тот момент это была инновационная система, что позволило Google быстро завоевать популярность среди интернет-пользователей благодаря высокому качеству результатов поиска. В 1998 году авторы алгоритма Ларри Пейдж и Сергей Брин в 1998 году представили его описание в специализированной статье, а 4 сентбря 2001 года алгоритм PageRank был запатентован на имя Ларри Пейджа. Правда, Пейдж в нем значится как изобретатель системы, а официальным владельцем патента является Стэнфордский университет, где учились основатели Google. Само название «PageRank» принадлежит компании Google. По официальной версии компании общепринятый перевод названия алгоритма как «ранг страницы» не является верным, так как слово «Page» — это фамилия Ларри Пейджа, а вовсе не «страница».
Сегодня PageRank является далеко не единственным алгоритмом ранжирования ресурсов. Поиск Google работает по значительно улучшенным математическим моделям и учитывает максимально возможное количество факторов для ранжирования страницы. Кроме того, эти факторы постоянно меняются с целью минимизировать черную оптимизацию сайтов. Как заявил в интервью 2007 года Амит Сингхал, сотрудник отдела качества поиска компании Google, поисковая машина использует не менее 200 алгоритмов ранжирования сайтов, и хотя PageRank является лишь частью общей схемы, он играет значительную роль при поисковой выдаче.
Формирование значения PageRank
Значение PageRank формируется как для каждой страницы сайта в отдельности, так и для всего ресурса в общем, поэтому при формировании индекса учитываются как внешние (со сторонних сайтов), так и внутренние (с другой страницы того же сайта) ссылки на данную страницу. Важно как количество ссылок, так и их качество. Качество ссылки определяется значением PageRank страницы-донора. Причем, страница, на которой расположена ссылка на ранжируемую страницу, передает часть своего значения PageRank. PR сраницы-донора поровну делится между всеми ресурсами, на которые она ссылается. Учитываются и внутренние ссылки, поэтому качественная перелинковка страниц на одном ресурсе может влиять на общий PageRank. Не учитываются только ссылки с сайтов, попавших в бан Google — они не приносят ни вреда, ни пользы. Урон авторитету сайта может нанести только обратная ссылка на забаненный ресурс. При этом можно не только получать PR со сторонних ресурсов, но и «раздавать» свой, размещая ссылки. Правда, существует возможность препятствовать раздаче PageRank сторонним ресурсам, сохранив его лишь для внутренних ссылок. Для этого в теге ссылки используется атрибут rel=»nofollow».
Показатель PageRank измеряется вещественным числом и увеличивается в режиме реального времени за счет увеличения веса ссылок, ведущих на ресурс. Часто также используется тулбарное значение PageRank: цифры от 1 до 10 обозначающие соответственное вещественное число PageRank. Например, PageRank от 0,00000001 до 5 соответствует тулбарное значение 1, от 6 до 25 — 2, от 26 до 125 — 3 и так далее. Тулбарное значение обновляется один раз в несколько месяцев. Среднее тулбарное значение качественного ресура — 4 или 5, реже 6. Значение 10 присвоено лишь нескольким ресурсам. А нулевой PageRank имеют забаненные либо только что созданные сайты.
Естественно, значение PageRank для данного сайта может как увеличиваться (за счет увеличения количества ссылок и роста авторитета сайтов-доноров), так и уменьшаться — за счет удаления ссылки на ресурс с сайта-донора, появления на этой странице большого количества других ссылок или уменьшения ее авторитета.
Что дает PageRank
Высокое значение PageRank обеспечивает сайту хорошее положение при выдаче результатов поиска в Google, следовательно, получение высокого PageRank является одной из основных задач поисковой оптимизации. Безусловно, PageRank — далеко не единственный алгоритм ранжирования сайтов в Google, но при прочих равных (качественный контент, тематическое соответствие и т.д.) выше на странице выдачи результатов окажется именно тот сайт, чей PageRank выше. Наибольшее влияние на положение в выдаче PageRank оказывает при запросах в одно слово — так как такому запросу будет отвечать множество сайтов, на первую страницу будут выведены именно ресурсы с максимальным PR.
Кроме того, высокое значение PR вызывает доверие к сайту как к авторитетному источнику и может служить дополнительной выгоде при продаже места на майте под рекламу либо для размещения ссылок.
Счетчик PageRank на панели браузера
Узнать PageRank ресурса можно на одном из сервисов для проверки PR сайта либо установив SEO-расширения для используемого браузера. На собственный сайт можно установить специальный счетчик PageRank. Есть вариант счетчиков, которые показывают PR только для той страницы, на которой они установлены, а также счетчики, показывающие значение для заданной страницы, вне зависимости от фактического расположения. Также можно установить счетчик, который будет показывать значение PageRank тех страниц, на которые заходит пользователь, либо счетчик, одновременно показывающий PR всех страниц ресурса.
Что такое Page Rank (Пейдж Ранк)
PageRank — один из самых старых действующих алгоритмов поисковых систем. Впервые он был использован в поисковике BackRub, предшественнике Google, в 1998 году. Именно его наличие позволило Google стать самой популярной поисковой системой своего времени.
Название алгоритма обычно переводят дословно («уровень» или «ранг страницы»), однако, согласно официальному заявлению Google, его следует понимать как «уровень Пейджа» — по имени Ларри Пейджа, его изобретателя и одного из основателей компании.
Его суть сводится к тому, что каждой странице в Сети присваивается свой «вес», который имеет численное выражение от 0 до 10. При этом PR может присваиваться не только странице, но и любому другому графу. Точная информация о принципах подсчета этого показателя не раскрывается, хотя общие механизмы его исчисления известны. В самом общем понимании PageRank позволяет оценивать значимость страницы как сумму значимости всех ссылок, которые на нее указывают. При этом имеет значение как количество ссылок, так и их качество — т. е. PR страниц, откуда ведут эти ссылки.
Значимость PR в ранжировании также является предметом споров. Так, согласно заявлению представителей поисковой системы, в настоящее время существует более 200 факторов ранжирования; в то же время они не опровергают утверждение о том, что Pagerank по-прежнему является одним из главных критериев определения позиций страницы в выдаче.
Что характерно, для Google, по словам Мэтта Каттса, нет разницы между учетом ссылки, закрытой в «nofollow», и не закрытой — по крайней мере, при подсчете PR. Такая мера была введена в 2009 году в качестве противодействия серому методу продвижения — скульптурированию PageRank. Его суть сводилась к тому, что страница только получала вес от других, но сама не теряла его, поскольку все ведущие с нее ссылки были закрыты от поискового робота. При этом ссылки, которые вели с такой страницы, получали значительно больший вес.
Сегодня алгоритмы, так или иначе учитывающие влияние ссылочной массы на результаты ранжирования, присутствуют практически во всех поисковых системах, в том числе в Яндексе.
PageRank — Википедия
Математический рейтинг вебстраницы (PageRank) для простой сети, выраженный в процентах (Google использует логарифмическую шкалу). Вебстраница C имеет более высокий рейтинг, чем страница E, хотя есть меньше ссылок на C, чем на Е, но одна из ссылок на C исходит из более важных страниц и, следовательно, имеет более высокое значение. Если условно считать, что веб-пользователь, который находится на случайной странице, имеет 85%-ю вероятность выбора случайной ссылки на текущей странице, и 15%-ю — перехода на любую другую страницу, то вероятность перехода к странице E с других ссылок равна 8,1 % времени (15 % вероятности перехода к произвольной странице соответствует коэффициенту затухания 85 %). Без затухания все веб-пользователи в конечном итоге попадают на страницы A, B или С, и все остальные страницы будут иметь PageRank, равный нулю. При наличии затухания страница А эффективно связывает почти все ссылки на страницы в этой Сети, даже если она не имеет своих собственных исходящих ссылок.Описание
PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
История
В 1996 году Сергей Брин и Ларри Пейдж, тогда ещё аспиранты Стэнфордского университета, начали работу над исследовательским проектом BackRub[1] — поисковой системой по Интернету, использующей новую тогда идею о том, что веб-страница должна считаться тем «важнее», чем больше на неё ссылается других страниц, и чем более «важными», в свою очередь, являются эти страницы.[2] Через некоторое время BackRub была переименована в Google. Первая статья с описанием применяющегося в ней алгоритма ранжирования, названного PageRank, появилась в начале 1998 года[3], за ней следом вышла и статья с описанием архитектуры самой поисковой системы.[4]
Их система значительно превосходила все существовавшие тогда поисковые системы, и Брин с Пейджем, осознав её потенциал, основали в сентябре 1998 года компанию Google Inc. для дальнейшего её развития как коммерческого продукта.
С тех пор алгоритмы и математические модели, применяемые при ранжировании в Google, значительно улучшились. В интервью в 2007 году Амит Сингхал, представитель отдела качества поиска Google, заявил, что их поисковая система использует более 200 ранжирующих сигналов, лишь одним из которых является PageRank,[5] но он до сих пор играет существенную роль в поисковых продуктах Google.[6] Стоит отметить, что алгоритм PageRank, в том виде, в каком он был изложен Пейджем в статье 1998 года[3], может быть улучшен в некоторых практических аспектах (например, ссылкам могут назначаться разные веса), и алгоритмы, применяемые в современных поисковых системах, являются скорее лишь его вариантами.
PageRank можно перевести с английского языка как «ранг страницы», однако Google Inc. связывает слово Page в названии алгоритма не с английским словом «страница», а с именем Ларри Пейджа (англ. Larry Page).[7]
Название «PageRank» является торговой маркой компании Google Inc. Алгоритм запатентован в США 4 сентября 2001 года[8], в качестве изобретателя алгоритма в патенте указан Ларри Пейдж. Официальным владельцем патента является не Google Inc., а Стэнфордский университет, в котором учились Ларри Пейдж и Сергей Брин в момент подачи заявки на патент.
В 1998 году Google был одной из первых поисковых систем, внедривших ссылочное ранжирование, благодаря чему добился значительного улучшения качества поиска по сравнению с конкурентами. В дальнейшем многие крупные поисковые системы разработали и внедрили свои аналоги PageRank и другие методы статического (то есть запросо-независимого) ранжирования документов.
Последнее обновление Google PageRank произошло 6 декабря 2013 года.[10]
16 апреля 2016 года компания Google официально убирает этот показатель и обнуляет PageRank у всех сайтов.
10 января 2018 года истек срок действия патента на изобретение US6285999, однако PageRank всё ещё охраняется как товарная марка.
Скульптурирование PageRank (англ. PageRank sculpting) — манипулирование количеством PageRank, передаваемого через конкретные ссылки страницей N другим страницам с помощью присвоения одной или нескольким ссылкам, идущим с этой страницы, атрибута nofollow, что приводит к удержанию большего PageRank («веса») на странице N с целью дальнейшей его передачи нужным страницам.
В 2009 году Мэтт Каттс заявил, что скульптурирование PageRank больше не работает, так как теперь постановка любых ссылок (как с атрибутом nofollow, так и без него) приводит к равномерному распределению передаваемого PageRank («веса») между исходящими ссылками.[11]
Надстройка для браузера Google Toolbar показывает для каждой веб-страницы целое число от 0 до 10, которое она называет PageRank, или важностью этой страницы с точки зрения Google. Однако механизм его расчёта и что в точности обозначает это значение, не раскрывается. По некоторым данным, эти значения обновляются лишь несколько раз в год (в то время, как внутренние значения PageRank пересчитываются непрерывно[12]) и показывают значения PageRank страниц на логарифмической шкале.[13]
С 2016 года Google официально отключил «тулбарный» показатель PageRank, после чего узнать значение PR из браузеров и других инструментов стало невозможно[14], однако можно узнать истории значения PR различных сайтов до этой даты.
См. также
Примечания
Ссылки
PageRank — Википедия
Математический рейтинг вебстраницы (PageRank) для простой сети, выраженный в процентах (Google использует логарифмическую шкалу). Вебстраница C имеет более высокий рейтинг, чем страница E, хотя есть меньше ссылок на C, чем на Е, но одна из ссылок на C исходит из более важных страниц и, следовательно, имеет более высокое значение. Если условно считать, что веб-пользователь, который находится на случайной странице, имеет 85%-ю вероятность выбора случайной ссылки на текущей странице, и 15%-ю — перехода на любую другую страницу, то вероятность перехода к странице E с других ссылок равна 8,1 % времени (15 % вероятности перехода к произвольной странице соответствует коэффициенту затухания 85 %). Без затухания все веб-пользователи в конечном итоге попадают на страницы A, B или С, и все остальные страницы будут иметь PageRank, равный нулю. При наличии затухания страница А эффективно связывает почти все ссылки на страницы в этой Сети, даже если она не имеет своих собственных исходящих ссылок.PageRank («пэйдж-ранк»; от англ. Page rank — ранг страницы) — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницы из всемирной паутины), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.
Описание
PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
История
В 1996 году Сергей Брин и Ларри Пейдж, тогда ещё аспиранты Стэнфордского университета, начали работу над исследовательским проектом BackRub[1] — поисковой системой по Интернету, использующей новую тогда идею о том, что веб-страница должна считаться тем «важнее», чем больше на неё ссылается других страниц, и чем более «важными», в свою очередь, являются эти страницы.[2] Через некоторое время BackRub была переименована в Google. Первая статья с описанием применяющегося в ней алгоритма ранжирования, названного PageRank, появилась в начале 1998 года[3], за ней следом вышла и статья с описанием архитектуры самой поисковой системы.[4]
Их система значительно превосходила все существовавшие тогда поисковые системы, и Брин с Пейджем, осознав её потенциал, основали в сентябре 1998 года компанию Google Inc. для дальнейшего её развития как коммерческого продукта.
С тех пор алгоритмы и математические модели, применяемые при ранжировании в Google, значительно улучшились. В интервью в 2007 году Амит Сингхал, представитель отдела качества поиска Google, заявил, что их поисковая система использует более 200 ранжирующих сигналов, лишь одним из которых является PageRank,[5] но он до сих пор играет существенную роль в поисковых продуктах Google.[6] Стоит отметить, что алгоритм PageRank, в том виде, в каком он был изложен Пейджем в статье 1998 года[3], может быть улучшен в некоторых практических аспектах (например, ссылкам могут назначаться разные веса), и алгоритмы, применяемые в современных поисковых системах, являются скорее лишь его вариантами.
PageRank можно перевести с английского языка как «ранг страницы», однако Google Inc. связывает слово Page в названии алгоритма не с английским словом «страница», а с именем Ларри Пейджа (англ. Larry Page).[7]
Название «PageRank» является торговой маркой компании Google Inc. Алгоритм запатентован в США 4 сентября 2001 года[8], в качестве изобретателя алгоритма в патенте указан Ларри Пейдж. Официальным владельцем патента является не Google Inc., а Стэнфордский университет, в котором учились Ларри Пейдж и Сергей Брин в момент подачи заявки на патент.
В 1998 году Google был одной из первых поисковых систем, внедривших ссылочное ранжирование, благодаря чему добился значительного улучшения качества поиска по сравнению с конкурентами. В дальнейшем многие крупные поисковые системы разработали и внедрили свои аналоги PageRank и другие методы статического (то есть запросо-независимого) ранжирования документов.
Последнее обновление Google PageRank произошло 6 декабря 2013 года.[10]
16 апреля 2016 года компания Google официально убирает этот показатель и обнуляет PageRank у всех сайтов.
10 января 2018 года истек срок действия патента на изобретение US6285999, однако PageRank всё ещё охраняется как товарная марка.
Скульптурирование PageRank (англ. PageRank sculpting) — манипулирование количеством PageRank, передаваемого через конкретные ссылки страницей N другим страницам с помощью присвоения одной или нескольким ссылкам, идущим с этой страницы, атрибута nofollow, что приводит к удержанию большего PageRank («веса») на странице N с целью дальнейшей его передачи нужным страницам.
В 2009 году Мэтт Каттс заявил, что скульптурирование PageRank больше не работает, так как теперь постановка любых ссылок (как с атрибутом nofollow, так и без него) приводит к равномерному распределению передаваемого PageRank («веса») между исходящими ссылками.[11]
Надстройка для браузера Google Toolbar показывает для каждой веб-страницы целое число от 0 до 10, которое она называет PageRank, или важностью этой страницы с точки зрения Google. Однако механизм его расчёта и что в точности обозначает это значение, не раскрывается. По некоторым данным, эти значения обновляются лишь несколько раз в год (в то время, как внутренние значения PageRank пересчитываются непрерывно[12]) и показывают значения PageRank страниц на логарифмической шкале.[13] Каждый месяц Google обновляет алгоритмы,которые существенно повлияли на формирование выдачи. На основе этой информации вы сможете проанализировать состояние своего сайта и выявить проблемы, из-за которых возникают трудности в продвижении.[14]
С 2016 года Google официально отключил «тулбарный» показатель PageRank, после чего узнать значение PR из браузеров и других инструментов стало невозможно[15], однако можно узнать истории значения PR различных сайтов до этой даты.
См. также
Примечания
Ссылки
Как рассчитать «внутренний» PageRank страниц сайта, и зачем это делать?
Автор: Пол Шапиро (Paul Shapiro) – руководитель SEO-направления агентства Catalyst Digital (Бостон), приверженец инновационных стратегий продвижения, автор блога Search Wilderness.
Источник: Search Engine Land
Архитектура сайта – не просто структура его страниц и разделов. Это целая система упорядоченных внутренних ссылок, которая обеспечивает удобство навигации в пределах ресурса. Архитектура сайта имеет огромное значение для пользователей и поисковых роботов. Грамотная реализация этого аспекта, как правило, положительно сказывается на ранжировании всего сайта.
Поисковики до сих пор придают большое значение ссылкам, ведь именно таким образом они получают информацию обо всех веб-страницах. Краулеры во время индексации сайта осуществляют переход по каждой ссылке на странице. При этом в расчёт берутся как внешние, так и внутренние ссылки. Сканированию подвергается каждая последующая страница сайта. Таким образом, поисковая система получает возможность находить новые страницы, заносить их в индекс и ранжировать на основе анализа ряда факторов.
Во время присвоения позиций страницам на основе поисковых запросов системы, подобные Google, принимают в расчёт количество ссылок, ведущих на эту страницу. При этом каждая ссылка рассматривается как «голос» в пользу документа. Именно такой подход к определению значимости страниц и был заложен в основу алгоритма PageRank.
Внутренние ссылки анализируются примерно таким же образом. Вот почему грамотный подход к построению структуры сайта становится одним из ключевых условий успешного ранжирования всего ресурса и его отдельных страниц. Принцип расчёта внутреннего PageRank, изложенный в статье, позволит представителям отрасли выяснить, насколько грамотной с точки зрения поисковых систем является архитектура их сайтов.
Базовая структура сайта и удобство навигации
Специалисты выделяют 2 функциональных типа внутренних ссылок на сайте:
- Внутренние ссылки, обеспечивающие удобство перемещения по сайту.
- Вторичные внутренние ссылки, которые становятся естественным результатом работы с контентом ресурса. К примеру, это может быть отсылка в тексте статьи к другим публикациям. Эти ссылки не имеют отношения к навигационному меню сайта и проставляются стихийно.
Отсюда следует простой вывод: внутренние ссылки служат для того, чтобы помогать пользователям перемещаться по страницам в пределах ресурса. А значит, они призваны упорядочивать всю структуру сайта.
В ходе наполнения ресурса контентом и при настройке перелинковки автор статьи рекомендует брать за основу классическую ссылочную структуру, а также особую методику, которую разработал Брюс Клэй (Bruce Clay). Именно эти способы организации внутренней перелинковки сайта зарекомендовали себя как самые надёжные. Пример реализации подхода может выглядеть так:
Чёткое знание структуры навигации и того, как система внутренних ссылок соотносится с контекстной составляющей ресурса, способствует пониманию алгоритмов работы поисковых систем. Однако здесь следует обратиться к истокам и вспомнить сам принцип алгоритма PageRank.
Многоликий PageRank: каким он бывает?
Прежде чем дать определение термину «внутренний PageRank», повторим избитую истину: Page Rank – это оригинальный алгоритм расчета авторитетности страницы. Показатель свидетельствует об авторитетности интернет-ресурса с точки зрения Google. Чем больше ссылок ведёт на страницу, тем более важной и авторитетной она признаётся.
Как же рассчитать внутренний PageRank? Прежде всего, важно понимать, что Google назначает PageRank для абсолютно любой страницы в индексе. Аналогичным образом определяется и авторитетность каждого отдельно взятого сайта. Как видно, разница лишь в масштабах: в одном случае поисковая система рассчитывает вес каждой страницы в пределах сайта, а в другом – на основе подсчёта авторитетности каждой страницы формируется совокупный показатель PageRank ресурса. Строго говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками.
Чтобы проанализировать структуру внутренних ссылок на сайте, имеет смысл обратиться к идее подсчёта PageRank и измерить относительную важность каждой страницы в рамках конкретного веб-ресурса.
Важно понимать, что в данном случае термин «внутренний PageRank» не имеет ничего общего с алгоритмом Google. Просто для подсчёта значимости страницы в масштабе сайта используется принцип, сходный с тем, на котором базируется PageRank Google. В дальнейшей части статьи будет приведена техника подсчёта этого внутреннего показателя.
Важное примечание: автор публикации не является сторонником нарушения политики Google и не призывает заниматься скульптурированием PageRank. В материале речь идёт об использовании метрик, лишь подобных тем, на базе которых рассчитывается данный показатель. И применяться методика должна лишь для улучшения навигационной структуры сайта и оптимизации системы внутренних ссылок.
Рассчитаем внутренний PageRank страниц
Шаг 1: Используем инструмент Screaming Frog
Прежде, чем переходить непосредственно к подсчёту внутреннего PageRank, необходимо просканировать веб-сайт. С этой целью можно использовать популярный среди оптимизаторов инструмент Screaming Frog.
После того, как сканирование сайта будет завершено, в верхней панели меню инструмента необходимо выбрать пункт Bulk Export (Массовый экспорт)> All Outlinks (Все исходящие ссылки). Данные отчёта сохраняются в формате CSV:
В полученном отчёте будет доступен список всех внутренних ссылок сайта. Документ впоследствии будет использован для моделирования ссылочного графа, на основании анализа которого и будет рассчитан внутренний PageRank сайта.
Шаг 2: Расчёт PageRank с использованием языка программирования R
Для тех, кто не в курсе, R – это язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом, совместимая с большим количеством существующих на сегодняшний день платформ. Загрузить и установить R можно здесь.
После того, как среда будет установлена, специалист получит возможность интегрированного использования специального кода с инструментом Screaming Frog для более точного сканирования сайта:
Далее остаётся лишь следовать рекомендациям в коде, которые будут помечены значком #. При этом важно не забывать:
- Указывать расположение CSV-файла, созданного инструментом Screaming Frog.
- Указывать название домена и расширение формата файлов TLD.
- Задать имя файла, который будет содержать внутренний величину PageRank, рассчитанную каждой отдельно взятой страницы сайта.
Примеры из практики
Далее рассмотрим, как представленная выше механика подсчёта работает на примере конкретных сайтов.
Сайт Catalyst Digital
Агентство Catalyst Digital недавно запустило новую версию корпоративного сайта. Появление нового ресурса стало результатом масштабного ребрендинга компании. Чтобы проверить его SEO-пригодность в части системы внутренних ссылок и навигации, автор статьи рассчитал внутренний PageRank для ресурса.
Результат представлен в виде таблицы и выглядит так:
Как видно из таблицы, внутренний показатель PageRank страницы контактов оказался выше, чем внутренний PageRank главной страницы сайта. Это – недопустимая ошибка, которую оптимизатор просто обязан обнаружить и исправить.
Анализируя статистику в Screaming Frog, удалось определить, что, несмотря на более высокий показатель PageRank на страницу контактов ведёт на 1 ссылку меньше, чем на главную страницу сайта. Это позволяет утверждать, что при расчёте внутреннего PageRank учитывается не количество входящих на страницу ссылок, а их вес (по сути, качество).
Далее необходимо проверить, на какой позиции находятся упомянутые выше страницы страницы в выдаче Google по витальному запросу:
Полученные результаты лишь подкрепили утверждение: сайт, действительно, испытывает трудности с ранжированием. Страница контактов в SERP по витальному запросу находится выше, чем главная страница сайта.
Сайт сообщества Online Geniuses
Похожий тест был проведён в отношении ресурса http://onlinegeniuses.com/. По итогам подсчёта внутреннего PageRank и выгрузки данных статистика выглядела так:
Внутренний PageRank страницы, посвящённой сотрудникам компании, оказался выше аналогичного показателя для главной страницы сайта. На текущий момент этот аспект не влечёт за собой негативных последствий с точки зрения ранжирования. Баланс сохраняется за счёт внешних анкорных ссылок, входящих на главную страницу сайта. Однако важно учитывать данный момент и не допускать ситуации, когда страница персонала окажется в результатах органической выдачи выше, чем главная страница ресурса.
Заключение
SEO-специалисту важно понимать навигационную структуру продвигаемого сайта, а также систему внутренних ссылок ресурса. После того, как основная навигация по сайту будет настроена, можно приступать к аудиту ресурса, следуя указанному выше алгоритму.
Алгоритм PageRank | Data Science
Продолжаем описание популярных алгоритмов из серии «Топ-10 data mining алгоритмов» и сегодня весьма интересный случай — алгоритм PageRank.
PageRank – это алгоритм ссылочного ранжирования, разработанный для определения относительной важности объекта, связанного с сетью объектов.
Ссылочное ранжирование? Это тип сетевого анализа, определяющий ассоциации (читай, связи) между объектами.
Вот пример: Наиболее известный пример PageRank – это поисковая система Google. Хотя их поисковик не полностью полагается на PageRank, все же это один из методов, который использует Google, чтобы определить важность веб-страницы.
Объяснение:
Веб-страницы в интернете связаны друг с другом. Если datascientist.one дает ссылку на РБК, то РБК получает очко в копилку, так как datascientist.one посчитал сайт РБК релевантным.
Но это еще не всё…
Вес балла от datascientist.one оценивается важностью и релевантностью самого сайта.
Другими словами, любая веб-страница, дающая ссылку на datascientist.one, повышает его релевантность.
Резюме?
Эта концепция голосов и релевантности представляет собой PageRank. Голос datascientist.one за РБК увеличивает PageRank РБК, и величина, на которую он увеличится, зависит от влияния и значимости datascientist.one.
Что означают PageRank равные 0,1,2,3 и так далее? Хотя точное значение числа PageRank компания Google не раскрывает, мы можем получить об этом представление.
И вот как:
Видите?
Все это выглядит как соревнование по популярности. Мы все имеем представление о том, какие сайты релевантные и популярные. PageRank просто переводит наше представление в цифры.
Как еще применяется PageRank? PageRank был специально разработан для всемирной сети.
По своему содержанию PageRank – это просто суперэффективный способ проведения ссылочного ранжирования. Однако соединяемые объекты необязательно должны быть веб-страницами.
Вот 3 инновационных применения PageRank:
- Доктор Стефано Аллесина (Stefano Allesina) из Чикагского университета применил PageRank в сфере экологии, чтобы определить, какие из особей являются жизненно важными для поддержания экосистемы.
- Twitter разработал WTF (Who-to-Follow) – персонализированный вариант рекомендательного движка, основанного на PageRank, показывающий список людей, на которых стоит подписаться.
- Бин Жэнь (Bin Jiang) из Гонконгского политехнического университета использовал вариант PageRank для предсказания перемещения людей на основании топологических метрик в Лондоне.
Требует ли этот метод обучения или он самообучающийся? PageRank обычно расценивают как самообучающийся метод, поскольку он часто используется для определения релевантности веб-страницы.
Почему именно PageRank? Главным достоинством PageRank является надежность, несмотря на сложность получения релевантной входящей ссылки.
Где он используется? Торговая марка PageRank принадлежит компании Google. Однако алгоритм PageRank запатентован Стэндфордским университетом.
Если у вас возник вопрос по поводу того, можете ли вы использовать PageRank: лучше посоветоваться со знающими людьми, но, вероятно, вы можете использовать алгоритм сколько вам угодно, пока он не начнет приносить вам финансовую выгоду.
Вот 3 примера реализации PageRank:
Источник
Пример вычисления pagerank (видео)
Алгоритм PageRank на Python
Вот как выглядит алгоритм ранжирования страниц на Питоне (полные инструкции можно найти по ссылке выше):
import operator import math, random, sys, csv from utils import parse, print_results class PageRank: def __init__(self, graph, directed): self.graph = graph self.V = len(self.graph) self.d = 0.85 self.directed = directed self.ranks = dict() def rank(self): for key, node in self.graph.nodes(data=True): if self.directed: self.ranks[key] = 1/float(self.V) else: self.ranks[key] = node.get(‘rank’) for _ in range(10): for key, node in self.graph.nodes(data=True): rank_sum = 0 curr_rank = node.get(‘rank’) if self.directed: neighbors = self.graph.out_edges(key) for n in neighbors: outlinks = len(self.graph.out_edges(n[1])) if outlinks > 0: rank_sum += (1 / float(outlinks)) * self.ranks[n[1]] else: neighbors = self.graph[key] for n in neighbors: if self.ranks[n] is not None: outlinks = len(self.graph.neighbors(n)) rank_sum += (1 / float(outlinks)) * self.ranks[n] # actual page rank compution self.ranks[key] = ((1 — float(self.d)) * (1/float(self.V))) + self.d*rank_sum return p if __name__ == ‘__main__’: if len(sys.argv) == 1: print ‘Expected input format: python pageRank.py <data_filename> <directed OR undirected>’ else: filename = sys.argv[1] isDirected = False if sys.argv[2] == ‘directed’: isDirected = True graph = parse(filename, isDirected) p = PageRank(graph, isDirected) p.rank() sorted_r = sorted(p.ranks.iteritems(), key=operator.itemgetter(1), reverse=True) for tup in sorted_r: print ‘{0:30} :{1:10}’.format(str(tup[0]), tup[1]) # for node in graph.nodes(): # print node + rank(graph, node) #neighbs = graph.neighbors(node) #print node + » » + str(neighbs) #print random.uniform(0,1) def rank(graph, node): #V nodes = graph.nodes() #|V| nodes_sz = len(nodes) #I neighbs = graph.neighbors(node) #d rand_jmp = random.uniform(0, 1) ranks = [] ranks.append( (1/nodes_sz) ) for n in nodes: rank = (1-rand_jmp) * (1/nodes_sz) trank = 0 for nei in neighbs: trank += (1/len(neighbs)) * ranks[len(ranks)-1] rank = rank + (d * trank) ranks.append(rank)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 |
import operator import math, random, sys, csv from utils import parse, print_results
class PageRank: def __init__(self, graph, directed): self.graph = graph self.V = len(self.graph) self.d = 0.85 self.directed = directed self.ranks = dict()
def rank(self): for key, node in self.graph.nodes(data=True): if self.directed: self.ranks[key] = 1/float(self.V) else: self.ranks[key] = node.get(‘rank’)
for _ in range(10): for key, node in self.graph.nodes(data=True): rank_sum = 0 curr_rank = node.get(‘rank’) if self.directed: neighbors = self.graph.out_edges(key) for n in neighbors: outlinks = len(self.graph.out_edges(n[1])) if outlinks > 0: rank_sum += (1 / float(outlinks)) * self.ranks[n[1]] else: neighbors = self.graph[key] for n in neighbors: if self.ranks[n] is not None: outlinks = len(self.graph.neighbors(n)) rank_sum += (1 / float(outlinks)) * self.ranks[n]
# actual page rank compution self.ranks[key] = ((1 — float(self.d)) * (1/float(self.V))) + self.d*rank_sum
return p
if __name__ == ‘__main__’: if len(sys.argv) == 1: print ‘Expected input format: python pageRank.py <data_filename> <directed OR undirected>’ else: filename = sys.argv[1] isDirected = False if sys.argv[2] == ‘directed’: isDirected = True
graph = parse(filename, isDirected) p = PageRank(graph, isDirected) p.rank()
sorted_r = sorted(p.ranks.iteritems(), key=operator.itemgetter(1), reverse=True)
for tup in sorted_r: print ‘{0:30} :{1:10}’.format(str(tup[0]), tup[1])
# for node in graph.nodes(): # print node + rank(graph, node)
#neighbs = graph.neighbors(node) #print node + » » + str(neighbs) #print random.uniform(0,1)
def rank(graph, node): #V nodes = graph.nodes() #|V| nodes_sz = len(nodes) #I neighbs = graph.neighbors(node) #d rand_jmp = random.uniform(0, 1)
ranks = [] ranks.append( (1/nodes_sz) )
for n in nodes: rank = (1-rand_jmp) * (1/nodes_sz) trank = 0 for nei in neighbs: trank += (1/len(neighbs)) * ranks[len(ranks)-1] rank = rank + (d * trank) ranks.append(rank) |
Алгоритм PageRank в R
Вот как выглядит алгоритм ранжирования страниц на R (более подробную инструкцию можно найти по ссылке):
## Download and install the package install.packages(«igraph») ## Load package library(igraph) ## Usage page.rank (graph, algo = c(«prpack», «arpack», «power»), vids = V(graph), directed = TRUE, damping = 0.85, personalized = NULL, weights = NULL, options = NULL) page.rank.old (graph, vids = V(graph), directed = TRUE, niter = 1000, eps = 0.001, damping = 0.85, old = FALSE)
## Download and install the package install.packages(«igraph»)
## Load package library(igraph)
## Usage page.rank (graph, algo = c(«prpack», «arpack», «power»), vids = V(graph), directed = TRUE, damping = 0.85, personalized = NULL, weights = NULL, options = NULL) page.rank.old (graph, vids = V(graph), directed = TRUE, niter = 1000, eps = 0.001, damping = 0.85, old = FALSE) |
Аргументы
graph
The graph object.
algo
Character scalar, which implementation to use to carry out the calculation. The default is «prpack», which uses the PRPACK library (https://github.com/dgleich/prpack). This is a new implementation in igraph version 0.7, and the suggested one, as it is the most stable and the fastest for all but small graphs. «arpack» uses the ARPACK library, the default implementation from igraph version 0.5 until version 0.7. power uses a simple implementation of the power method, this was the default in igraph before version 0.5 and is the same as calling page.rank.old.
vids
The vertices of interest.
directed
Logical, if true directed paths will be considered for directed graphs. It is ignored for undirected graphs.
damping
The damping factor (‘d’ in the original paper).
personalized
Optional vector giving a probability distribution to calculate personalized PageRank. For personalized PageRank, the probability of jumping to a node when abandoning the random walk is not uniform, but it is given by this vector. The vector should contains an entry for each vertex and it will be rescaled to sum up to one.
weights
A numerical vector or NULL. This argument can be used to give edge weights for calculating the weighted PageRank of vertices. If this is NULL and the graph has a weight edge attribute then that is used. If weights is a numerical vector then it used, even if the graph has a weights edge attribute. If this is NA, then no edge weights are used (even if the graph has a weight edge attribute.
options
Either a named list, to override some ARPACK options. See arpack for details; or a named list to override the default options for the power method (if algo=»power»). The default options for the power method are niter=1000 and eps=0.001. This argument is ignored if the PRPACK implementation is used.
niter
The maximum number of iterations to perform.
eps
The algorithm will consider the calculation as complete if the difference of PageRank values between iterations change less than this value for every node.
old
A logical scalar, whether the old style (pre igraph 0.5) normalization to use.
Пример
g <- random.graph.game(20, 5/20, directed=TRUE) page.rank(g)$vector g2 <- graph.star(10) page.rank(g2)$vector # Personalized PageRank g3 <- graph.ring(10) page.rank(g3)$vector reset <- seq(vcount(g3)) page.rank(g3, personalized=reset)$vector
g <- random.graph.game(20, 5/20, directed=TRUE) page.rank(g)$vector g2 <- graph.star(10) page.rank(g2)$vector # Personalized PageRank g3 <- graph.ring(10) page.rank(g3)$vector reset <- seq(vcount(g3)) page.rank(g3, personalized=reset)$vector |
Итак, немного фактов о самом pagerank:
PageRank независим, он не принимает во внимание текст ссылок и т.д. Конечно, они связаны, но говорить, что это одно и то же, это все равно что говорить, будто тэг Title то же самое, что ключевые слова в тексте.
Дополнительные файлы: статья и презентация с примерами (англ.).
pagerank Википедия
Математический рейтинг вебстраницы (PageRank) для простой сети, выраженный в процентах (Google использует логарифмическую шкалу). Вебстраница C имеет более высокий рейтинг, чем страница E, хотя есть меньше ссылок на C, чем на Е, но одна из ссылок на C исходит из более важных страниц и, следовательно, имеет более высокое значение. Если условно считать, что веб-пользователь, который находится на случайной странице, имеет 85%-ю вероятность выбора случайной ссылки на текущей странице, и 15%-ю — перехода на любую другую страницу, то вероятность перехода к странице E с других ссылок равна 8,1 % времени (15 % вероятности перехода к произвольной странице соответствует коэффициенту затухания 85 %). Без затухания все веб-пользователи в конечном итоге попадают на страницы A, B или С, и все остальные страницы будут иметь PageRank, равный нулю. При наличии затухания страница А эффективно связывает почти все ссылки на страницы в этой Сети, даже если она не имеет своих собственных исходящих ссылок.PageRank («пэйдж-ранк»; от англ. Page rank — ранг страницы) — один из алгоритмов ссылочного ранжирования. Алгоритм применяется к коллекции документов, связанных гиперссылками (таких, как веб-страницы из всемирной паутины), и назначает каждому из них некоторое численное значение, измеряющее его «важность» или «авторитетность» среди остальных документов. Вообще говоря, алгоритм может применяться не только к веб-страницам, но и к любому набору объектов, связанных между собой взаимными ссылками, то есть к любому графу.
Описание[ | ]
PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
История[ | ]
В 1996 году Сергей Брин и Ларри Пейдж, тогда ещё аспиранты Стэнфордского университета, начали работу над исследовательским проектом BackRub[1] — поисковой системой по Интернету, использующей новую тогда идею о том, что веб-страница должна считаться тем «важнее», чем больше на неё ссылается других страниц, и чем более «важными», в свою очередь, являются эти страницы.[2] Через некоторое время BackRub была переименована в Google. Первая статья с описанием применяющегося в ней алгоритма ранжирования, названного PageRank, появилась в начале 1998 года[3], за ней следом вышла и статья с описанием архитектуры самой поисковой системы.[4]
Их система значительно превосходила все существовавшие тогда поисковые системы, и Брин с Пейджем, осознав её потенциал, основали в сентябре 1998 года компанию Google Inc. для дальнейшего её развития как коммерческого продукта.
С тех пор алгоритмы и математические модели, применяемые при ранжировании в Google, значительно улучшились. В интервью в 2007 году Амит Сингхал, представитель отдела качества поиска Google, заявил, что их поисковая система использует более 200 ранжирующих сигналов, лишь одним из которых является PageRank,[5] но он до сих пор играет существенную роль в поисковых продуктах Google.[6] Стоит отметить, что алгоритм PageRank, в том виде, в каком он был изложен Пейджем в статье 1998 года[3], может быть улучшен в некоторых практических аспектах (например, ссылкам могут назначаться разные веса), и алгоритмы, применяемые в современных поисковых системах, являются скорее лишь его вариантами.
PageRank можно перевести с английского языка как «ранг страницы», однако Google Inc. связывает слово Page в названии алгоритма не с английским словом «страница», а с именем Ларри Пейджа (англ. Larry Page