Pagerank n a что это: PageRank — что это такое и от чего зависит PR, в чем измеряется и как его посмотреть, счетчики Page Rank для сайта | Дропшиппинг

Содержание

PageRank — что это такое и от чего зависит PR, в чем измеряется и как его посмотреть, счетчики Page Rank для сайта

Обновлено 28 сентября 2021 Просмотров: 156961 Автор: Дмитрий Петров

Важность Гугла и его ПейджРанка для вебмастера рунета
Что такое PR, в чем он измеряется и как формируется
Запрещаем передачу статического веса через внешние ссылки
Что может привести к увеличению (уменьшению) ПР
Где и как можно посмотреть Page Rank любого сайта
Варианты счетчиков для отображения PR
Как проверить PR для всех страниц своего или чужого сайта

Приветствую вас, уважаемые читатели блога KtoNaNovenkogo.ru. Сегодня мы продолжим рассматривать основные показатели успешности продвижения вашего сайта и остановимся на понятии Google PageRank или же сокращенно PR. Про Тиц (тематический индекс Цитирования Яндекса) мы говорили в приведенной статье

Сегодня мы в подробностях рассмотрим все эти же вопросы, но уже применительно к показателю ПейджРанк.

Важность Гугла и его ПейджРанка для вебмастера рунета

Сначала немного поговорим о русской версии поисковой системе Гугл и ее роли в жизни любого вебмастера рунета. В последнее время еще добавилась социальная сеть Google+ , с которой тоже приходится считаться.

Не секрет, что большинство вебсайтов львиную долю посетителей получают именно с поисковиков. Для рунета основными источниками поискового трафика (посетителей вашего ресурса, пришедших с выдачи поисковых систем) на данный момент являются Яндекс и Гугл. Когда-то эту сладкую парочку еще разбавлял Rambler, но на данный момент его доля сошла практически на нет, как ни печально это звучит.

На многих проектах с хорошей посещаемостью (во всяком случае на тех, за которыми я слежу) можно наблюдать картину примерного равенства трафика этих гигантов. У кого-то все же есть перекосы в ту или иную сторону, но в среднем наблюдается примерный паритет (что это?).

Поэтому, чтобы добиться хорошей посещаемости в рунете, вам придется услужить двум господам и постараться ни перед одним из них не ударить в грязь лицом (не попасть под пессимизацию или еще того хуже — бан).

Что примечательно, зачастую на начальном этапе развития трафик с Google может быть значительно выше. Возможно это связано с тем, что он более лояльно и не предвзято относится к молодым проектам, а особенно блогам. Во всяком случае у меня в первые месяцы существования KtoNaNovenkogo.ru было именно так.

Показатель PR оказывает несущественное влияние на положение документа с вашего проекта в поисковой выдаче. Правда он не является главным критерием для определения позиции, но при прочих равных условиях его более высокое значение позволит страничке (документу с вашего проекта) стоять выше аналогичного по релевантности документа, но с более низким ранком.

Под релевантностью имелось ввиду соответствие той или иной странички запросу, введенному пользователем в поисковой строке (тут читайте про ранжирование и релевантность подробнее). Если в двух словах, то релевантность странички поисковому запросу определяется по наличию слов в TITLE (заголовке) документа, в заголовках статей, в тегах STRONG и EM и т.п. Подробнее об этом читайте по приведенной ссылке, а так же советую ознакомиться со статьей про то, как работают поисковые системы.

Роль PR особенно будет важна при ранжировании страниц по односложному запросу (когда пользователь вводит только одно слово в строке поиска). В этом случае получается, что очень много документов будут релевантны данному запросу. Вот именно в этом случае наш герой будет играть ключевую роль при определении позиций для этих одинаковых по релевантности (соответствии введенному запросу) документов.

Показатель PageRank придумали основатели кампании (Сергей Брин и Ларри Пейдж), которые затем с успехом его применили в своей самой популярной, на данной момент, в мире поисковой системе. Заслуга этой пузомерки в их успехе неоспорима. Давайте теперь немного подробнее рассмотрим, что же такое PR, как можно его нарастить, как измерить и как установить счетчик, отображающий его текущее значение.

Главным его отличием от ТИЦ Яндекса является то, что он рассчитывается для каждой странички сайта (документа) в отдельности. Но за основу взята все та же схема оценки авторитетности из научного мира, когда ранг того или иного автора зависит от количества и качества указаний на него из научных работ других авторов.

Чем больше указаний и чем они качественнее (указание может поставить студент в своей курсовой работе или же профессор, с большим весом в научном мире), тем больше авторитета получит данная работа данного автора.

Т.е. основным критерием при расчете PageRank, так же как и при расчете ТИЦ, являются ссылки на страницы сайта. Но в отличии от пузомерки Яндекса здесь оценивается не авторитет самого автора научных трудов (всего ресурса), а авторитет отдельных научных работ этого автора (страниц вебсайта или, другими словами, документов). Правда у яндекса есть схожая пузомерка (ВИЦ), но она малоизвестна, ибо никто и никогда не сможет даже примерно оценить ее значение.

Оно и верно, ведь разные работы одного и того же автора могут существенно отличаться по качеству исполнения и актуальности приведенной в них информации. Именно благодаря такой избирательности появляется возможность использовать эту пузомерку для ранжирования документов в поисковой выдаче, в случае, если по основным показателям релевантности они окажутся одинаково значимыми.

Ранжирование страниц в поисковой выдаче Гугла упрощенно можно представить так:

Сначала машина находит в своем основном индексе (есть еще и сопливый индекс, по которому поиск не ведется) все документы, в которых встречаются слова из запроса пользователя
Затем уже среди них выбираются те, где выше плотность ключевых слов (из запроса пользователя) в тексте документа, в его заголовке TITLE, в тегах акцентирования (h2 -H6, STRONG, EM) и т.п.
Так же принимается в расчет текст ссылок (анкор), ведущих с других проектов на эти документы. В этом тексте тоже анализируется плотность ключевых слов из запроса пользователя. Называется эта штука ссылочным ранжированием
Ну, и в конце концов полученные результаты немного могут быть подкорректированы с учетом показателя Page Rank. В результате чего, будут расставлены по своим местам в поисковой выдаче документы с одинаковой релевантностью по данному запросу. Яндекс тоже использует свой ВИЦ (взвешенный индекс цитирования) для корректировки своей выдачи

Что такое PR, в чем он измеряется и как формируется

По сути он является своеобразным мерилом (критерием ценности) той или иной странички в интернете. Его значение зависит от количества и качества обратных ссылок, ведущих с других страниц на данный документ. Чем больше ссылок — тем выше будет значение ПР.

Но так же очень важным является то, какое значение статического веса имеет та страничка, с которой ведет ссылка на документ. Дело в том, что по ссылке передается часть значения PageRank странички донора.

Но и это еще не все. Дело в том, что если со странички донора проставлено несколько ссылок (одна из которых на наш документ), то передаваемый статический вес будет поделен между всеми этим линками поровну.

То количество PR, которое страничка может передать по ссылке, намного меньше ее собственного значения (раньше это было 85 процентов, а сейчас по наблюдениям уже меньше 10%). Это количество статвеса и будет делиться между документами, на которые она ссылается.

Идеальным будет случай, если со странички имеющей Page Rank равный 10 (максимально значение) на ваш документ будет проставлена ссылка, открытая для индексации (без атрибута rel=»nofollow»). И совсем здорово будет, если она будет одна единственная.

В этом случае вашем документу будет передан гигантский вес, достаточный, наверное, чтобы ПР вашей странички поднялся до 9. Если же с этого идеального донора будет проставлено еще несколько ссылок (включая вашу), то вес, передаваемый по каждой из них, будет уже поделен на общее количество и девятку вы уже не получите. Обидно, правда? А так хотелось.

Да, чуть не забыл рассказать о том, как и в чем измеряется значение PageRank, а так же о том, как запретить передачу голоса (веса) по ссылке, ведущей со страничек вашего проекта. Сначала о единицах измерения. Тут существует две шкалы и, соответственно, два значения.

Первый из вариантов представления выражает его вещественным числом и имеет линейный характер изменения. Т.е. увеличение этого значения будет пропорционально увеличению количества статического веса, передаваемого на данный документ по ссылкам с других ресурсов интернета. Это число обновляется практически в реальном времени и постоянно учитывается при ранжировании.

Второй вариант представления PR является производным от первого. Это значение называется тулбарным значением и имеет диапазон изменения от 0 до 10 (всего получается одиннадцать возможных вариантов). Тулбарная цифра получается из вещественного числа по закону близкому к логарифмическому (сильно нелинейному):

Вещественное число, обозначающее реальный статвес	Тулбарное число, получаемое в результате
от 0,00000001 до 5	1
от 6 до 25	2
от 26 до 125	3
от 126 до 625	4
от 626 до 3125	5
от 3126 до 15625	6
от 15626 до 78125	7
от 78126 до 390625	8
от 390626 до 1953125	9
от 1953126 до бесконечности	10

Тулбарная цифирька обновляется не часто — раз в несколько месяцев. Его нулевое значение обычно имеют новые ресурсы или же проекты, попавшие под бан Google, а цифру равную 10 имеют только несколько колоссов во всем интернете.

Как вы можете видеть из приведенной выше таблицы — сначала для наращивания Page Rank не потребуется много ссылок с хорошим весом, но с каждым новой цифирькой его дальнейшее увеличение становится все более сложной, а зачастую и невыполнимой задачей.

В среднем, хорошо оптимизированные (и внутренне, и внешне) ресурсы имеют PR главной страницы равный 4 или 5, а некоторые добиваются даже шестерки, но дальнейший рост этого показателя доступен только очень серьезным и глобальным проектам.

Так что, предел наших с вами мечтаний и возможностей — это скорей всего 6, да и то вряд ли. Скажете, что я пессимист?! Да нет, скорее я реалист. Но если вы вдруг получите (или уже получили) Пейдж Ранк равный 7, то отпишитесь, пожалуйста, об этом в комментариях (и обязательно поставьте ссылку на https://ktonanovenkogo.ru, чтобы и у меня стало все хорошо).

Запрещаем передачу статического веса через внешние ссылки

В принципе, сделать это совсем не сложно. Google позаботился о том, чтобы была возможность не отдавать голос на другой ресурс. Для этого достаточно будет добавить в тег ссылки A атрибут rel=»nofollow» (чуть выше я уже приводил линк на статью, где это подробно все разжевывается). Например так:

<a href="https://ktonanovenkogo.ru" >Все о создании сайтов, блогов, форумов, интернет-магазинов, их продвижении в поисковых системах и заработке на сайте</a>

После этого статвес с донора не будет передаваться на акцептор (тот документ, на который ведет линк). Для чего может понадобиться запрещать передачу веса? Тут все довольно просто. Нужно только вспомнить, что PR может передаваться не только по ссылкам, ведущим на другие проекты, но и по линкам, ведущим на внутренние страницы вашего же ресурса.

Теперь представьте такую ситуацию, что у вас в одном документе проставлено десять внутренних и десять внешних ссылок. Всего получается двадцать. Статический вес, передаваемый по каждой из них, будет равен одной двадцатой от максимально возможного, который способен отдать данный документ (донор). Следовательно, акцепторы получат одну двадцатую максимально возможного веса (пейджранка).

А теперь представьте, что во всех внешних ссылка вы прописали атрибут rel=»nofollow», тем самым запретив передавать по ним вес. В результате весь вес, который способен отдать донор, будет распределен между десятью внутренними ссылками. По каждой из них будет передан вес в одну десятую от максимально возможного, что в два раза больше, чем в случае без использования атрибута rel=»nofollow».

Таким образом, вы препятствуете утеканию PageRank с вашего проекта, аккумулируя его внутри и повышая свои собственные пузомерки. В результате, эти странички вашего ресурса при прочих равных условиях смогут занять более высокое место в поисковой выдаче Google за счет сбереженного статвеса.

P.S. Есть мнение, что сейчас Гугл несколько изменил действие атрибута rel=»nofollow» и ваши внутренние документы в приведенном примере все равно получат по одной двадцатой веса, а все остальное утечет неизвестно куда. Мнение спорно, но…

Однако, я все равно в обязательном порядке прописываю rel=»nofollow» в тегах A, ведущих со счетчиков посещаемости, счетчика Feedburner и прочих элементах. Да и при платном размещении постовых через биржи ГГЛ, РотаПост, ГетГудЛинкс, Collaborator или ВебАртекс зачастую основным требованием является минимальное количество ссылок, по которым передается вес.

Что может привести к увеличению (уменьшению) ПР

Передаваемый по обратной ссылке вес зависит от значения PR документа донора и от общего количества линков с него исходящих. Обратите внимание, я говорил не только о внешних, но и о внутренним линках. Благодаря этой замечательной возможности и проведению грамотной внутренней перелинковке, вы сможете поднять ПейдРанк для большинства документов вашего проекта даже без использования внешних ссылок вообще.

Схема перелинковки (здесь читайте про перелинковку под НЧ, СЧ и ВЧ запросы) может быть разной, но она должна быть достаточно простой и, желательно, чтобы в результате любой документ вашего проекта был бы доступен с главной в три клика. Для упрощения доступа к страницам своего ресурса можно использовать карту сайта ( читайте как Sitemap добавить в Joomla, Вордпресс и другие движки).

Ну, или по отдельность — создание карты сайта на Joomla, создание карты сайта для блога на WordPress и для форума на SMF.

При подсчете PageRank будут учтены все внешние и внутренние обратные ссылки, кроме тех, что ведут с забаненных сайтов. Т.е. сделать вашему сайту гадость, проставив на него ссылки со страниц забаненных вебсайтов, у ваших недоброжелателей не выйдет (после введения алгоритма Пингвин в Гугле это утверждение можно считать спорным). Но вот если вы сами будете размещать у себя бэклинки на забаненные проекты (или просто на откровенные ГС), то вас может постичь печальная участь.

Статический вес ваших документов может уменьшиться, если вдруг пропадет часть ссылок на них ведущих или же Page Rank некоторой части из них уменьшится. Не смотря на то, что статвес влияет на положение документов в поисковой выдаче Google, высокое значение ПР вовсе не гарантирует высокого положения в выдаче. Иначе бы по любому введенному запросу на первом месте в поисковой выдаче Гугла были бы только супертрасты с PR 10 и 9.

Одинаковые ссылки, проставленные с одной странички, будут посчитаны Google за одну, а линки с вебстраницы на саму себя — вообще не учитываются при расчете PageRank (голосовать самому за себя нельзя). Кстати, не факт, что главная будет иметь самый высокий показатель статвеса среди всех прочих. Могут быть внутренние страницы равные или даже превосходящие главную по значению Ранка.

Нужно учитывать, что поисковый робот Гугла довольно инертен и не учитывает все бэклинки мгновенно. Для полного их учета может понадобиться время (до нескольких месяцев).

Где и как можно посмотреть Page Rank любого сайта

Реальное значение этой пузомерки обновляется постоянно, но тулбарное обновляется только раз в несколько месяцев (график предыдущих апдейтов вы можете посмотреть здесь). Узнать ПР для любого сайта можно, например, тут.

В предоставленную форму можно ввести один или несколько Урлов, а затем нажать на кнопку «Проверить PR»:

Этот способ позволяет провести массовую проверку ПейдРанка сразу для большого количества проектов. Однако, в большинстве случаев оптимальным будет вариант с установкой SEO расширений для используемых вами браузеров. В этом случае значение PageRank для странички открытой в браузере, будет отображаться на его панели.

Для браузера FireFox вы можете использовать любой SEO плагин из описанных тут:

Для браузера Opera существует очень удобный и функциональный плагин SEObar , а так же ряд других полезных расширений для Оперы вы найдете здесь:

Тут описаны дополнения для Гугл Хрома, который сейчас все больше и больше набирает популярность. Для большинства обозревателей можно так же установить так называемый Google ToolBar. Отображается, правда, не числовое значение, а его графическая интерпретация (чем больше зеленая полоска, тем выше важность (PageRank) открытого в браузере документа:

Но если подвести к иконке курсор мыши, то вы увидите и цифровое значение тулбарного ПР. Есть еще ресурсы, на которых вы можете осуществить массовую проверку сразу для нескольких вебсайтов, например, Gogolev.

Варианты счетчиков для отображения PR

Есть несколько вариантов счетчиков, отображающих Пейдранк для того документа, на котором они установлены. Правда есть варианты, показывающие ПР только главной страницы, ибо оно является, как правило, наиболее высоким и должно производить большее впечатление, например, на рекламодателей. Пример такого счетчика вы можете увидеть здесь.

Выбираете внешний вид информера и копируете его код в область, расположенную правее картинки счетчика. Этот код вы должны будете вставить в шаблон своего проекта, в результате чего он будет показывать посетителям ПР открытой странички. Например, так:

В качестве пособия по вставке кода в шаблон, можете использовать советы по вставке счетчиков посещаемости в шаблон Joomla, WordPress и SMF — тут и здесь.

Как проверить PR для всех страниц своего или чужого сайта

Зачастую бывает нужно узнать показатель Page Rank для всех имеющихся на проекте документов. Делать это по отдельности может оказаться очень трудоемким занятием. Именно для этих случаев были созданы достаточно удобные сервисы.

Вам нужно будет лишь загрузить на сервис карту вашего сайта, для того, чтобы он знал, какие именно странички нужно будет проверять. Более подробно о работе с этими сервисами автоматической проверки PageRank читайте тут.

Так же для понимания того, как относится поисковая система Google к вам, будет полезно знать, сколько ваших документов находится в ее основном индексе, а сколько попало в дополнительный, который зачастую называют сопливым индексом (Supplemental Index). Почему так важно это знать? Ну, тут все довольно просто. Поиск ведется только по документам находящимся в основном индексе.

Страницы сайтов находящиеся в дополнительном индексе (Supplemental Index) в поиске не участвуют, за исключением очень редких случаев. Поэтому с точки зрения привлечения посетителей они являются совершенно бесполезным балластом.

Избавляться от них, конечно же, не надо, но полезно будет знать их количество. Подробно обо всем об этом читайте в статье «Как узнать, насколько качественный у вас ресурс и насколько высоко его ценит Google».

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Эта статья относится к рубрикам:

Pagerank это, что такое и как его определить на сервисе Xtool

В статье рассмотрим вопрос, Pagerank, это? Также разберем сервис Xtool и его возможности. Определим на данном сервисе Pagerank и узнаем о ценности данного показателя.

Здравствуйте, друзья! Что такое Xtool? Это сервис для проверки сайтов и их оценки. То есть, с помощью сервиса вы сможете определить уровень доверия поисковых систем к сайту (траст сайта), узнать об оценке качества внешних ссылок, заспамленности ссылок. Кроме того, сервис показывает такие показатели, как оценку трафика в Яндекс или Google, помогает определить индекс качества сайта, то есть ИКС. О том, что такое ИКС, можете посмотреть в статье. Сервис Xtool позволяет подсмотреть, есть ли фильтры от поисковых систем или нет, он определяет индексацию страниц, популярность, Xpr, посещаемость и так далее.

Для чего нужен сервис Xtool? В основном, чтобы проводить СЕО анализ сайтов или блогов. Причем ресурс делает это бесплатно и без регистрации. При желании вы можете создать аккаунт на сервисе, чтобы информация о вашем сайте быстро обновлялась.

Далее поговорим о Pagerank и используем Xtool на практике.

Итак, Pagerank это что такое? Простыми словами это алгоритм ссылочного ранжирования или числовая величина, которая характеризует важность страниц. Этот алгоритм применяют к коллекции каких-либо документов, сайтов, изображений, которые связаны гиперссылками. С помощью алгоритма определяется важность или вес той или иной страницы, документа, сайта.

Отсюда сделаем вывод – чем больше ссылок ссылается на какую-либо страницу, тем она важнее. С помощью Pageranke можно определить вес страницы в Интернете, путем подсчета важности ссылок на нее. Далее мы определим Pageranke на сервисе Xtool.

Итак, чтобы без сбоев проверить сайт, давайте сначала зарегистрируемся на Xtool. Переходите на сервис «xtool.ru» и далее нажимаете кнопку «Регистрация» (скрин 1).

Далее пишете Email и соглашаетесь с правилами. Затем кликните еще раз «Регистрация». После этого зайдите в почтовый ящик, который указали. Затем сохраните данные для входа – логин и пароль. Нажмите в письме – «Ссылка для входа в личный кабинет» и войдете на сервис.

Теперь, мы проверим наш сайт. Для этого скопируйте в адресной строке адрес сайта. Кстати, в статье мы рассказали, «что такое адресная строка». Здесь показано для новичков, как с ней работать. Затем вставляете адрес сайта в поле и нажимаете «Проверить» (скрин 2).

Далее вы увидите внизу показатель xPR – это аналог PageRank (скрин 3).

К примеру, с главной страницы данного ресурса можно увидеть, что xPr: 0.94. Это означает, что важность страницы повышается, и показатель позволяет понять, что данный сайт является полезным. Раньше был показатель от Гугла и он назывался PR. Теперь, Google реанимирует его в новом видении. Кстати, на сервисе дается 7 бесплатных проверок в день.

Разберем дополнительные возможности сервиса:

Мы разобрали только основные возможности данного сервиса. Остальное сможете посмотреть самостоятельно.

Заключение

По сути, Pagerank это одна из важных характеристик сайта? В статье показано, где посмотреть этот показатель. Вычислили его на специальном сервисе Xtool и сделали обзор на этот ресурс. Теперь вы знаете, как определять важность страниц сайта, как проводить бесплатный аудит. Это поможет понять, насколько хорошо ваш ресурс развивается, какие ошибки нужно устранять.

Спасибо за внимание!

С уважением, Иван Кунпан.

Источник

Что такое Google PageRank (PR)? Как влияет PR на ранжирование и как поднять значение PR

Здравствуйте уважаемые читатели блога MonetaVInternete.ru! Сегодня я расскажу вам об очень важном показателе продвижения сайта — Page Rank, на что он влияет и как его повысить. Советую прочесть эту статью полностью, так как нельзя не брать в расчет увеличение PageRank в процессе раскрутки сайта.

История появления PageRank и единицы измерения.

PageRank создан компанией Google (как уже видно из названия статьи), а точнее ее основателями Сергеем Брином и Ларри Пейджом. Вообще, Google любит молодые проекты, особенно блоги, в отличии от Яндекса. Собственно, поэтому у многих проектов основная доля посетителей идет с поисковой системы Google, нежели с Яндекса, для которого одним из основных факторов ранжирования является возраст сайта.

PR, в отличии от Тиц, оказывает довольно большое влияние на ранжирование (позицию в поисковой выдаче), хотя и не является основным фактором определения позиции. PR играет ключевую роль только в том случае, если запрос пользователя состоит из одного слова, ведь страниц в интернете, в которых в теге title стоит это слово великое множество, и тут на помощь приходит PR. Пришло время рассказать о том,

как рассчитывается PR.

Перво-наперво запомните, что PR рассчитывается для каждой странички отдельно, а не для сайта целиком. Т.е. у вас на сайте, допустим, 100 страниц. У половины PR может быть равен 5, у другой половины — 4. Существует два вида PR -тулбарное значение и вещественное. Вещественное значение имеет, так называемый линейный характер измерения, прямопропорциональный весу ссылок на вашу страничку с других страниц других сайтов. О весе страниц вы можете прочитать в статье про анкоры. Тулбарное значение рассчитывается иначе и имеет показатель от 0 до 10. Ниже приведена таблица соответствия вещественного значения и тулбарного.

Вещественное значение PageRank	Тулбарное значение PageRank
от 0,00000001 до 5	1
от 6 до 25	2
от 26 до 125	3
от 126 до 625	4
от 626 до 3125	5
от 3126 до 15625	6
от 15626 до 78125	7
от 78126 до 390625	8
от 390626 до 1953125	9
от 1953126 до бесконечности	10

Исходя из данной таблицы и знаний алгебры 9 класса можно заметить, что тулбарное значение рассчитывается по логарифмическому алгоритму (логарифм вещественного значения по основанию 5, округленный до целых в большую сторону). Вещественное значение обновляется практически постоянно и также постоянно учитывается при определении места странички в поисковой выдаче, благодаря мощным серверам Google, а вот тулбарное значение всего лишь раз в пару месяцев. PR=10 имеют всего около 10 страничек в интернете. На февраль 2012 года это страница компании adobe (причем не главная страница, а страница скачивания флеш плеера) главная страница твиттера, страница правительства США, страница белого дома. Даже у самого Google PR=9. Невероятно, но факт.

Передача веса и способы сохранения веса с помощью атрибута rel=»nofollow»

Как же передается вес? Возьмем определенный сайт, с которого планируем поставить открытую для индексации ссылку на свой ресурс (такие сайты называют донорами). С этого сайта по проставленной ссылке на ваш ресурс передается определенный вес, равный, примерно 85% весу самой странички, на которой есть ссылка на ваш ресурс. Но ведь не одни вы проставили ссылку с сайта-донора, вследствие чего вес (те самые 85%) делятся на все ссылки на другие сайты.

Т.е. если страничка-донор имеет вес, допустим 100, то вес, который она может передать равен 85 (85% от 100), и это на один сайт. Если сайтов,например, 5, то вес, переданный по каждой ссылке равен 85/5=17%. Идеальным был бы вариант, если вы нашли страничку-донор с PR=10, на которой нет ссылок на другие сайты, и поставили ссылку на свой ресурс, то PR той странички, на которую ссылается сайт-донор может возрасти до 9. Хорошая мечта, не так ли?

Не надо объяснять, что с вашего ресурса тоже передается определенный вес по ссылкам, ведущим на другие странички. Но нужно помнить еще и то, что вес передается еще и по внутренним ссылкам. Например, если у вас на одной странице проставлено 5 внутренних и 5 внешних ссылок, то вес будет распределен на 10 частей — страничек. Помимо того, что вес идет на внутренние страницы , что фактически повышает PR вашего ресурса, часть веса уходит куда-то на просторы интернета. Обидно? Что же делать в таком случае? А все довольно таки просто. Google давно позаботился о решении этой проблемы, путем в тег А атрибута rel=»nofollow». Выглядеть анкор (ссылка) будет следующим образом:

<a href="ссылка на сайт" rel="nofollow"> текст анкора</a>

Вот, собственно и все. Итог: PR не теряется и все довольны. Но есть два ньюанса. В последнее время Google учитывает и ссылки с данным атрибутом, так что полностью сохранить вес своей странички-донора не получится. Второй же ньюанс заключается в том, что не стоит этого делать, если вы на этих ссылках хотите заработать при помощи биржи ссылок. Я, например, ставлю атрибут rel=»nofollow» в статьях, счетчиках, скриптах и т.д. Пусть ненамного, но все таки потеря PR уменьшается. А благодаря грамотной перелинковке можно довольно хорошо поднять PR вашего ресурса в целом.

Итак, при подсчете PR учитываются и внутренние и внешние обратные ссылки и, как я уже говорил, не все страницы будут иметь равное значение. Но есть забаненые сайты, с которых вес передаваться не будет. Вреда вам от ссылок с подобных сайтов не будет, но и пользы тоже. А вот если вы ссылаетесь на забаненые сайты, то можете и сами попасть под бан Google. Вес ссылки также будет зависеть от соответствия тематики вашего сайта с тематикой сайта-донора и от возраста сайта-донора. То есть если у вашего сайта игровая тематика, например, то и вес, переданный с сайта такой же тематики будет значительно больше, нежели с любого другого ресурса. Кстати, примерно по такому же принципу подбираются релевантные обьявления в контекстной рекламе Google Adsense.

Но вернемся к теме. Следует знать и помнить, что Google считает все одинаковые ссылки с одной страници-донора на другую за одну. Т.е. если на одной странице есть 10 одинаковых ссылок, то робот Google посчитает все 10 как 1. Вообще, робот довольно быстр и сканирует сайт фактически за считанные секунды, но вот для полного учета (учета всех сайтов) ему может понадобится несколько месяцев (собственно, поэтому и обновляется PR раз в несколько месяцев).

Сервисы проверки PR с дополнительными возможностями.

Как же узнать PR сайта в целом или каждой его страницы?. В интернете существует много сервисов, благодаря которым вы можете узнать данный показатель, да и не только его. Это и cy-pr.com и pr-cy.ru и seobudget.ru На любом из них вы сможете узнать значение PR вашего ресурса, а также дату обновления PR, тиц и поисковая выдача Яндекса (хотя в вышеперечисленных сервисах еще много дополнительных возможностей, которые могут вам пригодиться). А для еще более быстрой проверки, рекомендую установить дополнение в браузер под названием СЕО-бар, хотя у каждого браузера оно называется по-разному, просто введите в поиске дополнений SEO и выберете.

Для оперы наилучшим вариантом будет Seo-bar, для хрома я пока не нашел достойного плагина, но их довольно много, можете выбрать любой. Кстати насчет бара для оперы. Он еще полезен тем, что показывает все обратные ссылки, путем выделения текста коричневым цветом, если ссылка открыта для индексации (без атрибута rel=»nofollow») и зеленым, если закрыта (с атрибутом rel=»nofollow»).
И напоследок. Недавно (а может и сейчас) можно было встретить довольно много сайтов с PR главной страницы , равным 10, 9 а остальные страницы имели PR около 1-3.

Как они это сделали? С помощью редиректа. Редирект — перенаправление с одной страницы на другую. Робот Google сканирует все страницы сайта. Владельцы сайтов (либо чтобы запутать систему, либо покрасоваться перед друзьями) устанавливали перенаправление для сканирующего робота с главной страницы на любую другую с высоким показателем PR, а простые пользователи так и оставались на главной страницы, никуда не перенаправляясь.

Вот, собственно и все, что я хотел вам рассказать про PR. Еще много интересного вы можете найти в следующих статьях, посвященных все тем же показателям

Алгоритм PageRank | Data Science

Продолжаем описание популярных алгоритмов из серии «Топ-10 data mining алгоритмов» и сегодня весьма интересный случай — алгоритм PageRank.

PageRank – это алгоритм ссылочного ранжирования, разработанный для определения относительной важности объекта, связанного с сетью объектов.

Ссылочное ранжирование? Это тип сетевого анализа, определяющий ассоциации (читай, связи) между объектами.

Вот пример: Наиболее известный пример PageRank – это поисковая система Google. Хотя их поисковик не полностью полагается на PageRank, все же это один из методов, который использует Google, чтобы определить важность веб-страницы.

Объяснение:

Веб-страницы в интернете связаны друг с другом. Если datascientist.one дает ссылку на РБК, то РБК получает очко в копилку, так как datascientist.one посчитал сайт РБК релевантным.

Но это еще не всё…

Вес балла от datascientist.one оценивается важностью и релевантностью самого сайта.
Другими словами, любая веб-страница, дающая ссылку на datascientist.one, повышает его релевантность.

Резюме?

Эта концепция голосов и релевантности представляет собой PageRank. Голос datascientist.one за РБК увеличивает PageRank РБК, и величина, на которую он увеличится, зависит от влияния и значимости datascientist.one.

Что означают PageRank равные 0,1,2,3 и так далее? Хотя точное значение числа PageRank компания Google не раскрывает, мы можем получить об этом представление.

И вот как:

Видите?

Все это выглядит как соревнование по популярности. Мы все имеем представление о том, какие сайты релевантные и популярные. PageRank просто переводит наше представление в цифры.

Как еще применяется PageRank? PageRank был специально разработан для всемирной сети.

По своему содержанию PageRank – это просто суперэффективный способ проведения ссылочного ранжирования. Однако соединяемые объекты необязательно должны быть веб-страницами.

Вот 3 инновационных применения PageRank:

Доктор Стефано Аллесина (Stefano Allesina) из Чикагского университета применил PageRank в сфере экологии, чтобы определить, какие из особей являются жизненно важными для поддержания экосистемы.
Twitter разработал WTF (Who-to-Follow) – персонализированный вариант рекомендательного движка, основанного на PageRank, показывающий список людей, на которых стоит подписаться.
Бин Жэнь (Bin Jiang) из Гонконгского политехнического университета использовал вариант PageRank для предсказания перемещения людей на основании топологических метрик в Лондоне.

Требует ли этот метод обучения или он самообучающийся? PageRank обычно расценивают как самообучающийся метод, поскольку он часто используется для определения релевантности веб-страницы.

Почему именно PageRank? Главным достоинством PageRank является надежность, несмотря на сложность получения релевантной входящей ссылки.

Где он используется? Торговая марка PageRank принадлежит компании Google. Однако алгоритм PageRank запатентован Стэндфордским университетом.

Если у вас возник вопрос по поводу того, можете ли вы использовать PageRank: лучше посоветоваться со знающими людьми, но, вероятно, вы можете использовать алгоритм сколько вам угодно, пока он не начнет приносить вам финансовую выгоду.

Вот 3 примера реализации PageRank:

Источник

Пример вычисления pagerank (видео)

Алгоритм PageRank на Python

Вот как выглядит алгоритм ранжирования страниц на Питоне (полные инструкции можно найти по ссылке выше):

import operator import math, random, sys, csv from utils import parse, print_results class PageRank: def __init__(self, graph, directed): self.graph = graph self.V = len(self.graph) self.d = 0.85 self.directed = directed self.ranks = dict() def rank(self): for key, node in self.graph.nodes(data=True): if self.directed: self.ranks[key] = 1/float(self.V) else: self.ranks[key] = node.get(‘rank’) for _ in range(10): for key, node in self.graph.nodes(data=True): rank_sum = 0 curr_rank = node.get(‘rank’) if self.directed: neighbors = self.graph.out_edges(key) for n in neighbors: outlinks = len(self.graph.out_edges(n[1])) if outlinks > 0: rank_sum += (1 / float(outlinks)) * self.ranks[n[1]] else: neighbors = self.graph[key] for n in neighbors: if self.ranks[n] is not None: outlinks = len(self.graph.neighbors(n)) rank_sum += (1 / float(outlinks)) * self.ranks[n] # actual page rank compution self.ranks[key] = ((1 — float(self.d)) * (1/float(self.V))) + self.d*rank_sum return p if __name__ == ‘__main__’: if len(sys.argv) == 1: print ‘Expected input format: python pageRank.py <data_filename> <directed OR undirected>’ else: filename = sys.argv[1] isDirected = False if sys.argv[2] == ‘directed’: isDirected = True graph = parse(filename, isDirected) p = PageRank(graph, isDirected) p.rank() sorted_r = sorted(p.ranks.iteritems(), key=operator.itemgetter(1), reverse=True) for tup in sorted_r: print ‘{0:30} :{1:10}’.format(str(tup[0]), tup[1]) # for node in graph.nodes(): # print node + rank(graph, node) #neighbs = graph.neighbors(node) #print node + » » + str(neighbs) #print random.uniform(0,1) def rank(graph, node): #V nodes = graph.nodes() #|V| nodes_sz = len(nodes) #I neighbs = graph.neighbors(node) #d rand_jmp = random.uniform(0, 1) ranks = [] ranks.append( (1/nodes_sz) ) for n in nodes: rank = (1-rand_jmp) * (1/nodes_sz) trank = 0 for nei in neighbs: trank += (1/len(neighbs)) * ranks[len(ranks)-1] rank = rank + (d * trank) ranks.append(rank)

import operator

import math, random, sys, csv

from utils import parse, print_results

class PageRank:

def __init__(self, graph, directed):

self.graph = graph

self.V = len(self.graph)

self.d = 0.85

self.directed = directed

self.ranks = dict()

def rank(self):

for key, node in self.graph.nodes(data=True):

if self.directed:

self.ranks[key] = 1/float(self.V)

else:

self.ranks[key] = node.get(‘rank’)

for _ in range(10):

for key, node in self.graph.nodes(data=True):

rank_sum = 0

curr_rank = node.get(‘rank’)

if self.directed:

neighbors = self.graph.out_edges(key)

for n in neighbors:

outlinks = len(self.graph.out_edges(n[1]))

if outlinks > 0:

rank_sum += (1 / float(outlinks)) * self.ranks[n[1]]

else:

neighbors = self.graph[key]

for n in neighbors:

if self.ranks[n] is not None:

outlinks = len(self.graph.neighbors(n))

rank_sum += (1 / float(outlinks)) * self.ranks[n]

# actual page rank compution

self.ranks[key] = ((1 — float(self.d)) * (1/float(self.V))) + self.d*rank_sum

return p

if __name__ == ‘__main__’:

if len(sys.argv) == 1:

print ‘Expected input format: python pageRank.py <data_filename> <directed OR undirected>’

else:

filename = sys.argv[1]

isDirected = False

if sys.argv[2] == ‘directed’:

isDirected = True

graph = parse(filename, isDirected)

p = PageRank(graph, isDirected)

p.rank()

sorted_r = sorted(p.ranks.iteritems(), key=operator.itemgetter(1), reverse=True)

for tup in sorted_r:

print ‘{0:30} :{1:10}’.format(str(tup[0]), tup[1])

# for node in graph.nodes():

# print node + rank(graph, node)

#neighbs = graph.neighbors(node)

#print node + » » + str(neighbs)

#print random.uniform(0,1)

def rank(graph, node):

nodes = graph.nodes()

#|V|

nodes_sz = len(nodes)

neighbs = graph.neighbors(node)

rand_jmp = random.uniform(0, 1)

ranks = []

ranks.append( (1/nodes_sz) )

for n in nodes:

rank = (1-rand_jmp) * (1/nodes_sz)

trank = 0

for nei in neighbs:

trank += (1/len(neighbs)) * ranks[len(ranks)-1]

rank = rank + (d * trank)

ranks.append(rank)

Алгоритм PageRank в R

Вот как выглядит алгоритм ранжирования страниц на R (более подробную инструкцию можно найти по ссылке):

## Download and install the package install.packages(«igraph») ## Load package library(igraph) ## Usage page.rank (graph, algo = c(«prpack», «arpack», «power»), vids = V(graph), directed = TRUE, damping = 0.85, personalized = NULL, weights = NULL, options = NULL) page.rank.old (graph, vids = V(graph), directed = TRUE, niter = 1000, eps = 0.001, damping = 0.85, old = FALSE)

## Download and install the package

install.packages(«igraph»)

## Load package

library(igraph)

## Usage

page.rank (graph, algo = c(«prpack», «arpack», «power»),

vids = V(graph), directed = TRUE, damping = 0.85,

personalized = NULL, weights = NULL, options = NULL)

page.rank.old (graph, vids = V(graph), directed = TRUE, niter = 1000,

eps = 0.001, damping = 0.85, old = FALSE)

Аргументы

graph
The graph object.

algo
Character scalar, which implementation to use to carry out the calculation. The default is «prpack», which uses the PRPACK library (https://github.com/dgleich/prpack). This is a new implementation in igraph version 0.7, and the suggested one, as it is the most stable and the fastest for all but small graphs. «arpack» uses the ARPACK library, the default implementation from igraph version 0.5 until version 0.7. power uses a simple implementation of the power method, this was the default in igraph before version 0.5 and is the same as calling page.rank.old.

vids
The vertices of interest.

directed
Logical, if true directed paths will be considered for directed graphs. It is ignored for undirected graphs.

damping
The damping factor (‘d’ in the original paper).

personalized
Optional vector giving a probability distribution to calculate personalized PageRank. For personalized PageRank, the probability of jumping to a node when abandoning the random walk is not uniform, but it is given by this vector. The vector should contains an entry for each vertex and it will be rescaled to sum up to one.

weights
A numerical vector or NULL. This argument can be used to give edge weights for calculating the weighted PageRank of vertices. If this is NULL and the graph has a weight edge attribute then that is used. If weights is a numerical vector then it used, even if the graph has a weights edge attribute. If this is NA, then no edge weights are used (even if the graph has a weight edge attribute.

options
Either a named list, to override some ARPACK options. See arpack for details; or a named list to override the default options for the power method (if algo=»power»). The default options for the power method are niter=1000 and eps=0.001. This argument is ignored if the PRPACK implementation is used.

niter
The maximum number of iterations to perform.

eps
The algorithm will consider the calculation as complete if the difference of PageRank values between iterations change less than this value for every node.

old
A logical scalar, whether the old style (pre igraph 0.5) normalization to use.

Пример

g <- random.graph.game(20, 5/20, directed=TRUE) page.rank(g)$vector g2 <- graph.star(10) page.rank(g2)$vector # Personalized PageRank g3 <- graph.ring(10) page.rank(g3)$vector reset <- seq(vcount(g3)) page.rank(g3, personalized=reset)$vector

g <- random.graph.game(20, 5/20, directed=TRUE)

page.rank(g)$vector

g2 <- graph.star(10)

page.rank(g2)$vector

# Personalized PageRank

g3 <- graph.ring(10)

page.rank(g3)$vector

reset <- seq(vcount(g3))

page.rank(g3, personalized=reset)$vector

Итак, немного фактов о самом pagerank:

PageRank — это число, характеризующее исключительно голосующую способность всех входящих ссылок на страницу и то, как сильно они рекомендуют эту страницу.

Каждая уникальная страница сайта, проиндексированная Google, имеет вес PageRank. Люди часто ошибаются, думая о весе сайта, который на самом деле является весом главной страницы этого сайта.

Внутренние ссылки сайта учитываются при расчете веса PageRank для других страниц сайта.

PageRank независим, он не принимает во внимание текст ссылок и т.д. Конечно, они связаны, но говорить, что это одно и то же, это все равно что говорить, будто тэг Title то же самое, что ключевые слова в тексте.

Дополнительные файлы: статья и презентация с примерами (англ.).

Google PageRank – официально на свалке сео-истории

До сих пор часто задаваемый вопрос «когда же Google наконец-то соизволит обновить PageRank?» получил официальный, надо полагать, финальный ответ – никогда!

На днях спикер Корпорации добра положил конец спекуляциям на тему, упомянув, что проект «PageRank» закрыт компанией раз и навсегда, причем на всех уровнях. Иначе говоря, PR перестал быть одним из многих факторов ранжирования сайта поисковой системой. Более того, тулбарный PageRank, отображаемый некоторыми браузерами, исчезнет в течение ближайших недель.

Таким образом, некогда главный критерий авторитетности страниц сайта в глазах Гугл окончательно и бесповоротно отправляется на свалку оптимизаторской истории. Этого могло бы и не произойти, если бы не «ушлые» веб-мастера и построенный ими теневой ссылочный бизнес, существенно подрывающий релевантность выдачи. По словам представителя американского поисковика, продавцы ссылок до сих пор засыпают Google тысячами писем по поводу возобновления расчета PR.

Как отмечается, решение об окончательной отмене PageRank далось компании непросто. Еще в октябре 2014 года Джон Муэллер сообщил, что Гугл скорее всего больше не будет обновлять PageRank, последний апдейт которого состоялся в декабре 2013-го. Но с тех пор и до настоящего момента в Корпорации добра продолжали сомневаться в целесообразности такого шага. Теперь же эти сомнения в прошлом – PageRank приказал долго жить.

В этой связи возникает два вопроса. Во-первых, каким образом Гугл отныне будет учитывать входящие ссылки в качестве сигнала для ранжирования сайтов и будет ли в принципе? Во-вторых, не пойдет ли Яндекс по стопам Google (что за ним часто водится), отменив тематический Индекс Цитирования? Для отечественного сео-сообщества последний вопрос особенно актуален ввиду отсутствия апдейта тИЦ на протяжении почти трех месяцев. Ждем ответов на них уже в скором будущем.

Как заработать на Google PageRank

С 20 по 21 января по seo-форумам прокатилась волна тем о том, что наконец-то произошёл апдейт Google PageRank. Для тех, кто не в курсе: пэйдж-ранк — это один из алгоритмов ссылочного ранжирования, который определяет вес отдельно взятой страницы сайта в выдаче Гугла. После форумов в дайджесте появились десятки постов знаменитых и не очень блоггеров, посвящённых этому знаменательному событию. Но судя по всеобщей эйфории, многие даже не догадываются, что такое PR и для чего он нужен. Увидели в тулбаре прирост какой-то циферки и рады до умопомрачения.

Если вкратце, то PageRank влияет на место страницы сайта в Google. Т.е. единственное, что даёт веб-мастеру эта пузомерка — рост позиций в поисковике, которым пользуются примерно 30% наших граждан (да и то в основном в сфере бизнеса и партнёрства). Грубо говоря, если ваш сайт посвящён компьютерной игре Fallout или рецептам приготовления супа из устриц, то на трафик из Гугла можно особо не надеяться. Для наглядности приведу свою скромную статистику:

1. Блог о заработке на партнёрских программах

2. Сайт компании, занимающейся торговым оборудованием

3. Блог про компьютерные игры

Можете сами посмотреть статистику своих сайтов. Да, не спорю, трафик с Гугла есть. Но никто не будет специально двигаться в поисковой системе, которая изначально не даёт ощутимого эффекта. Google годится нам разве что только для конкурсов 🙂

Как заработать на PR

Единственный на сегодняшний день приличный вид монетизации сайтов с высоким показателем PR — партнёрская программа GetGoodLinks. По своей сути партнёрка похожа на GoGetLinks: она тоже создана с целью покупки/продажи контекстных ссылок и рекламных обзоров. Гарантия на ссылки 3 месяца, PageRank сайта, добавляемого в систему, должен быть 1 или выше, в индексе Google должно быть от 70 страниц. Сайты с бесплатными доменами 3 уровня и возрастом до 6 месяцев не принимаются. Средние цены на размещение:

Так вот. У многих сайтов после этого апдейта появился PR — самое время рубить бабло, пока всё не откатили. «Есть причины полагать, что показатель PageRank порежут?» — спросите вы. Думаю, что не на всех сайтах, но на многих его значения пересмотрят. Достаточно привести примеры неадекватного присвоения высоких значений в этот ап молодым сайтам без ссылочной массы или вовсе пустым доменам с заглушкой.

А как у вас прошёл ап пейджранка?
Знаете ещё способы заработка на пузомерке Гугла?
Как думаете, когда будет следующий апдейт?

ПОНРАВИЛСЯ ПОСТ? ПОДЕЛИСЬ ССЫЛКОЙ С ДРУЗЬЯМИ!

СТАТЬИ ИЗ РУБРИКИ:

Тематика: Google, Ссылки

Дата публикации: 24.01.2011

(некоторые ответы перед публикацией проверяются модератором)

Google PageRank и ВИЦ, ТИЦ Яндекса. Alexa Rank. Увеличение ТИЦ и PR.

Здравствуйте, уважаемые посетители моего скромного блога для начинающих вебразработчиков и web мастеров ZametkiNaPolyah.ru. Открываю рубрику ТИЦ и PR, в которой попытаюсь подробно рассказать о том, что такое ТИЦ и что такое PR. Как увеличить ТИЦ и PR и как уменьшить Alexa Rank. Начинающий вебмастер должен сразу представлять себе: что такое Google PageRank, Alexa Rank, ТИЦ Яндекса и что такое ВИЦ Яндекса. Ни для кого не секрет, что чем выше у сайта PR и ТИЦ – тем круче сайт. ТИЦ сайта и PR сайта можно поднять и, собственно, в рубрике ТИЦ и PR мы попытаемся вместе с вами разобраться: как поднять ТИЦ сайта, как поднять PR сайта.

В этой рубрике мы постараемся разобраться с вопросами: как проверить ТИЦ сайта, как проверить PR сайта, что такое апдейт ТИЦ и что такое апдейт PR, когда происходят апдейты ТИЦ и PR. Естественно я не обойду стороной вопросы: как поднять ТИЦ сайта и как увеличить PR сайта.

И так, мы уже выяснили, что основные показатели значимости сайта – это ТИЦ и PR. В Яндексе помимо ТИЦ есть еще такой показатель, как ВИЦ – взвешенный индекс цитирования. ТИЦ, ВИЦ и PR – это показатели, поисковых систем, чем выше эти показатели, тем сайт для поисковой системы значимей и авторитетней.

Помимо ТИЦ, PR и ВИЦ есть еще такой показатель, как Alexa Rank, этот показатель отражает уровень посещаемости сайта, Alexa Rank показывает трафик на сайт. Если ТИЦ и PR нам необходимо поднимать, то Alexa Rank наоборот. То есть, чем ниже Alexa Rank, тем лучше и посещаемость сайта выше. Alexa Rank отображает позицию сайта в своем рейтинге в зависимости от посещаемости ресурса. Самый посещаемый сайт в мире будет первым в рейтинге Alexa Rank. Alexa Rank как ТИЦ и PR можно проверить, но об этом после.

Не забываем подписываться на RSS-ленту, twitter и на публичную страницу Вконтакте

Что такое ВИЦ Яндекса, как формируется показатель ВИЦ сайта

Содержание статьи:

Начнем мы со взвешенного индекса цитирования или ВИЦ Яндекса. Показатели ВИЦ и ТИЦ Яндекса близки к показателю, пришедшему из научного мира – тематический индекс цитирования, который формировался путем подсчета ссылок на ту или иную научную работу автора, чем больше таких ссылок, тем работа была значимей.

Но, ВИЦ Яндекса формируется немного по-другому. Все дело в том, что интернет это среда, которую тяжело контролировать. А показатели ВИЦ, ТИЦ и PR очень важны, поскольку именно они определяют то, сколько вы можете заработать на сайте путем продажи ссылок с вашего сайта. Поэтому ВИЦ Яндекса формируется не только с учетом количества ссылок, но и с учетом качества обратных ссылок.

Иначе можно было бы создать много сайтов и ссылаться на свой ресурс, тем самым увеличивая его ВИЦ и PR. Поэтому качество или вес ссылок играет не последнюю роль в увеличение ВИЦ, ТИЦ и PageRank. Таким образом, ВИЦ сайта формируется с учетом количества обратных ссылок на сайт и с учетом качества обратных ссылок на сайт.

Под качеством следует понимать показатели сайта донора. Если мы хотим увеличить ВИЦ, то ВИЦ сайта донора должен быть высоким. Но, говорить увеличить ВИЦ сайта неправильно, можно увеличить ТИЦ сайта, но никак не ВИЦ. Поскольку ВИЦ Яндекса формируется не для всего сайта, а для каждой страницы сайта или блога. Понятно, что ВИЦ главной страницы сайта – это самое главное, но и другие страницы вашего ресурса имеют свой показатель ВИЦ.

Сайт донора или сайт, с которого мы получили ссылку должен иметь большой показатель ВИЦ, тогда и вес ссылки, который передается продвигаемому сайту будет больше, следовательно и ВИЦ продвигаемого сайта будет выше.Раньше вы бы не смогли проверить ВИЦ сайта, но теперь Яндекс открыл показатель ВИЦ и вы можете проверить ВИЦ, ТИЦ, Google PR.

У всех страниц в интернете, которые проиндексировали поисковые системы Яндекс и Google, имеется ВИЦ. И если с этой странице есть ссылки на другие страницы в интернете, то по этим ссылкам передается часть веса ВИЦ и PR. Этот вес равномерно распределяется между всеми исходящими с документа ссылками. Из этого следует следующее: чем выше ВИЦ у той или иной страницы и чем меньше у него будет внешних ссылок, тем больший вес будет передан странице вашего сайта. Данное правило не распространяется на внутренние ссылки сайта или внутреннюю перелинковку.

Давайте теперь рассмотрим аналогичный показатель самой популярной поисковой системы в мире Google – Google PageRank. Google PageRank или Google PR можно просто pagerank или pr формируется точно так же, как и ТИЦ Яндекса.

То есть поисковая система Google при ранжирование страниц в интернете пользуется тем же правилом, что и Яндекс: считается количество ссылок на сайт и качество ссылок на сайт, то есть их вес. Продвигая сайт не забывайте о показателе Google pr. В любом случае, если вы зададитесь целью увеличить ТИЦ или ВИЦ, неизбежно будет расти и PageRank и даже посещаемость вашего сайта. Гугл изначально не скрывал показатель PageRank и вы его можете проверить на любом сервисе проверки ВИЦ, ТИЦ и PR сайта.

К сожалению, Google позволяет проверить только тулбарное значение PageRank, которое изменяется по логарифмическому закону – это несколько усложняет анализ сайта по показателю Google PageRank. Апдейт PageRank Google происходит раз в несколько месяцев и его очень трудно спрогнозировать или угадать, иногда это удается. В любой случае стоит проводить оптимизацию сайта и продвигать его по показателям поисковой системы: ВИЦ, ТИЦ и PageRank. Поскольку с увеличением ВИЦ и PR будет расти посещаемость вашего сайта, а с увеличением ТИЦ и PR будет расти стоимость сайта, а соответственно и стоимость ссылок с вашего сайта на различных биржах и соответственно ваш заработок в интернете.

Что такое ТИЦ Яндекса. Как формируется ТИЦ сайта

Название ТИЦ или тематический индекс цитирования сайта пришло в интернет из научного мира. ТИЦ Яндекса близок к ТИЦ научному. В свое время ученые долго думали: как определить значимость той или иной работы и придумали. Ввели ТИЦ. ТИЦ формировался из количества работ, которые ссылаются на данную, чем больше работ ссылается, тем ТИЦ выше. ТИЦ Яндекса формируется примерно таким же способом.

Мы просто считаем ссылки на сайт или работу и получаем ТИЦ сайта. ТИЦ сайта, грубо говоря увеличивается просто за счет добавления обратных ссылок на сайт и чем больше ссылок, тем ТИЦ сайта выше. Примерно так:

Но это еще не все. ТИЦ сайта формируется не только за счет количества ссылок на сайт, но и учитывается качество ссылок на сайт. Чем авторитетней сайт, с которого проставлена обратная ссылка, тем значимей эта ссылка. Иначе было бы не очень справедливо. Можно было бы сделать тысячу сайтов и ссылаться на свой продвигаемый сайт, увеличивать ТИЦ сайта и обогнать сайты, которые намного старше вашего.

Получается так, что обратные ссылки на сайт имеют вес, чем авторитетнее сайт в глазах поисковой системы, тем выше вес ссылки, грубо говоря, вместе со ссылкой сайт передает свой вес. То есть, при формировании ТИЦ Яндекса учитывается не только количество ссылок на сайт, но и качество ссылок на сайт.

Обратите внимание: ТИЦ Яндекса формируется для всего сайта в целом, а не для отдельных его страниц. При формировании ТИЦ сайта учитывается количество ссылок на сайт, качество ссылок на сайт, но это еще не все. ТИЦ Яндекса формируется с учетом тематики сайта, с которого проставлена обратная ссылка, то есть не ждите резкого увеличения ТИЦ сайта, если на него ссылаются многие авторитетные сайты, но их тематика не совпадает с вашей. То есть, что бы поднять ТИЦ сайта нужно получить обратную ссылку не только с качественного ресурса с высоким ТИЦ и PR, но и тематика ресурса должна совпадать с тематикой вашего сайта, иначе вес передаваемый по ссылке будет сильно занижен.

ТИЦ Яндекса указывает не рейтинг какой-то конкретной статьи или страницы вашего сайта, а авторитетность ресурса в целиком или авторитетность и значимость автора сайта. Значение ТИЦ сайта может изменяться от 0 до максимального значения ТИЦ, максимальное значение ТИЦ равно значению ТИЦ Яндекса. На данный момент ТИЦ Яндекса = 290000. Сайт, с которого ссылаются на продвигаемый, для повышения ТИЦ сайта называют донором. Продвигаемый сайт называют акцептором.

Продвижение сайта заключается не только в увеличение посещаемости сайта, но и в увеличение ТИЦ и PR. Для увеличения ТИЦ сайта необходимо, чтобы ссылки на сайт были с авторитетного ресурса, ссылок должно быть много, тематика сайта донора должна совпадать с тематикой вашего ресурса. Чем больше ссылок с сайтов с высоким ТИЦ и чем ближе тематика сайтов, с которых проставлена ссылка на ваш ресурс, тем большее значение ТИЦ получит ваш сайт при апдейте ТИЦ.

ТИЦ Яндекса обновляется примерно один раз в месяц, а время обновления ТИЦ называется апдейтом ТИЦ. Поскольку, ТИЦ сайта формируется для всего сайта с учетом тематики сайта и качества ссылок на ваш сайт важно получить большое количество ссылок с авторитетных ресурсов близких по тематики с продвигаемым сайтом. Обратите внимание: должно быть большое количество ссылок именно с разных сайтов, а не с разных страниц одного сайта.

У начинающих вебмастеров могут появиться вопросы как проверить ТИЦ сайта, но об этом после, так как сервисов по проверки ТИЦ сайта очень много. Другой, более существенный вопрос звучит примерно так: зачем поднимать ТИЦ сайта? Ведь в первую очередь продвигать сайт необходимо в поисковой выдаче, то есть проводить SEO оптимизацию сайта.

На этом всё, спасибо за внимание, надеюсь, что был хоть чем-то полезен и до скорых встреч на страницах блога для начинающих вебразработчиков и вебмастеров ZametkiNaPolyah.ru. Не забываем комментировать и делиться с друзьями;)

Как утверждают в Яндексе, показатель ТИЦ сайта не влияет на поисковую выдачу, то есть ТИЦ сайта не влияет на место сайта в поисковой выдаче. Вы можете продвигать сайт, увеличивать ТИЦ, но посещаемость сайта от этого не будет расти. Конечно продвигая сайт, увеличивая ТИЦ и PR посещаемость на вашем ресурсе будет расти, но прямой связи между посещаемостью сайта и показателем ТИЦ нет.

Значение ТИЦ сайта влияете на позицию сайта в Яндекс каталоге, чем выше ТИЦ сайта, тем более высокое место он будет занимать в соответствующей рубрике Яндекс каталога. К сожалению или к счастью простые сайты и блоги не попадают в Яндекс каталог. Добавить сайт в Яндекс каталог можно бесплатно, а можно и на платной основе, кстати, на платной основе никто вам не даст 100% гарантии того, что сайт попадет в Яндекс каталог.

После добавления ресурса в Яндекс Каталог, ТИЦ сайта начинает увеличиваться значительно быстрее. Проблемой увеличения ТИЦ, как мне кажется, стоит заниматься когда ваш сайт станет популярным и на нем будет хоть какая-то аудитория. С другой стороны, увеличение ТИЦ сайта пропорционально стоимости сайта и сумме, которую вы можете заработать на сайте. Чем выше ТИЦ и PR, тем выше стоимость ссылок, которые можно будет продать с сайта на специальных биржах – это является неплохим заработком в интернете.

Ссылки на сайт можно продавать через биржи ссылок, например SAPE, либо через биржи рекламных обзоров и постовых: GoGetLinks, RotaPost, GetGoodLinks. Причем, второй способ гораздо безопасней, поскольку за размещение ссылок с SAPE на своем сайте можно запросто угодить под бан Google или Яндекса, а размещать постовые и обзоры через GoGetLinks практически безвредно для вашего сайта или блога. Зависимость между заработком на сайте и ТИЦ сайта прямая – чем выше ТИЦ сайта, тем дороже стоит ссылка с этого сайт. Все выше перечисленные биржи вы можете использовать не для заработка, а для продвижения сайта, естественно за деньги.

Показатель Alexa Rank, трафик сайта

Показатель Alexa Rank косвенно характеризует посещаемость сайта, Alexa Rank не имеет отношения ни к одной поисковой системе. Если мы задаемся вопросом: как увеличить ВИЦ, ТИЦ и PR, то в отношение Alexa Rank все наоборот. В случае с Alexa Rank мы должны задаваться вопросом: как уменьшить Alexa Rank.

Поскольку Alexa Rank характеризует посещаемость сайта или трафик сайта, то уменьшить Alexa Rank можно путем увеличения посетителей, то есть нужно продвигать сайт, продвигать сайт можно различными путями: SEO оптимизация, SMO продвижение и другими методами раскрутки сайта. Показатель Alexa Rank есть только у доменов третьего уровня(доменное имя как проверить и выбрать), таких, как ZametkiNaPloyah.ru, у домена forum.zametkinapolyah.ru нет и не будет показателя Alexa Rank.

Грубо говоря, показатель Alexa Rank отображает рейтинг всех сайтов в мире по посещаемости. Чем ниже показатель Alexa Rank у сайта, тем, соответственно, выше посещаемость сайта. Следовательно для продвижения сайта и уменьшения Alexa Rank требуется выполнять одни и те же действий.

Алгоритм и реализация

PageRank

PageRank (PR) — это алгоритм, используемый поиском Google для ранжирования веб-сайтов в результатах поиска. PageRank был назван в честь Ларри Пейджа, одного из основателей Google. PageRank — это способ измерения важности страниц веб-сайта. Согласно Google:

PageRank работает путем подсчета количества и качества ссылок на страницу, чтобы определить приблизительную оценку того, насколько важен веб-сайт. Основное предположение состоит в том, что более важные веб-сайты, вероятно, будут получать больше ссылок с других веб-сайтов.
Внимание компьютерщик! Укрепите свои основы с помощью курса Python Programming Foundation и изучите основы.
Для начала подготовьтесь к собеседованию. Расширьте свои концепции структур данных с помощью курса Python DS . И чтобы начать свое путешествие по машинному обучению, присоединитесь к Машинное обучение — курс базового уровня

Это не единственный алгоритм, используемый Google для упорядочивания результатов поисковой системы, но это первый алгоритм, который использовался компанией. и это самый известный.

Указанная выше мера центральности не реализована для мультиграфов.

Алгоритм
Алгоритм PageRank выводит распределение вероятностей, используемое для представления вероятности того, что человек, случайно щелкнувший по ссылкам, попадет на любую конкретную страницу. PageRank можно рассчитать для коллекций документов любого размера. В нескольких исследовательских работах предполагается, что распределение равномерно распределяется между всеми документами в коллекции в начале вычислительного процесса.Для вычисления PageRank требуется несколько проходов, называемых «итерациями», через коллекцию для корректировки приблизительных значений PageRank для более точного отражения теоретического истинного значения.

Упрощенный алгоритм
Предположим небольшой юниверс из четырех веб-страниц: A, B, C и D. Ссылки со страницы на себя или несколько исходящих ссылок с одной страницы на другую отдельную страницу игнорируются. PageRank инициализируется одинаковым значением для всех страниц. В исходной форме PageRank сумма PageRank по всем страницам была общим количеством страниц в сети на тот момент, поэтому каждая страница в этом примере будет иметь начальное значение 1.Однако более поздние версии PageRank и остальная часть этого раздела предполагают распределение вероятностей от 0 до 1. Следовательно, начальное значение для каждой страницы в этом примере равно 0,25.

Рейтинг PageRank, переданный с данной страницы целям ее исходящих ссылок на следующей итерации, делится поровну между всеми исходящими ссылками.

Если бы единственные ссылки в системе были со страниц B, C и D на A, каждая ссылка передавала бы 0,25 PageRank в A при следующей итерации, в сумме равняется 0.75.

Предположим, что вместо этого у страницы B есть ссылка на страницы C и A, у страницы C есть ссылка на страницу A, а у страницы D есть ссылки на все три страницы. Таким образом, на первой итерации страница B передаст половину своего существующего значения, или 0,125, на страницу A, а другую половину, или 0,125, на страницу C. Страница C передаст все свое существующее значение, 0,25, на единственную страницу. страница, на которую она ссылается, A. Поскольку D имеет три исходящие ссылки, она будет передавать одну треть своего существующего значения, или приблизительно 0,083, в A. По завершении этой итерации страница A будет иметь PageRank приблизительно 0.458.

Другими словами, PageRank, присвоенный исходящей ссылкой, равен собственному рейтингу PageRank документа, деленному на количество исходящих ссылок L ().

В общем случае значение PageRank для любой страницы u может быть выражено как:

, т.е. значение PageRank для страницы u зависит от значений PageRank для каждой страницы v, содержащейся в наборе Bu ( набор, содержащий все страницы, ссылающиеся на страницу u), разделенный на количество L (v) ссылок со страницы v.Алгоритм включает коэффициент демпфирования для расчета рейтинга страницы. Это похоже на подоходный налог, который правительство берет с одного, несмотря на то, что платит ему само.

Ниже приведен код для расчета рейтинга страницы.

def pagerank (G, альфа = 0,85 , персонализация = Нет ,

max_iter = 100 , tol = 1.0e - 6 , nstart = Нет , вес = «вес» ,

висячий = Нет ):

02 02
8
03
03
03
03

`03`
`8`
03
03
8

`03`
`8`

900 02 если лен (G) = len (G) = len (G) : возврат {} если не G.is_directed (): D = G.to_directed () еще : D = G G W = nx.stochastic_graph (D, вес = вес) N = W.number_of_nodes () если nstart is Нет : x = fromkeys dict 1.0 / N) else : s = с плавающей запятой ( сумма (nstart.values ())) x = dict ((k, v / s) для k, v в nstart.items () ) если персонализация - Нет : p = . Dict p = . Dict fromkeys (W, 1.0 / N) еще : отсутствует = установить (G) - установить (персонализация) если отсутствует: поднять NetworkXError ( «Словарь персонализации» 'должен иметь значение для каждого узла.' ' Отсутствующие узлы% s ' % отсутствуют) s = с плавающей запятой ( сумма (personalization.values ())) p = dict ((k, v / s) для k, v в персонализации .items ()) если болтается is Нет : dangling_weights pangling_weights = еще : отсутствует = набор (G) - набор (болтается) если отсутствует: поднять NetworkXError ( 'Словарь висящих узлов' 'должен иметь значение для каждого узла.' ' Отсутствующие узлы% s ' % отсутствуют) s = с плавающей запятой ( сумма (dangling.values ())) dangling_weights = dict ((k, v / s) для k, v для dangling.items ()) dangling_nodes = [n для n дюйм W if W. out_degree (n, вес = вес) = = 0,0 ] для _ в диапазоне (max_iter): xlast = x x = dict .fromkeys (xlast.keys (), 0 ) danglesum = alpha * сумма (xlast [n] для n в dangling_nodes) для n дюймов x: для nbr W [ nbr дюймов ]: x [число] + = альфа * xlast [n] * W [n] [число] [вес] x [n] + = danglesum * dangling_weights [n] + ( 1.0 - альфа) * p [n] err = сумма ([ abs (x [ n] - xlast [n]) для n дюйм x]) если err * tol: возврат x поднять NetworkXError ( 'pagerank: итерация Power не смогла сойтись' 'в% d итерациях.' % max_iter)

Приведенный выше код представляет собой функцию, которая была реализована в библиотеке networkx.
Чтобы реализовать описанное выше в networkx, вам необходимо сделать следующее:

>>> import networkx as nx

>>> G = nx.barabasi_albert_graph ( 60 , 41 )

>>> пр = nx.pagerank (G, 0,4 )

>>> pr

Ниже приведен результат, который вы получите в IDLE после необходимых установок.

{ 0 : 0,012774147598875784 , 1 : 0,013359655345577266 , 2 3 0,01315735

0

 3 0,01315735 :   0.0121421985645  ,   4  :   0,013160014506830858  ,   5  :   0,012973342862730735  , 
    6 
3

16

0,0119851513014 , 8 : 0,012973502696061718 ,

9 : 0.0133741461381 , 10 : 0,01296354505412387 , 11 : 0,013163220326063332 ,

12 6 5 6 5 12 6 8: 12 6 5 0,01316_17283102 , 14 : 0,012752071800520563 ,

15 : 0.012951601882210992 , 16 : 0,013776032065400283 , 17 : 0,012356820581336275 ,

9 58 0,059 0,012551059531065245 , 20 : 0,012583415756427995 ,

21 : 0.: 0,01337298

54582 , 26 : 0,012569416076848989 ,
27 : 0.013165322299539031 , 28 : 0,012954300960607157 , 29 : 0,0127760
397076 ,
760
397076 ,
30 30 : 0,012953404860268598 , 32 : 0,013364947854005844 ,
33 : 0.012370004022947507 , 34 : 0,0129775399526 , 35 : 0,013170376268827118 ,
36 95
0,013155319659777197 , 38 : 0,013567147133137161 ,
39 : 0.012171548109779459 , 40 : 0,012966996657 , 41 : 0,028089802328702826 ,
428
9 428
9 0,0273001881

485 , 44 : 0,02689771667021551 ,

45 : 0.026504560327 , 46 : 0,025971186884778535 , 47 : 0,02585262571331937 ,

48

8 0,0256548 0,02565 0,0249397221394 , 50 : 0,02458271197701402 ,

51 : 0.024263128557312528 , 52 : 0,023505217517258568 , 53 : 0,023724311872578157 ,

54 0,02298716954828392 , 56 : 0,02270220663300396 ,

57 : 0.022060403216132875 , 58 : 0,0212105075004 , 59 : 0,021643288632623502 }

IDE из IDLE был запущен на IDLE выше в окнах IDLE. Перед запуском этого кода вам необходимо загрузить библиотеку networkx. Часть внутри фигурных скобок представляет результат. Он почти аналогичен Ipython (для пользователей Ubuntu).

Ссылки

Таким образом, мера центральности Page Rank вычисляется для данного графика.Таким образом, мы рассмотрели 2 меры центральности. Я хотел бы подробнее рассказать о различных показателях центральности, используемых для сетевого анализа.

Автор статьи Jayant Bisht . Если вам нравится GeeksforGeeks, и вы хотели бы внести свой вклад, вы также можете написать статью с помощью provide.geeksforgeeks.org или отправить ее по электронной почте на [email protected]. Посмотрите, как ваша статья появляется на главной странице GeeksforGeeks, и помогите другим гикам.

Пожалуйста, напишите комментарии, если вы обнаружите что-то неправильное, или если вы хотите поделиться дополнительной информацией по теме, обсуждаемой выше.

Централизованность PageRank и EigenCentrality - Cambridge Intelligence

Если вы хотите выявить наиболее влиятельных, хорошо связанных или важных людей в сети, вам следует обратиться к мерам централизации анализа социальных сетей. Эти алгоритмы анализа графов предназначены для выявления сложных сетей и выявления закономерностей, скрытых в соединениях между узлами. Двумя наиболее сильными из них являются центральность PageRank и EigenCentrality.

В этом сообщении блога мы рассмотрим, как использовать эти меры центральности в наших инструментах визуализации графиков.

Как они работают? Когда их использовать? Читай дальше что бы узнать.

EigenCentrality: понимание влияния сети

EigenCentrality измеряет влияние узла. Он начинается с измерения «степени» оценки каждого узла, которая представляет собой просто подсчет количества связей, которые этот узел имеет с другими узлами в сети. Однако EigenCentrality идет дальше, чем центральность по степени. Это выходит за рамки соединений первой степени, чтобы подсчитать, сколько связей имеют их соединения и т. Д. В сети.

Наши наборы инструментов вычисляют EigenCentrality каждого узла, используя метод степенной итерации. Это означает, что наш алгоритм генерирует случайные векторы и умножает их на матрицу смежности (матричную сводку связей между узлами) до тех пор, пока не будет найдено соответствующее собственное значение (или «сойтись»).

Что мне сообщает EigenCentrality?

Высокий показатель EigenCentrality указывает на сильное влияние на другие узлы в сети. Это полезно, поскольку указывает не только на прямое влияние, но также подразумевает влияние на узлы, находящиеся на расстоянии более одного «перехода».

EigenCentrality в действии

Вот хороший пример того, как EigenCentrality выявляет влияние узла, которое в противном случае было бы скрыто. В этой визуализации мы смотрим на около 1,6 миллиона электронных писем, отправленных между сотрудниками Enron, опубликованные Федеральной комиссией по регулированию энергетики:

Degree centrality (вверху) и EigenCentrality (внизу)

На первом изображении показаны узлы, размер которых зависит от градуса (т. Е. Их количество ссылок), что делает Билла важным, поскольку он отправляет много писем своей команде из 10 человек.

Узлы второго изображения, размер которых определяется EigenCentrality. Эта точка зрения дает более полное представление о влиянии Билла. Его команда находится на периферии более широкой организации Enron, имея только одно подключение к более широкой сети - через Тимоти Белдена, который сам относительно отключен от сети: подсеть

Билла явно находится на периферии более широкой Enron. сеть

Узел может иметь высокий балл (т. е. много подключений), но относительно низкий балл EigenCentrality, если многие из этих подключений связаны с другими узлами с низким баллом.

Кроме того, узел может иметь высокий показатель промежуточности (что указывает на то, что он соединяет разрозненные части сети), но низкий показатель EigenCentrality, если он удален от центров силы в сети.

Мы видим, что здесь с Джоном Лаворато - он находится в центре сети топологически, но ему не хватает количества подключений Таны Джонс к мощным узлам:

Тана имеет высокий балл EigenCentrality, поскольку она ближе к внутреннему кластеру сети электронной почты. тесно связанные узлы, чем Джон

Хотите узнать больше?

В нашем техническом документе намного больше деталей об анализе социальных сетей, показателях централизации и способах визуализации социальных сетей.

Загрузить официальный документ

Центральность PageRank: алгоритм Google

Изобретенная основателями Google Ларри Пейджем и Сергеем Брином, центральность PageRank - это вариант EigenCentrality, предназначенный для ранжирования веб-контента с использованием гиперссылок между страницами в качестве меры важности. Однако его можно использовать для любой сети.

Главное отличие PageRank от EigenCentrality заключается в том, что он учитывает направление ссылок. Каждому узлу в сети присваивается оценка, основанная на количестве входящих ссылок (его «степень»).Эти ссылки также имеют весовой коэффициент в зависимости от относительной оценки исходного узла.

В результате узлы со многими входящими ссылками оказываются влиятельными, а узлы, к которым они подключены, разделяют часть этого влияния.

О чем мне говорит центральность PageRank?

Как и EigenCentrality, PageRank может помочь выявить влиятельные или важные узлы, охват которых выходит за рамки их прямых связей. Это особенно полезно в сценариях, где важно направление ссылки:

Понимание цитат (например,грамм. патентные ссылки, академические цитаты)
Визуализация активности ИТ-сети
Моделирование воздействия SEO и наращивания ссылок

Центральное место в рейтинге PageRank в действии

Давайте посмотрим на PageRank в действии с корпусом Enron. Мы будем следить за одним сотрудником: Майклом Григсби. Без применения мер центральности он выглядит довольно незначительным.

Без применения мер централизации Майкл (выделен синим) теряется в сети.

Давайте посмотрим, как он выглядит с примененным EigenCentrality.

Та же сеть, что и EigenCentrality. Майкл - синий узел справа от центра.

Небольшие ссылки Майкла на другие узлы означают, что он все еще выглядит относительно незначительным. Благодаря центральному рейтингу PageRank наше мнение меняется.

Применение PageRank выделяет Майкла - снова выделено синим.

Несмотря на свои ограниченные связи, Майкл перемещается к одному из крупнейших узлов сети, когда применяется PageRank. Он один из немногих узлов сети, получающих входящие ссылки от очень влиятельных узлов.Это значительно повысило его рейтинг PageRank.

Быстрый поиск в Google подтверждает, что Майкл был вице-президентом по торговле природным газом - важным узлом в сети, который мы, возможно, не идентифицировали с помощью других мер централизации.

Найдите правильную меру центральности для работы

Понимание динамики и влияния сети может быть игрой проб и ошибок. Различные меры лучше подходят для определенных сценариев или наборов данных.

Наши наборы инструментов предлагают ряд критериев централизации социальных сетей, каждый из которых предназначен для выявления различных видов влияния.Загрузите нашу техническую документацию, чтобы узнать больше.

Загрузить официальный документ

Этот пост был первоначально опубликован некоторое время назад. Он по-прежнему популярен, поэтому мы добавили в него свежий контент, чтобы он оставался полезным и актуальным.

igraph R страницы справочника

Алгоритм Page Rank

Описание

Вычисляет рейтинг страниц в Google для указанных вершин.

Использование

page_rank (
  график
  algo = c ("prpack", "arpack", "power"),
  vids = V (график),
  направлено = ИСТИНА,
  демпфирование = 0.85,
  персонализированный = NULL,
  веса = NULL,
  options = NULL
)

page_rank_old (
  график
  vids = V (график),
  направлено = ИСТИНА,
  нитр = 1000,
  eps = 0,001,
  демпфирование = 0,85,
  old = FALSE
)

Аргументы

`график`	Объект графика.
`алгоритм`	Символьный скаляр, реализация которого используется для выполнения расчет. По умолчанию `«prpack»` , который использует библиотеку PRPACK. (https: // github.com / dgleich / prpack). Это новая реализация в igraph версия 0.7, и предлагаемая, так как она самая стабильная и самая быстрая для всех графов, кроме маленьких. `"arpack"` использует библиотеку ARPACK, реализация по умолчанию от igraph версии 0.5 до версии 0.7. `power` использует простую реализацию метода мощности, это был по умолчанию в igraph до версии 0.5 и совпадает с вызовом `page_rank_old` .
`видео`	Интересующие вершины.
`направленный`	Логично, если истинно направленные пути будут рассматриваться для ориентированные графы. Для неориентированных графов он игнорируется.
`демпфирование`	Коэффициент демпфирования ("d" в оригинале).
`индивидуальный`	Необязательный вектор, дающий распределение вероятностей для рассчитать персонализированный PageRank. Для персонализированного PageRank вероятность перехода к узлу при отказе от случайного блуждания не является равномерным, но задается этим вектором.Вектор должен содержать запись для каждой вершины. и он будет увеличен до одного.
`вес`	Числовой вектор или `NULL` . Этот аргумент можно использовать чтобы задать веса ребер для расчета взвешенного PageRank вершин. Если это `NULL` и граф имеет атрибут ребра `веса` , тогда что используется. Если вес - числовой вектор, то он используется, даже если граф имеет атрибут ребра `весов` .Если это `NA` , то нет используются веса ребер (даже если граф имеет вес `атрибут ребра` . Эта функция интерпретирует веса ребер как силу соединения. в случайная модель серфера, край с большим весом, скорее всего, будет выбранный серфером.
`варианты`	Либо именованный список, чтобы переопределить некоторые параметры ARPACK. Видеть `arpack` для получения подробной информации; или именованный список, чтобы переопределить значение по умолчанию варианты метода мощности (если `algo = "power"` ).Параметры по умолчанию для силового метода `нитр = 1000` и `eps = 0,001` . Этот аргумент игнорируется, если используется реализация PRPACK.
`нитра`	Максимальное количество выполняемых итераций.
`эп.`	Алгоритм будет считать расчет завершенным, если разница значений PageRank между итерациями меняется меньше этого значения для каждого узла.
`старый`	Логический скаляр, ли старый стиль (предграф 0.5) нормализация для использования. Подробности см. Ниже.

Детали

Описание алгоритма PageRank см. На следующей веб-странице: http://infolab.stanford.edu/~backrub/google.html или следующие ссылка:

Сергей Брин и Ларри Пейдж: анатомия крупномасштабной гипертекстовой сети Поисковый движок. Труды 7-й Всемирной веб-конференции, Брисбен, Австралия, апрель 1998 г.

igraph 0.5 (и выше) содержит две реализации расчета PageRank. Функция page_rank использует ARPACK для выполнения вычислений, см. также arpack .

Функция page_rank_old выполняет простой метод мощности, это реализация, которая была доступна под именем page_rank в pre Версии 0.5 графа. Обратите внимание, что page_rank_old имеет аргумент, называемый старый . Если этот аргумент - ЛОЖЬ (по умолчанию), то правильный Используется алгоритм PageRank, т.е.е. (1-d) / n добавляется к взвешенному PageRank вершин для вычисления следующей итерации. Если этот аргумент ИСТИНА , затем добавляется (1-d) , как и в листе PageRank; d - коэффициент демпфирования, а n - общее количество вершин. Еще одно отличие состоит в том, что старая реализация не перенормирует вектор ранжирования страницы после каждой итерации. Обратите внимание, что old = FALSE метод нестабилен, не обязательно сходится к фиксированной точке.Это следует избегать для нового кода, он включен только для совместимости с старые версии графа.

Обратите внимание, что PageRank данной вершины зависит от PageRank все остальные вершины, поэтому даже если вы хотите рассчитать PageRank всего за некоторые вершины, все они должны быть вычислены. Запрашивая PageRank только для некоторых вершин не влияет на производительность увеличиваются вообще.

Поскольку расчет является итеративным процессом, алгоритм останавливается. после заданного количества итераций или если значение PageRank различается между итерациями меньше заданного значения.

Значение

Для page_rank именованный список с записями:

`вектор`	А числовой вектор с оценками PageRank.
`значение`	Собственное значение соответствующий собственному вектору с рейтингом страницы. Должен быть всегда ровно один.
`варианты`	Некоторая информация о базовом Расчет ARPACK.Подробнее см. `arpack` . Эта запись `NULL` , если не использовалась реализация ARPACK.

Для page_rank_old числовой вектор оценок Page Rank.

Автор (ы)

Тамаш Непуш [email protected] и Габор Чарди [email protected]

Список литературы

Сергей Брин и Ларри Пейдж: анатомия большого масштаба Гипертекстовая поисковая машина в Интернете. Материалы 7-й всемирной паутины Конференция, Брисбен, Австралия, апрель 1998 г.

См. Также

Другие баллы центральности: близость , между , градусов

Примеры


g <- sample_gnp (20; 5/20, направлено = ИСТИНА)
page_rank (g) $ vector

g2 <- make_star (10)
page_rank (g2) $ vector

# Персонализированный PageRank
g3 <- make_ring (10)
page_rank (g3) $ vector
сброс <- seq (vcount (g3))
page_rank (g3, personalized = reset) $ vector

[Пакет igraph , индекс версии 1.2.7] Объяснение алгоритма рейтинга страниц

Google - Search Engine Watch

Сегодня Диксон Джонс из Majestic поделился в Twitter подробным и понятным объяснением того, как на самом деле работает PageRank.

Я сам дал им часы и подумал, что это хороший момент, чтобы вернуться к этой дикой математике, которая сильно повлияла на мир за последние 20 лет.

В качестве примечания: по состоянию на 2017 год мы знаем, что, хотя PageRank был удален с панели инструментов в 2016 году, он все еще составляет важную часть общего алгоритма ранжирования, , и поэтому его стоит понять.

Джонс начинает с простой - или, по крайней мере, прямой - формулы.

Для тех, кто не любит математику или, возможно, забыл несколько технических терминов со времени последнего урока математики, эта формула будет читаться вслух следующим образом:

«PageRank страницы в этой итерации равен 1 минус коэффициент демпфирования, плюс для каждой ссылки на страницу (кроме ссылок на себя) добавьте рейтинг страницы этой страницы, разделенный на количество исходящих ссылок на странице. и уменьшается на коэффициент демпфирования.”

Вернуться к исходной бумаге Google

На этом этапе Джонс переходит к более простой, но все же полезной версии вычислений. Он достает Excel, простую визуализацию с 5 узлами, и составляет схему алгоритма ранжирования на 15 итерациях. Отличный материал.

Лично мне хотелось немного больше математики, поэтому я вернулся и прочитал полную версию « Анатомия крупномасштабной гипертекстовой поисковой системы » (естественный первый шаг).Это была статья, написанная Ларри Пейджем и Сергеем Брином в 1997 году. Также известна как статья, в которой они представили Google, опубликованная в Стэнфордском факультете компьютерных наук. (Да, это долго, и сегодня я буду работать немного позже. Все в хорошем настроении!)

Как это для вступительной строки: « В этой статье мы представляем Google, прототип крупномасштабной поисковой системы, которая интенсивно использует структуру, представленную в гипертексте. ”

Casual, в соответствии с их общим продолжительным стилем.

В качестве дополнительного забавного факта, в этой дебютной статье Google было процитировано - наше собственное Search Engine Watch! Никто иной, как сам Пейдж и Брин, заявившие, что по состоянию на ноябрь 1997 года уже насчитывалось 100 миллионов веб-документов.

В любом случае, вернемся к работе.

Вот как первоначально определялся расчет PageRank:

«Академическая цитирующая литература применялась в Интернете, в основном, путем подсчета цитирований или обратных ссылок на данную страницу.Это дает некоторое приблизительное представление о важности или качестве страницы. PageRank расширяет эту идею, не подсчитывая ссылки со всех страниц одинаково и нормализуя количество ссылок на странице. PageRank определяется следующим образом:

Мы предполагаем, что страница A имеет страницы T1… Tn, которые указывают на нее (т. Е. Являются цитатами). Параметр d представляет собой коэффициент демпфирования, который может быть установлен от 0 до 1. Обычно мы устанавливаем d равным 0,85. Более подробная информация о d содержится в следующем разделе. Также C (A) определяется как количество ссылок, выходящих со страницы A.PageRank страницы A рассчитывается следующим образом:
PR (A) = (1-d) + d (PR (T1) / C (T1) +… + PR (Tn) / C (Tn))
Обратите внимание, что PageRank формирует распределение вероятностей по веб-страницам, поэтому сумма PageRank всех веб-страниц будет равна единице.

PageRank или PR (A) может быть рассчитано с использованием простого итеративного алгоритма и соответствует главному собственному вектору нормализованной матрицы ссылок в сети.Кроме того, рейтинг PageRank для 26 миллионов веб-страниц можно вычислить за несколько часов на рабочей станции среднего размера. Есть много других деталей, которые выходят за рамки этой статьи ».

Что это значит?

Несите нас! И снова наша формула:

PR (A) = (1-d) + d (PR (T1) / C (T1) +… + PR (Tn) / C (Tn))

Обратите внимание, что это то же самое, что и на картинке выше, за исключением того, что фотография «упрощает» вторую часть уравнения, заменяя сигму в верхнем регистре (∑), которая является символом математического суммирования, т.е.е. выполните эту формулу для всех страниц с 1 по n, а затем сложите их.

Итак, чтобы рассчитать PageRank данной страницы A, мы сначала берем 1 минус коэффициент демпфирования (d). D обычно устанавливается как 0,85, как показано в их оригинальной статье.

Затем мы берем PageRank всех страниц, которые ведут на страницу A и со страницы A, складываем их и умножаем на коэффициент демпфирования 0,85.

Не так уж и плохо, правда? Проще сказать, чем сделать.

PageRank - итерационный алгоритм

Возможно, ваши глаза застыли на этой части, но Брин и Сергей действительно использовали слово «собственный вектор» в своем определении. Пришлось поискать.

По-видимому, собственные векторы играют важную роль в дифференциальных уравнениях. Приставка «собственный» происходит от немецкого языка, означающего «надлежащий» или «характерный». Также существуют собственные значения и собственные уравнения.

Как отметил Роджерс в своей классической статье о PageRank, главный вывод о части собственного вектора состоит в том, что это тип математики, позволяющий работать с несколькими движущимися частями.«Мы можем продолжить и вычислить PageRank страницы, не зная окончательного значения PR других страниц . Это кажется странным, но, по сути, каждый раз, когда мы запускаем расчет, мы приближаемся к окончательному значению. Поэтому все, что нам нужно сделать, это запомнить каждое вычисляемое значение и повторять вычисления много раз, пока числа не перестанут сильно меняться ».

Другими словами, важность собственного вектора состоит в том, что PageRank является итеративным алгоритмом .Чем больше раз вы будете повторять расчет, тем ближе вы будете к наиболее точным числам.

PageRank, отображаемый в Excel

В своем видео Джонс сразу переходит к интересной части, поэтому она так эффективна всего за 18 минут. Он демонстрирует, как рассчитывается PageRank, на примере 5 веб-сайтов, которые ссылаются друг на друга и друг с другом.

Затем он возвращает это к расчетам в Excel:

И демонстрирует, как можно выполнить итерацию, взяв строку чисел внизу и повторив вычисление.

После этого числа в конечном итоге начинают выравниваться с (это было всего после 15 итераций):

Или, как некоторые могли бы подписать эту фотографию: «Собственные векторы в дикой природе».

Другие интересные наблюдения, которые Джонс делает:

Количество ссылок (только общее количество) - плохой показатель. Нам нужно больше заботиться о рейтинге каждой страницы.
Учитывается рейтинг на уровне страниц, а не авторитет домена .PageRank когда-либо просматривал только отдельные страницы.
Большинство страниц практически не имеют рейтинга. В его примере на тройку лидеров из 10 приходилось 75-80% общего рейтинга.

Итак, наконец, вот оригинальный твит, который вывел меня в эту длинную, увлекательную кроличью нору. Надеюсь, вам всем понравится то же самое!

Вот и все. Как ДЕЙСТВИТЕЛЬНО работает PageRank https://t.co/OO7J0KChsr cc @RyanJones и @JosephKlok и всем, кто желает ретвитнуть.
- Диксон (@Dixon_Jones) 25 октября 2018 г.

PageRank: На плечах гигантов | Июнь 2011

Массимо Франческе
Коммуникации ACM, Июнь 2011, Vol. 54 No. 6, Pages 92-101
10.1145 / 1953122.1953146
Комментарии (1)

Кредит: Джон Херси

PageRank ³ - это метод ранжирования веб-страниц, который был фундаментальным ингредиентом в развитии и успехе поисковой системы Google.Этот метод по-прежнему является одним из многих сигналов, которые Google использует для определения наиболее важных страниц. ^a Основная идея PageRank состоит в том, чтобы определить важность веб-страницы с точки зрения важности, приписываемой страницам, ссылающимся на нее. На самом деле, этот тезис не нов и ранее успешно использовался в различных контекстах. Мы рассматриваем метод PageRank и связываем его с некоторыми известными предыдущими методами, которые мы нашли в областях поиска информации в Интернете, библиометрии, социометрии и эконометрики.

В начало

Ключевые выводы

В 1945 году Ванневар Буш написал знаменитую статью в The Atlantic Monthly под названием «Как мы можем думать», описывая футуристическое устройство, которое он назвал Memex. ⁵ Буш написал:

Появятся совершенно новые формы энциклопедий, готовые с сеткой ассоциативных следов, проходящих через них, готовые для того, чтобы их бросили в Мемекс и там расширили.

Предсказание Буша сбылось в 1989 году, когда Тим Бернерс-Ли предложил язык гипертекстовой разметки (HTML) для отслеживания экспериментальных данных в Европейской организации ядерных исследований (CERN).В первоначальном дальновидном предложении, в котором Бернерс-Ли пытается убедить руководство ЦЕРН принять новую глобальную гипертекстовую систему, мы можем прочитать следующий параграф ^b:

Мы должны работать над универсальной связанной информационной системой, в которой универсальность и переносимость более важны, чем сложные графические приемы и сложные дополнительные возможности. Цель состоит в том, чтобы позволить найти место для любой информации или справки, которые, по его мнению, важны, а также способ найти их впоследствии.Результат должен быть достаточно привлекательным для использования, чтобы содержащаяся в нем информация превысила критический порог.

Как мы все знаем, предложение было принято и позже реализовано в сетке . это было единственное название, которое Бернерс-Ли первоначально использовал для описания взаимосвязанных документов Webof, которые, как и ожидал Бернерс-Ли, быстро разрослись за порог CERN, и стала всемирной паутиной.

Сегодня Интернет - это огромный, динамический, самоорганизующийся источник данных с гиперссылками, который сильно отличается от традиционных коллекций документов, которые не связаны, в основном статичны, централизованно собираются и организуются специалистами.Эти функции делают поиск информации в Интернете совершенно отличным от традиционного поиска информации и требуют новых возможностей поиска, таких как автоматическое сканирование и индексация Интернета. Более того, ранние поисковые системы ранжировали ответы, используя только оценку содержания , которая измеряет сходство между страницей и запросом. Один простой пример - это просто подсчет количества раз, когда слова запроса встречаются на странице, или, возможно, взвешенный подсчет с большим весом для слов заголовков. Эти традиционные методы, зависящие от запросов, пострадали от гигантских размеров Интернета и мертвой хватки спамеров.

В 1998 году Сергей Брин и Ларри Пейдж произвели революцию в области поиска веб-информации, введя понятие оценки важности , которая измеряет статус страницы независимо от пользовательского запроса путем анализа топологии веб-графа. Этот метод был реализован в известном алгоритме PageRank, и как традиционная оценка содержания, так и новая оценка важности были эффективно объединены в новой поисковой системе под названием Google.

В начало

Ранжирование веб-страниц с использованием PageRank

Мы вкратце напомним, как работает метод PageRank, сводя математический аппарат к минимуму.Заинтересованные читатели могут более тщательно исследовать эту тему в недавней книге Лэнгвилла и Мейера, которая элегантно описывает науку о ранжировании в поисковых системах в строгом, но игривом стиле. ¹⁶

Мы начинаем с предоставления интуитивно понятной интерпретации PageRank в терминах случайного блуждания по графам. ²² Интернет рассматривается как ориентированный граф страниц, соединенных гиперссылками. Случайный пользователь начинает с произвольной страницы и просто продолжает случайным образом нажимать на последовательные ссылки, переходя со страницы на страницу.Значение PageRank страницы соответствует относительной частоте посещений этой страницы случайным пользователем, предполагая, что он продолжает бесконечно. Чем больше времени случайный пользователь проводит на странице, тем выше ее значение PageRank.

Немного формально метод можно описать следующим образом. Обозначим через q _i количество отдельных исходящих (гипер) ссылок страницы i . Пусть H = ( h _{i, j}) будет квадратной матрицей, размер которой равен количеству веб-страниц n , так что h _{i, j} = 1/ q _i, если существует ссылка со страницы i на страницу j и h _{i, j} = 0 в противном случае.Значение h _{i, j} можно интерпретировать как вероятность того, что случайный пользователь перейдет со страницы i на страницу j , щелкнув одну из отдельных ссылок на странице i . PageRank _j страницы j рекурсивно равен , определяется как

или в матричной записи = H . Следовательно, PageRank страницы j является суммой оценок PageRank страниц i , ссылающихся на j , взвешенных по вероятности перехода от i к j .На словах тезис PageRank гласит:

Веб-страница важна, если на нее указывают другие важные страницы.

Фактически, существует три различных фактора, которые определяют PageRank страницы: количество получаемых ссылок; склонность к ссылкам, то есть количество исходящих ссылок ссылающихся страниц; и PageRank страниц со ссылками. Первый фактор неудивителен: чем больше ссылок получает страница, тем важнее она воспринимается. Разумно, ценность ссылки обесценивается пропорционально количеству ссылок, выдаваемых страницей: одобрения, исходящие от экономных страниц, более ценны, чем одобрения, исходящие от расточительных.Наконец, не все страницы одинаковы: ссылки с важных страниц более ценны, чем ссылки с малоизвестных.

К сожалению, у этой идеальной модели есть две проблемы, которые мешают решению системы. Первый связан с наличием висячих узлов , то есть страниц без прямых ссылок. ^c Эти страницы захватывают случайного пользователя на неопределенный срок. Обратите внимание, что висячий узел соответствует строке в матрице H со всеми элементами, равными 0. Для решения проблемы висячих узлов соответствующие строки в H заменяются равномерным вектором вероятности u = 1/ ne , где e - вектор длины n , все компоненты которого равны 1.В качестве альтернативы можно использовать любой фиксированный вектор вероятности вместо и . Это означает, что случайный пользователь покидает болтающуюся страницу, перескакивая на случайно выбранную страницу. Получившейся матрицей мы называем S .

Вторая проблема с идеальной моделью заключается в том, что пользователь может попасть в корзину веб-графа, которая является достижимым сильно связным компонентом без исходящих ребер к остальной части графа. Решение, предложенное Брином и Пейджем, заключается в замене матрицы S на матрицу Google

, где E - это матрица телепортации с идентичными строками, каждая из которых равна равномерному вектору вероятности и , и является свободным параметром алгоритма, часто называемым коэффициентом демпфирования .В качестве альтернативы можно использовать фиксированный вектор вероятности персонализации v вместо u . В частности, вектор персонализации может использоваться для смещения результата метода в сторону определенных тем. Интерпретация новой системы заключается в том, что с вероятностью случайный пользователь продвигается вперед по ссылкам, а с дополнительной вероятностью 1 пользователю надоедает переход по ссылкам, и он вводит новое место назначения в строке URL-адреса браузера, возможно, не связанное с текущим. страница.Таким образом, серфер телепортируется, как персонаж из «Звездного пути», на эту страницу, даже если не существует ссылки, соединяющей текущую и целевую страницы во вселенной Интернета. Изобретатели PageRank предлагают установить коэффициент демпфирования = 0,85, что означает, что примерно после пяти переходов по ссылке случайный пользователь выбирает случайную страницу.

Вектор PageRank затем определяется как решение уравнения:

Пример представлен на рисунке 1. Узел A - это висячий узел, а узлы B и C образуют корзину.Обратите внимание на динамику метода: страница C получает только одну ссылку, но с самой важной страницы B; его важность намного выше, чем у страницы E, которая получает гораздо больше ссылок, но с анонимных страниц. Страницы G, H, I, L и M не получают одобрения; их баллы соответствуют минимальному количеству статусов каждой страницы.

Обычно также добавляется условие нормализации _i _i = 1. В этом случае уравнение 1 принимает вид = S + (1) u .Последний различает два фактора, влияющих на вектор PageRank: эндогенный фактор , равный S , который учитывает реальную топологию веб-графа, и экзогенный фактор , равный равномерному вектору вероятности и , что можно интерпретировать как минимальный уровень статуса, присваиваемый каждой странице независимо от графа гиперссылок. Параметр балансирует между этими двумя факторами.

В начало

Вычисление вектора PageRank

Есть ли решение уравнения 1? Уникальное ли решение? Можем ли мы его эффективно вычислить? Успех метода PageRank зависит от ответов на эти запросы.К счастью, на все эти вопросы есть хорошие ответы.

Благодаря патчу висящих узлов, матрица S является стохастической матрицей, ^d, и очевидно, что матрица телепортации E также является стохастической. Отсюда следует, что G также является стохастическим, поскольку он определяется как выпуклая комбинация стохастических матриц S и E . Легко показать, что если G является стохастическим, уравнение 1 всегда имеет по крайней мере одно решение. Следовательно, у нас есть как минимум один вектор PageRank.Однако иметь два независимых вектора PageRank было бы уже слишком: какой из них мы должны использовать для ранжирования веб-страниц? Здесь на помощь приходит фундаментальный результат алгебры: Теорема Перрона-Фробениуса . ^{7, 24} В нем говорится, что если A является неприводимой неотрицательной квадратной матрицей ^e, то существует уникальный вектор x , называемый вектором Перрона, такой, что xA = rx, x > 0 и _i x _i = 1, где r - максимальное собственное значение A по абсолютной величине, которое алгебраисты называют спектральным радиусом из A .Вектор Перрона - это левый доминантный собственный вектор из A , то есть левый собственный вектор, связанный с наибольшим собственным значением по величине.

Матрица S , скорее всего, может быть сокращена, поскольку эксперименты показали, что паутина имеет структуру «галстук-бабочку», фрагментированную на четыре основных континента, которые не являются взаимно достижимыми, как впервые было замечено Бродером и др. ⁴ Однако благодаря уловке телепортации график матрицы G сильно связен.Следовательно, G неприводимо и применима теорема Перрона-Фробениуса. ^f Следовательно, положительный вектор PageRank существует и, кроме того, уникален.

Интересно, что мы можем прийти к тому же результату, используя теорию Маркова . ²⁰ Вышеописанное случайное блуждание по веб-графу, модифицированное скачками телепортации, естественным образом индуцирует конечную цепь Маркова , матрица переходов которой является стохастической матрицей G . Поскольку G является неприводимым, цепочка имеет уникальное стационарное распределение , соответствующее вектору PageRank.

Остается последний важный вопрос: можем ли мы эффективно вычислить вектор PageRank? Успех PageRank во многом обусловлен существованием быстрого метода вычисления его значений: метода мощности , простого итерационного метода для поиска доминирующей собственной пары матрицы, разработанной фон Мизесом и Поллачеком-Гейрингером. ³¹ В матрице Google G работает следующим образом. Пусть ⁽⁰⁾ = u = 1/ ne . Неоднократно вычисляйте ^{( k +1)} = ^(k) G до ^{( k +1)} ^{( k )} <, где · измеряет расстояние между двумя последовательными векторами PageRank и - желаемая точность.

Скорость сходимости степенного метода приблизительно равна скорости, с которой ^k приближается к 0: чем ближе к единице, тем ниже скорость сходимости степенного метода. Если, например, = 0,85, для получения 3-значной точности достаточно 43 итераций, а для 10-значной точности достаточно 142 итераций. Обратите внимание, что степенной метод, примененный к матрице G , можно легко выразить в терминах матрицы H , которая, в отличие от G , является очень разреженной матрицей, которая может быть сохранена с использованием линейного объема памяти относительно размера Интернета.

В начало

На плечах гигантов

Гномы, стоящие на плечах гигантов - это западная метафора, означающая «Тот, кто развивает в будущем интеллектуальные занятия, понимая исследования и работы, созданные известными мыслителями прошлого». ^g Известная метафора была произнесена Исааком Ньютоном: «Если я и видел немного дальше, то, стоя на плечах гигантов». Более того, «Встаньте на плечи гигантов» - это девиз Google Scholar: «Эта фраза является нашим признанием того, что большая часть научных исследований опирается на то, что уже обнаружили другие.«

Есть много гигантов, на плечах которых прочно стоит PageRank: Марков, ²⁰ Перрон, ²⁴ Фробениус, ⁷ фон Мизес и Поллачек-Гейрингер ³¹ обеспечили в начале 1900-х годов необходимый математический аппарат для исследования и исследования. эффективно решить проблему PageRank. Более того, тезис о круговом PageRank ранее использовался в различных контекстах, включая поиск информации в Интернете, библиометрию, социометрию и эконометрику.Далее мы рассматриваем эти материалы и связываем их с методом PageRank. Таблица 1 показывает краткую сводку истории PageRank. Все методы ранжирования, рассмотренные в этой статье, были реализованы в R ²⁷, и код находится в свободном доступе на веб-странице автора.

В начало

Центры и органы в Интернете

Тематический поиск, вызванный гипертекстом (HITS) - это метод ранжирования веб-страниц, предложенный Кляйнбергом. ^{14, 15} Связь между HITS и PageRank поразительна.Несмотря на тесную концептуальную, временную и даже географическую близость этих двух подходов, похоже, что HITS и PageRank были разработаны независимо. Фактически, обе статьи, представляющие PageRank ³ и HITS ¹⁵, сегодня являются блокбастерами: статья PageRank собрала 6 167 цитирований, а статья HITS была процитирована 4617 раз. ^ч

HITS считает веб-страницы центрами и центрами . Циркулярная диссертация HITS гласит:

Хорошие авторитеты - это страницы, на которые указывают хорошие хабы, а хорошие хабы - это страницы, которые указывают на хорошие авторитеты.

Пусть L = ( l _{i, j}) будет матрицей смежности веб-графа, т.е. l _{i, j} = 1, если страница i ссылается на страницу j и l _{i, j} = 0 в противном случае. Мы обозначаем L ^T транспонирование L . HITS определяет пару рекурсивных уравнений следующим образом, где x - вектор авторитета, содержащий оценки авторитетности, а y - вектор хаба, содержащий оценки хаба:

, где k 1 и y ⁽⁰⁾ = e , вектор всех единиц.Первое уравнение говорит нам, что авторитетные страницы - это те, на которые указывают хорошие страницы-хабы, в то время как второе уравнение утверждает, что хорошие хабы - это страницы, которые указывают на авторитетные страницы. Обратите внимание, что уравнение 2 эквивалентно

Отсюда следует, что вектор авторитета x является доминирующим правым собственным вектором матрицы полномочий A = L ^T L , а вектор ступицы y является доминирующим правым собственным вектором ступицы. матрица H = LL ^T.Это очень похоже на метод PageRank, за исключением использования матриц авторитета и хаба вместо матрицы Google.

Чтобы вычислить доминирующую собственную пару (собственный вектор и собственное значение) авторитетной матрицы, мы снова можем использовать степенной метод следующим образом: пусть x ⁽⁰⁾ = e . Повторно вычислить x ^{( k )} = Ax ^{( k 1)} и нормализовать x ^{( k )} = x ⁽⁹¹⁹³) ( x ^{( k )}), где м ( x ^{( k )}) - это знаковый компонент максимальной величины, пока не будет достигнута желаемая точность.Отсюда следует, что x ^{( k )} сходится к доминирующему собственному вектору x (вектор полномочий) и m ( x ^{( k )}) сходится к доминирующему собственному значению (спектральному радиус, который не обязательно равен 1). Тогда вектор концентратора y будет равен y = Lx . Хотя сходимость метода мощности гарантирована, вычисленное решение не обязательно является уникальным, поскольку матрицы авторитетных и узловых точек не обязательно являются несократимыми.Модификация, аналогичная трюку телепортации, используемому для метода PageRank, может быть применена к HITS, чтобы восстановить уникальность решения. ³⁵

Пример HITS приведен на рисунке 2. Мы подчеркиваем разницу между важностью, рассчитываемой с помощью PageRank, и авторитетом и концентрацией, рассчитываемыми с помощью HITS. Страница B важна и авторитетна, но это не очень хороший центр. Страница C важна, но ни в коем случае не авторитетна. Страницы G, H и I не являются ни важными, ни авторитетными, но они являются лучшими узлами сети, поскольку указывают только на авторитетные источники.Обратите внимание, что оценка концентратора B равна 0, хотя B имеет одно исходящее ребро; к сожалению для B, единственная страница C, на которую ссылается B, не имеет полномочий. Точно так же C не имеет полномочий, потому что на него указывает только B, чья оценка хаба равна нулю. Это показывает разницу между степенью и властью, а также исходящей степенью и концентрацией. Наконец, мы наблюдаем, что узлы с нулевыми оценками полномочий (соответственно, нулевыми оценками узлов) соответствуют изолированным узлам в графе, матрица смежности которых является матрицей полномочий A (соответственно, матрица узлов H ).

Преимущество HITS по отношению к PageRank состоит в том, что он дает две оценки по цене одной. Таким образом, пользователю предоставляется два рейтинга: наиболее авторитетные страницы по теме исследования, которые можно использовать для углубленного изучения предмета исследования, и самые популярные страницы, которые соответствуют страницам портала, ссылающимся на тему исследования, из которой поиск можно начинать. Недостатком HITS является более высокая восприимчивость метода к рассылке спама: хотя на нашу любимую страницу сложно добавить входящие ссылки, добавление исходящих ссылок намного проще.Это приводит к возможности преднамеренного завышения рейтинга страницы, косвенно влияя также на авторитетность указанных страниц.

Связь между HITS и PageRank поразительна. Несмотря на тесную концептуальную, временную и даже географическую близость этих двух подходов, похоже, что HITS и PageRank были разработаны независимо.

HITS относится к методике матричной факторизации, известной как разложение по сингулярным значениям .⁶ Согласно этой методике матрица смежности L может быть записана как матричное произведение USV ^T, где столбцы U , называемые лево-сингулярными векторами, являются ортонормированными собственными векторами матрицы матрица концентратора LL ^T, столбцы V , называемые правыми сингулярными векторами, являются ортонормированными собственными векторами авторитетной матрицы L ^T L и S диагональная матрица, диагональные элементы которой, называемые сингулярными значениями, соответствуют квадратным корням из собственных значений матрицы концентратора (или, что то же самое, матрицы полномочий).Отсюда следует, что HITS-векторы авторитета и концентратора соответствуют, соответственно, правым и левым сингулярным векторам, связанным с наивысшим сингулярным значением L .

HITS также имеет связь с библиометрией. ⁶ Два типичных библиометрических метода для выявления похожих публикаций: совместное цитирование , в котором публикации связаны, когда они цитируются одними и теми же статьями, и совместная ссылка , в котором статьи связаны, когда они цитируют одни и те же статьи. .Матрица авторитетных источников - это матрица совместного цитирования, а матрица узловых точек - это матрица совместных ссылок. Действительно, поскольку A = L ^T L , элемент a _{i, j} матрицы полномочий содержит, сколько раз страницы i и j были одновременно связаны третьей страницей ( a _{i, j} - количество входящих ссылок i ). Кроме того, поскольку H = LL ^T, элемент h _{i, j} матрицы концентратора содержит, сколько раз обе страницы i и j ссылаются на третью. страница ( h _{i, i} - количество исходящих ссылок i ).Следовательно, хорошие авторитетные источники - это страницы, которые часто цитируются совместно с другими авторитетными источниками, а хорошие хабы - это страницы, которые часто ссылаются на другие хорошие хабы.

Следующий алгоритм, который включает идеи как из PageRank, так и из HITS, - это SALSA ¹⁷: как и HITS, SALSA вычисляет как авторитетные, так и центральные оценки, и, как и PageRank, эти оценки получаются из цепей Маркова.

В начало

Библиометрия

Библиометрия, также известная как наукометрия, представляет собой количественное исследование процесса научной публикации результатов исследований.Самым приземленным аспектом этой отрасли информации и библиотековедения является разработка и применение библиометрических показателей для определения влияния библиометрических единиц, таких как ученые и академические журналы. Impact Factor, несомненно, является самым популярным и противоречивым библиометрическим показателем журнала, доступным на данный момент. Для данного журнала и фиксированного года он определяется как среднее количество цитирований в году статей, опубликованных за два предыдущих года.Он был предложен в 1963 году Юджином Гарфилдом, основателем Института научной информации (ISI), работая вместе с Ирвом Шером. ⁸ Импакт-факторы журнала в настоящее время публикуются в популярном журнале «Цитирование журнала» компании Thomson-Reuters, нового владельца ISI.

Импакт-фактор не принимает во внимание важность цитирующих журналов: цитирование из журналов с высокой репутацией оценивается так же, как и из малоизвестных журналов. В 1976 году Габриэль Пински и Фрэнсис Нарин разработали инновационный метод ранжирования журналов.²⁶ Метод измеряет влияние журнала с точки зрения влияния цитирующих журналов. Тезис Пинского и Нарин:

Журнал считается влиятельным, если на него ссылаются другие влиятельные журналы.

Это тот же циркулярный тезис метода PageRank. Учитывая временное окно источника T ₁ и предыдущее целевое временное окно T ₂, систему цитирования журнала можно рассматривать как взвешенный ориентированный граф , в котором узлами являются журналы и есть край из журнала. i в журнал j , если есть статья, опубликованная в и в течение T ₁, в которой цитируется статья, опубликованная в j в течение T ₂.Край взвешивается числом c _{i, j} таких цитат с i до j . Пусть c _i = _j c _{i, j} будет общим количеством цитируемых ссылок журнала i .

В методе, описанном Пински и Нарин, матрица цитирования H = ( h _{i, j}) построена так, что h i, j = c _{i , j}/ c _j.Коэффициент h _{i, j} - это количество цитирований, полученных журналом j из журнала i на ссылку, выданную журналом j . Для каждого журнала определяется оценка влияния , которая измеряет относительную эффективность журнала для данной ссылки. Оценка влияния _j журнала j определяется как

или, в матричной записи:

Следовательно, журналы j с большим общим влиянием _j c _j - это те, которые получают значительную поддержку со стороны влиятельных журналов.Обратите внимание, что влияние на количество ссылок _j журнала j не зависит от размера, поскольку формула нормализуется на количество цитируемых ссылок c _j, содержащихся в статьях журнала, что является оценкой размера журнала. Более того, нормализация нейтрализует эффект самоцитирования журнала, то есть цитирования между статьями в одном журнале. Эти цитаты действительно учитываются как в числителе, так и в знаменателе формулы оценки влияния.Это позволяет избежать чрезмерного раздувания журналов, которые практикуют оппортунистическое цитирование.

Можно доказать, что спектральный радиус матрицы H равен 1, следовательно, вектор оценки влияния соответствует доминирующему собственному вектору H . ⁹ В принципе, однозначность решения и сходимость к нему степенного метода не гарантируются. Тем не менее, оба свойства получить в реальных случаях несложно. Если граф цитирования сильно связан, то решение уникально.Когда журналы принадлежат к одной области исследований, это условие обычно выполняется. Более того, если в графе существует петля, то есть статья, в которой цитируется статья в том же журнале, то степенной метод сходится.

На рис. 3 приведен пример метода Пинского и Нарина. Обратите внимание, что граф сильно связан и имеет петлю, поэтому решение уникально и может быть вычислено с помощью метода мощности. Оба журнала A и C получают одинаковое количество цитирований и выдают одинаковое количество ссылок.Тем не менее, влияние A больше, поскольку его цитируют более влиятельные журналы (B вместо D). Кроме того, A и D получают одинаковое количество цитирований из одних и тех же журналов, но D больше, чем A, поскольку он содержит больше ссылок, следовательно, влияние A выше.

Подобные рекурсивные методы были независимо предложены Либовицем и Палмером ¹⁹ и Паласиос-Хуэрта и Волидж ²³ в контексте ранжирования экономических журналов. Недавно были предложены и всесторонне протестированы различные библиометрические индикаторы, основанные на PageRank, для оценки важности журналов, использующих академическую сеть цитирования: журнал PageRank, ² Eigenfactor, ³⁴ и SCImago.²⁸

В начало

Социометрия

Социометрия, количественное исследование социальных отношений, содержит замечательно старых предшественников PageRank. Социологи первыми применили сетевой подход для исследования свойств групп людей, так или иначе связанных. Они разработали такие меры, как степень, близость, промежуточность, а также центральность собственного вектора, которые до сих пор используются в современном (не обязательно социальном) сетевом анализе. ²¹ В частности, центральность собственного вектора использует тот же центральный компонент, что и рейтинг PageRank, применяемый к социальной сети:

Человек считается престижным, если его одобряют престижные люди.

Джон Р. Сили в 1949 году, вероятно, первым в этом контексте использовал круговой аргумент PageRank. ²⁹ Сили рассуждает с точки зрения социальных отношений между детьми: каждый ребенок выбирает других детей в социальной группе с неотрицательной силой. Автор отмечает, что общая сила выбора, полученная каждым ребенком, неадекватна в качестве индекса популярности, поскольку она не учитывает популярность того, кто делает выбор. Следовательно, он предлагает определять популярность ребенка как функцию популярности тех детей, которые выбрали ребенка, и популярность тех, кто выбрал ребенка, как функцию популярности тех, кто их выбрал, и, таким образом, в «бесконечно повторяющемся размышлении. ."Сили раскрывает проблему в терминах линейных уравнений и использует правило Крамера для решения линейной системы. Он не обсуждает вопрос уникальности.

Другая модель была предложена в 1953 году Лео Кацем. ¹¹ Кац рассматривает социальную сеть как ориентированный граф, где узлами являются люди, а человек i соединен ребром с человеком j , если i выбирает или одобряет j . Статус элемента i определяется как количество взвешенных путей, достигающих j в сети, что является обобщением степени неопределенности.Длинные пути имеют меньший вес, чем короткие, поскольку индоссаменты обесцениваются по сравнению с длинными цепочками. Обратите внимание, что этот метод косвенно учитывает, кто одобряет, а также сколько людей одобряют: если узел i указывает на узел j и i достигается многими путями, то пути, ведущие к i получить также j за один дополнительный шаг.

Кац строит матрицу смежности L = ( l _{i, j}) так, что l _{i, j} = 1, если человек i выбирает человека j и l и l _{i, j} = 0 иначе.Он определяет матрицу, в которой a - постоянная затухания. Обратите внимание, что компонент ( i, j ) в L ^k - это количество путей длиной k от i до j , и это число ослаблено на a ^k при вычислении W . Следовательно, компонент ( i, j ) предельной матрицы W представляет собой взвешенное количество произвольных путей от i до j .Наконец, статус элемента _j = _i w _{i, j}, то есть число взвешенных путей, достигающее j . Если коэффициент ослабления a <1 / ( L ), при ( L ) спектральный радиус L , то приведенный выше ряд для W сходится.

Рисунок 4 иллюстрирует метод на примере. Обратите внимание на важную роль коэффициента затухания: когда он велик (близок к 1 / ( L )), длинные пути плавно обесцениваются, а оценки Каца сильно коррелируют с рейтингом PageRank.В показанном примере методы PageRank и Katz обеспечивают одинаковое ранжирование узлов при коэффициенте затухания 0,9. С другой стороны, если коэффициент затухания невелик (близок к 0), то вклад, вносимый путями длиной более 1, быстро уменьшается, и, таким образом, оценки Каца сходятся к степеням, количеству входящих звеньев узлов. В этом примере, когда коэффициент затухания падает до 0,1, узлы C и E меняют свои позиции в рейтинге: узел E , который получает много коротких путей, значительно увеличивает свой балл, а узел C, который является адресатом только одного короткий путь и множество (обесценившихся) длинных существенно снижает его оценку.

В 1965 году Чарльз Хаббелл обобщает предложение Каца. ¹⁰ Учитывая набор членов социального контекста, Хаббелл определяет матрицу W = ( w _{i, j}), так что w _{i, j} - сила, при которой i подтверждает j . Интересно, что эти веса могут быть произвольными, в частности, отрицательными. Престиж члена рекурсивно определяется с точки зрения престижа индоссантов и принимает во внимание силу поддержки:

Термин v - это экзогенный вектор , так что v _i - это минимальный статус, присвоенный i извне.

Оригинальными аспектами метода являются наличие внешних исходных данных и возможность давать отрицательные подтверждения. Следствием отрицательной поддержки является то, что статус актера также может быть отрицательным. Актер, получивший положительное (соответственно отрицательное) суждение от члена с положительным статусом, увеличивает (соответственно снижает) свой престиж. С другой стороны, что интересно, получение положительного суждения от члена с отрицательным статусом отрицательно влияет на престиж одобренного члена (если вы одобрены каким-либо лицом, связанным с мафией, ваша репутация может действительно упасть).Более того, получение отрицательной поддержки от члена с отрицательным статусом вносит положительный вклад в престиж одобренного человека (если тот же мафиози будет противостоять вам, ваша репутация может повыситься).

На рисунке 5 показан пример модели Хаббелла. Обратите внимание, что Чарльз не получает никакой поддержки и, следовательно, имеет минимальный статус, который по умолчанию предоставляется каждому члену. Дэвид получает только отрицательные суждения; Интересно, что тот факт, что он имеет положительное мнение о себе, еще больше снижает его статус.Лучшей стратегией для него, заранее зная о своем отрицательном статусе, было бы отрицательно судить себя, признавая отрицательное суждение других участников.

Уравнение 5 эквивалентно ( IW ) = v , где I - это единичная матрица, т.е. Ряды сходятся тогда и только тогда, когда спектральный радиус W меньше 1. Теперь ясно, что модель Хаббелла является обобщением модели Каца на общие матрицы, которые добавляют начальный экзогенный вход v .Действительно, уравнение Каца для социального статуса имеет вид, где e - вектор всех единиц. В неопубликованной заметке Вигна прослеживает историю математики спектрального ранжирования и показывает, что существует сокращение от формулировки суммирования путей HubbellKatz к формулировке собственных векторов с телепортацией PageRank и наоборот. ³⁰ При отображении константа затухания является эквивалентом коэффициента демпфирования PageRank, а экзогенный вектор соответствует вектору персонализации PageRank.Интерпретация PageRank как суммы взвешенных путей также исследуется Baeza-Yates et al. ¹

Спектральные методы ранжирования также использовались для ранжирования спортивных команд в соревнованиях, в которых участвуют команды, играющие в парах. ^13,32 Основная идея состоит в том, что команда сильна, если она побеждает другие сильные команды. Большая часть искусства задачи спортивного ранжирования состоит в том, как определить элементы матрицы a _{i, j}, выражающие, насколько команда i лучше, чем команда j (например.g., мы могли бы выбрать , _{i, j} равным 1, если j превосходит i , 0,5, если игра закончилась ничьей, и 0 в противном случае). ¹²

В начало

Эконометрика

Мы завершаем кратким описанием модели «затраты - выпуск», разработанной в 1941 году лауреатом Нобелевской премии Василием Леонтьевым в области эконометрии - количественного исследования экономических принципов. ¹⁸ Согласно модели Леонтьева «затраты-выпуск», экономика страны может быть разделена на любое желаемое количество секторов, называемых отраслями, каждая из которых состоит из фирм, производящих аналогичный продукт.Каждая отрасль требует определенных ресурсов для производства единицы собственного продукта и продает свою продукцию другим отраслям, чтобы удовлетворить их потребности в ингредиентах. Цель состоит в том, чтобы найти цены на единицу продукции, производимой каждой отраслью, которые гарантируют воспроизводимость экономики, которая сохраняется, когда каждый сектор уравновешивает затраты на свои ресурсы с доходами от своей продукции. В 1973 году Леонтьев получил Нобелевскую премию по экономике за работу над моделью ввода / вывода. Пример представлен в таблице 2.

Пусть q _{i, j} обозначает количество, произведенное отраслью i th и использованное отраслью j th, а q _i будет общим количеством, произведенным сектором i , то есть q _i = _j q _{i, j}. Пусть A = ( a _{i, j}) будет таким, что a _{i, j} = q _{i, j} / q

91 j ; каждый коэффициент a _{i, j} представляет количество продукта (произведенного отраслью) i , потребленного отраслью j , которое необходимо для производства единицы продукта j .Пусть _j будет ценой за единицу продукта, произведенного каждой отраслью j . Воспроизводимость экономики сохраняется, когда каждый сектор j уравновешивает затраты на свои вводимые ресурсы с доходами от его выпусков, то есть:

Разделив каждое уравнение баланса на q _j, мы получим

или, в матричной записи,

Следовательно, высокооплачиваемые отрасли (отрасли j с высоким совокупным доходом _j q _j) - это те, которые получают существенный вклад от высокооплачиваемых отраслей, цикличность, которая очень напоминает тезис PageRank.²⁵ Используя тот же аргумент, который использовал Геллер ⁹ для библиометрической модели Пински и Нарин, мы можем показать, что спектральный радиус матрицы A равен 1, поэтому вектор равновесных цен является доминирующим собственным вектором матрицы A . Такое решение существует всегда, хотя оно может не быть уникальным, если только A не является несводимым. Обратите внимание на поразительное сходство модели Leontief closed с моделью, предложенной Пински и Нарин. Открытая модель Леонтьева добавляет экзогенный спрос и создает избыток выручки (прибыли).Он описывается уравнением = A + v , где v - вектор прибыли. Сам Хаббелл отмечает сходство его модели с открытой моделью Леонтьева. ¹⁰

Может показаться спорным сопоставление методов PageRank и Леонтьева. Безусловно, первоначальная мотивация работы Леонтьева заключалась в том, чтобы дать формальный метод нахождения равновесных цен для воспроизводимости экономики и использовать этот метод для оценки воздействия на всю экономику изменения спроса в любых секторах экономики. .Леонтьев, насколько нам известно, не был мотивирован отраслевой проблемой , ранжирующей . С другой стороны, мотивация, лежащая в основе других методов, описанных в этой статье, - это ранжирование набора однородных объектов. Однако, несмотря на исходные мотивы, между открытой и закрытой моделями Леонтьева и другими методами ранжирования, описанными в этой статье, есть более чем случайное сходство. Эти связи мотивировали обсуждение вклада Леонтьева, который, вероятно, является наименее известным среди исследованных методов в компьютерном сообществе.

В начало

Заключение

Классическое понятие качества информации связано с оценкой нескольких экспертов в данной области . PageRank ввел оригинальное понятие качества информации, находящейся в сети: коллективный разум Сети, сформированный на основе мнений миллионов людей, населяющих эту вселенную, используется для определения важности и, в конечном итоге, качества эта информация.

Рассмотрим разницу между экспертной оценкой и коллективной оценкой .Первый имеет тенденцию быть внутренним, субъективным, глубоким, медленным и дорогим. Напротив, последние обычно являются внешними, демократичными, поверхностными, быстрыми и дешевыми. Интересно, что дихотомия между этими двумя методологиями оценки не свойственна информации, найденной в Интернете. В контексте оценки академических исследований экспертная оценка: оценка научных публикаций, проводимая коллегами, работающими в той же области, что и публикация, играет роль экспертной оценки. Коллективная оценка заключается в оценке важности вклада с помощью библиометрической практики подсчета и анализа цитирований, полученных публикацией от академического сообщества.Цитаты обычно свидетельствуют об использовании информации и признают интеллектуальный долг. Eigenfactor, ³⁴ библиометрический индикатор, основанный на PageRank, является одним из самых интересных недавних предложений по коллективной оценке статуса академических журналов. Последствия перехода от экспертной оценки к библиометрической оценке в настоящее время активно обсуждаются в академическом сообществе. ³³

В начало

Благодарности

Автор благодарит Энрико Боццо, Себастьяно Винья и анонимных рецензентов за положительные и критические комментарии к ранним наброскам этой статьи.Себастьяно Винья первым указал на вклад Джона Р. Сили.

В начало

Список литературы

1. Баеза-Йейтс, Р. А., Болди, П., Кастильо, К. Общие демпфирующие функции для распространения важности при ранжировании на основе ссылок. Internet Math. 3 , 4 (2007), 445478.

2. Боллен, Дж., Родригес, М. А., де Сомпель, Х. В. Статус журнала. Наукометрия 69 , 3 (2006), 669687.

3. Брин, С., Пейдж, Л. Анатомия крупномасштабной гипертекстовой поисковой системы. Comput. Netw. ISDN Syst. 30 , 17 (1998), 107117.

4. Бродер, А.З., Кумар, Р., Магхул, Ф., Рагхаван, П., Раджагопалан, С., Стата, Р., Томкинс, А., Винер, Дж. Л. Структура графа в сети. Comput. Netw. 33 , 16 (2000), 309320.

5. Буш В. Как мы думаем. Атл. Месяц. 176 , 1 (1945), 101108.

6. Дин, Главнокомандующий, Чжа, Х., Хе, X., Мужья, П., Саймон, Х. Д. Анализ ссылок: Центры и авторитетные источники во всемирной паутине. SIAM Rev.46 , 2 (2004), 256268.

7. Frobenius, G. Über matrizen aus nicht negativen element. В Sitzungsberichte der Preussischen Akademie der Wissenschaften zu Berlin , 1912, 456477.

8. Гарфилд, Э., Шер, Х. Новые факторы в оценке научной литературы посредством индексации цитирования. г. Док. 14 (1963), 195201.

9. Геллер, Н. Л. О методологии влияния цитирования Пински и Нарин. Инф. Процесс. Управлять. 14 , 2 (1978), 9395.

10. Хаббелл, К. Х. Подход на входе и выходе к идентификации клики. Социометрия 28 (1965), 377399.

11. Кац, Л. Новый индекс статуса, полученный на основе социометрического анализа. Психометрика 18 (1953), 3943.

12. Кинер, Дж. П. Теорема Перрона-Фробениуса и рейтинг футбольных команд. SIAM Ред. 35 , 1 (1993), 8093.

13. Кендалл, М. Г. Дальнейший вклад в теорию парных сравнений. Биометрия 11 , 1 (1955), 4362.

14. Кляйнберг, Дж. М. Авторитетные источники в среде гиперссылок. В Симпозиуме ACMSIAM по дискретным алгоритмам , 1998, 668677.

15. Клейнберг, Дж. М. Авторитетные источники в среде гиперссылок. J. ACM 46 , 5 (1999), 604632.

16. Лэнгвилл, А. Н., Мейер, К. Д. PageRank Google и за его пределами: наука о рейтинге в поисковых системах . Princeton University Press, 2006.

17. Лемпель, Р., Моран, С. Стохастический подход к анализу структуры связей (SALSA) и эффект TKC. Comput. Netw. 33 , 16 (2000), 387401.

18. Леонтьев В. В. Структура американской экономики, 129 . Издательство Гарвардского университета, Кембридж, 1941.

19. Либовиц, С. Дж., Палмер, Дж. П. Оценка относительного воздействия экономических журналов. J. Econ. Лит. 22 (1984), 7788.

20. Марков, А. Распространение закона больших зубил на величины, зависящие от другого. Известия Физико-математического общества при Казанском университете , 2-я серия 15 , 94 (1906), 135156.

21. Ньюман, M.E.J. Сетевой анализ: введение . Oxford University Press, Oxford, U.K., 2010.

.
22. Пейдж, Л., Брин, С., Мотвани, Р., Виноград, Т. Рейтинг цитирования PageRank: Наведение порядка в сети. Технический отчет 199966, Stanford InfoLab, ноябрь 1999. Получено 1 июня 2010 г. с http://ilpubs.Stanford.edu:8090/422/
23. Паласиос-Уэрта, И., Волий, О. Измерение интеллектуального влияния. Econometrica 72 (2004), 963977.
24. Перрон, О. Цур, теория матриц. Math. Анна. 64 , 2 (1907), 248263.
25. Пиллаи, С. У., Суэль, Т., Ча, С. Теорема Перрона-Фробениуса: некоторые из ее приложений. IEEE Signal Process. Mag. 22 , 2 (2005), 6275.
26. Пински Г., Нарин Ф. Влияние цитирования на журнальные совокупности научных публикаций: Теория, с приложением к литературным физикам. Инф. Процесс. Управлять. 12 , 5 (1976), 297312.
27.Основная команда разработчиков R. R: язык и среда для статистических вычислений . R Фонд статистических вычислений, Вена, Австрия, 2007. ISBN 3-
1-07-0. По состоянию на 1 июня 2010 г., http://www.R-project.org
.
28. SCImago. SJRSCImago Journal и рейтинг страны. По состоянию на 1 июня 2010 г., http://www.scimagojr.com, 2007.
29. Сили, Дж. Р. Сеть взаимного влияния: проблема в обработке социометрических данных. Кан. J. Psychol. 3 (1949), 234240.
30. Винья, С. Спектральный рейтинг, 2010 г. Получено 1 июня 2010 г. с сайта http://arxiv.org/abs/0912.0238
31. фон Мизес, Р., Поллачек-Гейрингер, Х. Практиче верфахрен дер гляйчунгсауфлосунг. Z. Angew. Математика. Мех. 9 , 5877 (1929), 152164.
32. Вэй, Т. Х. Алгебраические основы теории ранжирования. Кандидатская диссертация, Кембриджский университет, 1952 г.
33. Вейнгарт П. Влияние библиометрии на научную систему: непреднамеренные последствия? Наукометрия 62 , 1 (2005), 117131.
34. Вест, Дж., Альтхаус, Б., Бергстром, К., Росвалл, М., Бергстром, Т. Eigenfactor.org Ранжирование и отображение научных знаний. По состоянию на 1 июня 2010 г., http://www.eigenfactor.org, 2007.
35. Чжэн, А. X., Нг, А. Ю., Джордан, М. И. Стабильные алгоритмы для анализа ссылок. В Международная конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска , 2001, 258266.
В начало
Автор
Массимо Франческе (Массимо[email protected]) - исследователь кафедры математики и информатики Университета Удине, Италия.
В начало
Сноски
а. http://www.google.com/corporate/tech.html
г. http://www.w3.org/History/1989/proposal.html
г. Термин висячий относится к тому факту, что многие висячие узлы на самом деле являются незавершенными веб-страницами, обнаруженными ползучими пауками, но чьи ссылки еще не исследованы.
г.Это просто означает, что сумма всех строк равна 1.
e. Матрица неприводима тогда и только тогда, когда связанный с ней ориентированный граф сильно связен, то есть для каждой пары i и j узлов графа существуют пути, ведущие из i в j и из j. С по и .
ф. Поскольку G является стохастическим, его спектральный радиус равен 1.
г. Со страницы Википедии за На плечах гигантов .
ч. Источник: Google Scholar от 5 февраля 2010 г.
DOI: http://doi.acm.org/10.1145/1953122.1953146
В начало
Фигуры
Рисунок 1. Экземпляр PageRank с решением. Каждый узел помечен своим рейтингом PageRank. Баллы были нормализованы до 100. Мы приняли = 0,85.
Рисунок 2. Экземпляр HITS с решением (сравните с рейтингом PageRank в
Рисунок 3. Пример решения метода ранжирования журналов, предложенного Пински и Нарин.Узлы помечены оценками влияния, а края - потоком цитирования между журналами. Баллы нормализованы до 100.
Рис. 4. Пример модели Каца с использованием двух коэффициентов затухания: a = 0,9 и a = 0,1 (спектральный радиус матрицы смежности L равен 1). Каждому узлу присвоена оценка Каца, соответствующая , = 0,9 (вверху) и , = 0,1 (внизу). Баллы нормализованы до 100.
Рисунок 5.Пример модели Хаббелла с решением: каждый узел помечен своим показателем престижа, а каждое ребро помечено силой поддержки между подключенными элементами; отрицательная сила выделена пунктирными краями. Минимальный статус для всех участников установлен на уровне 0,2.
В начало
Таблицы
Таблица 1. История PageRank
Таблица 2. Таблица затрат-выпуска для экономики с тремя секторами с балансовым решением.
Вернуться к началу
© 2011 ACM 0001-0782 / 11/0600 $ 10.00
Разрешение на изготовление цифровых или бумажных копий части или всей этой работы для личного или классного использования предоставляется бесплатно при условии, что копии не делаются и не распространяются с целью получения прибыли или коммерческой выгоды и что копии содержат это уведомление и полную ссылку на первой странице . Авторские права на компоненты этой работы, принадлежащие другим лицам, кроме ACM, должны соблюдаться. Абстракция с кредитом разрешена. В противном случае для копирования, повторной публикации, размещения на серверах или распространения в списках требуется предварительное специальное разрешение и / или плата.Запросите разрешение на публикацию по адресу [email protected] или по факсу (212) 869-0481.
Цифровая библиотека издается Ассоциацией вычислительной техники. Авторские права © 2011 ACM, Inc.
Комментарии
Аноним
29 июня 2011 г. 05:47
Мой правильный адрес электронной почты: [email protected] Извините за это, а не по моей вине!
Массимо
Показано 1 комментария
(PDF) Связанные данные и классификация на основе PageRank
1.1 Связанные данные и PageRank
Концепция связанных данных была впервые представлена Тимом Бернерсом-Ли (Berners-Lee, 2006). Он сформулировал
четыре правила для машиночитаемого контента в Интернете:
 Используйте URI в качестве имен для вещей.
 Используйте HTTP URI, чтобы люди могли искать эти имена.
 Когда кто-то ищет URI, предоставьте полезную информацию, используя стандарты
(RDF *, SPARQL).
 Включите ссылки на другие URI, чтобы они могли узнать больше.
Более конкретной является идея связанных открытых данных, которая основана на предположении о свободно публикуемых данных
без ограничений в использовании или дополнительных сборов.
Алгоритм PageRank был разработан в 1998 году Пейджем и Брайном (Brine, 1998) как подход к ранжированию
страниц в Интернете путем изучения структуры гиперссылок в Интернете. Важность каждой веб-страницы
зависит от количества и значения PageRank всех веб-страниц, которые ссылаются на нее.Этот подход, также известный как
как «Случайная прогулка серфера», был изучен и улучшен для анализа цитирования (Ma, 2008). Наша модифицированная версия
PageRank (1) соответствует определению ее матрицы (Langville, 2006), где Px (a) - значение узла
a на итерации x, d - коэффициент демпфирования, обычно устанавливаемый на 0,85, V - это значение набор всех узлов в графе, U - набор из
узлов со связью с узлом a, D - набор всех висящих узлов, а wij - вес ссылки от узла i к узлу j.
   

  


 (1)
2. ПРЕДЫДУЩАЯ РАБОТА
Классификация документов может быть определена как присвоение одного или нескольких заранее определенных категории
(классификационные классы) к документам. Мы можем выделить две фазы в обработке классификации документов,
фазу обучения и фазу классификации.На этапе обучения пользователь определяет категории, давая обучающие
документов для каждой из этих категорий. Качество улучшается с увеличением количества учебных документов.
Это слабое место классификации документов, поскольку требуется солидный обучающий сборник.
Для классификации документов существует множество методов контролируемого обучения. Некоторые из этих методов
включают наивный байесовский подход, метод k-ближайшего соседа, векторные подходы e.грамм. Рочио, машины опорных векторов,
бустинг (Schapire, 1999), алгоритмы обучения правилам (Cohen, 1996), максимальная энтропия и скрытый семантический анализ
.
DBPedia использовалась в качестве источника связанных данных, представленных в этой статье. Мы используем локальную копию Linked
Data, хранящуюся в нашей базе данных отношений для повышения производительности, но также можно использовать конечную точку SPARQL.
DBPedia - семантически обогащенная Википедия, которая ранее успешно использовалась для вычисления
семантической взаимосвязи документов.WikiRelate! (Strube, 2006) объединяет меры на основе пути, показатели на основе информации
и меры на основе перекрытия текста. Явный семантический анализ (Габрилович, 2007)
использует методы машинного обучения для явного представления значения текста как взвешенного вектора
концепций, основанных на Википедии.
Другой подход к классификации документов (Ван, 2005) предложил модель графа терминов как улучшенную версию модели векторного пространства
.Цель этой модели - представить содержимое документа с отношениями
между ключевыми словами. Эта модель позволяет определять функции подобия и алгоритм PageRank-style
. Векторы значений рейтинга PageRank были созданы для каждого документа. Ранговая корреляция и
термин «расстояние» использовались в качестве меры сходства для отнесения документа к классификационному классу. Альтернативный подход
к классификации документов использует гиперонимы и другие непосредственно связанные понятия (Bloehdorn, 2004;
Ramakrishnanan, 2003).Следующий шаг в классификации документов можно обозначить как расширение признаков с добавлением
дополнительной семантической информации из онтологии (De Melo, 2007). Этот подход (De Melo, 2007)
использует внешние знания для отображения терминов в области понятий. Для исследования связанных концепций
используется алгоритм графа обхода.
В чем разница между авторитетом домена и рейтингом страниц?
Два измерения сайта часто используются как важные метрики для работы над улучшением вашего сайта.Один из них - это созданный и измеренный Google PageRank. Другой - это стороннее создание Moz, Domain Authority. Что нужно для их измерения и что важно для вашего сайта?
Что такое PageRank?
PageRank - это алгоритм, созданный основателем Google Ларри Пейджем и названный в его честь. Это простое измерение количества ссылок и ссылочного капитала. Google просматривает определенный сайт и измеряет количество ссылок, указывающих на этот сайт. Он также измеряет авторитет этих сайтов, чтобы предотвратить злоупотребления ссылочными фермами.Сайт с более качественными входящими ссылками в большем количестве будет иметь лучший PageRank.
В течение долгого времени PageRank был важным показателем качества сайта. Его использовали как веб-мастера, так и обычные пользователи, чтобы определить, заслуживает ли сайт доверия. Он также использовался в качестве флага для установки значения на сайте для реселлеров домена, хотя его полезность в этом случае снизилась.
PageRank снизился в цене за последние несколько лет. Google постепенно прекращает обновлять PR-данные, так что ваш сайт не может ни повышаться, ни падать в рейтинге PageRank с течением времени.В наши дни обновления приходят не чаще, чем два раза в год, и обещают, что в будущем они будут появляться реже.
PageRank по-прежнему важен как часть внутреннего алгоритма Google, но больше не является ценным общедоступным показателем.
Что такое авторитет домена?
Авторитет домена - это показатель, созданный Moz.com для более точного определения ценности сайта. Как и PageRank, это логарифмический расчет авторитета сайта. Подняться с 30 до 35 будет легче по этой шкале, чем с 80 до 85.DA равный 100 - лучший идеал, в то время как сайт без рейтинга будет иметь DA равный нулю.
Domain Authority можно найти с помощью ряда различных инструментов SEO, в первую очередь MozBar или сайта Open Site Explorer.
DA рассчитывается с использованием более широкого диапазона показателей, чем PageRank. Некоторые из этих показателей включают:
• Количество и качество входящих ссылок. Кто и сколько людей ссылается на вас, как часто? Это можно улучшить, получив обратные ссылки из самых разных авторитетных источников.
• Количество и качество исходящих ссылок. На кого, по вашему мнению, стоит поставить ссылку? У вас слишком много ссылок для вашего контента? Вы ссылаетесь на авторитетные сайты или известные спам-домены?
• Информация о регистрации домена. У вас есть 10, 20, 30 доменов? Администрация домена контролирует домены, связанные с одной и той же информацией. Если один из этих сайтов становится сайтом для рассылки спама или черной шляпы, другие сайты, принадлежащие этому человеку, могут быть понижены в должности.
• Возраст домена. У старых доменов было время, чтобы завоевать большее доверие, поэтому они могут получить немного более высокий рейтинг в авторитете домена. Многие сайты не доживают до своей первой годовщины. На этот показатель нельзя повлиять извне, за исключением покупки старого, установленного домена.
• Разнесение каналов. В целом лучше иметь меньшее количество ссылок с более широкого круга ценных сайтов, чем иметь большое количество входящих ссылок с небольшой горстки сайтов.
• PageRank. Да, Moz использует PageRank Google как часть расчета авторитета домена. По умолчанию это означает, что авторитет домена - это более широкое и точное измерение сайта.
• Временное распределение. То есть распределение контента и трафика во времени. Сайт, на котором произошел внезапный всплеск трафика по определенному фрагменту контента, мог столкнуться с тем, что этот контент стал вирусным, или он мог приобрести трафик со стороннего сайта.
• Распределение стоимости. Сколько из них считается ценным на сайте со 100 страницами? Сайт с 75 страницами из 100 средней ценности, измеряемыми по входящим ссылкам и трафику, будет работать лучше, чем сайт, у которого только 10 страниц из 100 имеют ссылки и трафик.
• Показатели трафика , включая количество вернувшихся посетителей, количество просмотров страниц на посетителя, время, проведенное на странице, и показатель отказов пользователя.Все это можно увеличить с помощью взаимодействия.
• Показатели аппаратного и программного обеспечения , включая время ответа сервера, неработающие ссылки, ошибки кода и время безотказной работы.
Существует ряд других показателей DA, которые делают измерение Moz почти таким же сложным, как и сам алгоритм Google.
Авторитет домена и рейтинг страницы
Между этими двумя системами ранжирования есть несколько ключевых различий.
• Авторитет домена активно используется, а полезность PageRank упала.
• Авторитет домена тесно связан с авторитетом страницы, который измеряет отдельные страницы. PageRank охватывает только сайт в целом.
• PageRank рассчитывается самим Google, а DA рассчитывается третьей стороной.
• PageRank не оказывает прямого влияния на ваш рейтинг в поисковой выдаче, в то время как DA можно использовать для измерения этой взаимосвязи.
• PR ограничивается измерением влияния ссылок, в то время как DA включает более широкий диапазон показателей.
• DA обновляется несколько раз в месяц, а PR - нет.
• PR измеряется по шкале от 0 до 10, а DA измеряется по шкале от 0 до 100, что делает DA более точным для аналогичных сайтов.
• DA улучшается в течение нескольких месяцев по мере того, как Moz совершенствует алгоритм, на котором он основан, в то время как PR снижается в цене по мере того, как Google откладывает его на полку.
На авторитетность домена влияют многие из тех же факторов, которые влияют на вашу позицию в поисковой выдаче и взаимодействие с пользователем, что имеет смысл.DA - это показатель вашего SEO, популярности и вовлеченности. Все более совершенные показатели повысят авторитет вашего домена.