Влияет ли Google Pagerank на ранжирование в Google? – статьи про интернет-маркетинг
Как Google PageRank влияет на ранжирование?
Рэнд Фишкин в рамках иллюстрированной публикации на SeoMoz задается вопросом — стоит ли уделять показателям тулбарного PR страниц сайта столько внимания, сколько ему обычно уделяют оптимизаторы?
Рэнд считает, что тулбарный PR не должен значиться среди главных метрик качества сайта и успешности его ранжирования в поисковых системах — по следующим причинам:
- редко обновляется, 2-4 раза в год
- является одним из более чем 200 факторов ранжирования
- относится к страницам, а не к сайтам
- является крайне неконкретной величиной. Рассчитываемый Google PR выражается в больших числах, а на тулбаре сводится к десятибалльной шкале. Так что одна страница с тулбарным PR4 может иметь гораздо более высокий ранк, чем другая с таким же значением на баре.
- преднамеренная неточность. Много лет подряд Google демонстративно понижает тулбарный PR в качестве наказания сайтам, торгующим ссылками
Для выдачи google.com корелляция есть, она достигла значения 0.18, где 1.00 — это абсолютная зависимость, а 0.00 — отсутствие зависимости вообще. В абсолютных числах зависимость не слишком велика, но еще интереснее относительная зависимость от PR выдачи в разных поисковиках. Для британского Google.co.uk она намного ниже, чем для американского Google.com. Для продвижения в Yahoo! Google PR практически бесполезен, а вот Bing его замечает.
Еще один интересный вопрос, рассмотренный в статье Фишкина — как другие популярные метрики по сравнению с PR влияют на выдачу Google.com. Для сравнения были взяты такие показатели, как:
- Количество ссылающихся доменов (метрика SeoMoz)
- авторитетность страницы (метрика SeoMoz)
- Количество внешних ссылок по Yahoo!
Из схемы следует удивительная вещь: количество ссылок на страницу по Yahoo! сильнее кореллирует с ее позицией в выдаче Google, чем собственный PR Google.
Наконец, посмотрим, что влияет на ранжирование в Google не страницы, но всего домена
Узнать Compete Rank для своего сайта можно на compete.com, подписавшись на бесплатные SEO-сервисы. Количество ссылок по Yahoo! посмотреть в Yahoo! Site Explorer. Метрики SeoMoz показывает seo-панель Mozbar, сервисы Open Site Explorer и Linkscape
301 редирект не помогает сохранить трафик с Bing и Yahoo
Еще один полезный материал исследовательского характера — на Seerinteractive.com. С целью узнать, насколько хорошо 301 редирект передает ссылочный вес, а также понять, как изменяется поисковый трафик при переезде сайта на новый домен, Марк Лаворитано понаблюдал за одним клиентским проектом, перенесенным на новый домен.
Оба сайта продвигались по одинаковому набору запросов. По графикам видно, что поисковый трафик с Google достаточно быстро нормализовался и стал расти, а вот трафик с Yahoo! и Bing упал при перенесении сайта в январе, и к началу апреля так и не восстановился. Правда, представители Bing заявили, что их поисковая система может полноценно учесть 301 редирект только после 2-3 переиндексаций сайта.
К сожалению, наблюдаемый сайт жил не Google единым, поэтому падение трафика с остальных поисковиков сказалось и на общем уровне поискового трафика.
SEO для PDF и Ajax
И наконец, два англоязычных поста по техническим вопросам SEO, которые бесполезно пересказывать. На Seoconsultants.com опубликована подробная инструкция по оптимизации PDF-файлов, а SearchEngineJournal.com раскрывает особенности оптимизации сайтов на Ajax.
Что мы знаем о нем? / Хабр
UPD.Статья уже переведена уважаемым
Jenekи находится по адресу:
designformasters.info/posts/google-page-rankПо просьбам здесь начал переводить статью «Google PageRank: What Do We Know About It?». Пока только то, что успел за вчерашний вечер. Если это кому-нибудь нужно продолжение — напишите, я переведу и выложу все остальное. Вычитка и замеченые ошибки приветствуются, т.к. специально переводить мне еще не приходилось. 🙂
Google PageRank: Что мы знаем о нем?
Его использует каждый, но почти никто не знает, как он в действительности работает. Google PageRank – это наверно один из важнейших алгоритмов, когда либо разрабатывавшихся в сети. Миллиарды существующих страниц и миллионы страниц появляющихся каждый день – поисковая выдача намного сложнее, чем вы себе представляете. PageRank – один из сотен факторов, которые учитывает Google, чтобы определить наилучший поисковый запрос, помогающий делать поиск простым и эффективным. Но как он на самом деле сделан? Как работает Google PageRank, какие факторы на него воздействуют, а какие нет? И что мы
действительнознаем про PageRank?
В этой статье будут
только голые факты.
Несколько недель мы производили интенсивные исследования и выбрали
массу фактов и предположений о PageRank, которые похожи на действительность. Кроме того, мы собрали научные статьи, относящиеся к поисковой выдаче – таких, как предложения для лучших результатов поиска (например, PageRank, чувствительный к теме). Вы прочитаете про математическую составляющую PageRank, также как и про
которые вы можете использовать для анализа и слежения за вашими веб-проектами.
Кратко: как он работает?
- PageRank – один из многочисленных методов, которые использует Google для определения релевантности или важности страницы.
- Google интерпретирует ссылку со страницы А на страницу В как «голос» А за В. Он следит не только за объемом голосов, анализируются более сотни иных аспектов страницы, которая этот голос дает.
- PageRank базируется на входящих ссылках, но не только на их число – также имеют значение их релевантность и качество.
- PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). Это формула, которая считает PageRank.
- Не все ссылки имеют одинаковый «вес», когда это касается PR.
- Если у вас есть сайт с PR=8 и 1 ссылка с него на другую страницу, то она получит определенную добавку к своему PR. Но если у вас есть 100 ссылок на эту страницу, то каждая из них будет давать сотую часть этой добавки.
- Битые входящие ссылки не влияют на PR.
- При подсчете популярности учитывается возраст сайта, релевантность обратных ссылок и их длительность. При подсчете Page Rank — нет.
- При подсчете PR контент не учитывается.
- PageRank не определяется для всего сайта сразу, а для каждой страницы по отдельности.
- Каждая ссылка на ваш сайт важна для результата. Исключая забаненые сайты, которые исключаются из подсчета.
- PageRank не определяется от 1 до 10. Это число с плавающей точкой. Также, изначально значение PR немного больше 0.
- Каждый следующий уровень Page Rank достичь труднее с прогрессивной зависимостью. Мы полагаем, что он считается по логарифмической шкале.
- Google считает PR каждой страницы раз в несколько месяцев.
- Google пытается найти такие страницы, которые релевантны и «уважаемы» им одновременно.
Коротко: влияние на Google PageRank
- Частое обновление контента не означает автоматическое улучшение Page Rank.
- Высокий Page Rank не означает высокие позиции в результате поиска.
- Нахождение в каталогах DMOZ и Yahoo! не означает автоматическое улучшение Page Rank.
- Расположение сайта на доменах .edu или .gov не означает автоматическое улучшение Page Rank
- Вложенные каталоги не обязательно имеют более низкий Page Rank, чем корневые каталоги.
- Ссылки с Википедии не означают автоматическое улучшение PageRank (но страницы, которые используют ее материалы могут улучшить PR).
- Ссылки с атрибутом nofollow не помогают работе PageRank.
- Эффективные ссылки внутри сайта влияют на PageRank.
- Релевантные сайты с высоким рангом имеют преимущество при подсчете.
- Текст якоря ссылки часто намного более важен, чем просто ссылка на странице с высоким PR.
- Исходящие или входящие ссылки на качественные релевантные сайты имеют значение на PR.
- Множество ссылок в определенное место с одной страницы означают столько же, сколько одна ссылка на это же место с этой же страницы.
- Сайт может быть исключен (забанен) за ссылки на исключенные (забаненые) сайты.
1.1. Почему PageRank?
- «PageRank – [только] один из методов, которые использует Google, чтобы определить релевантность или важность страницы.» [PageRank Explained Correctly]
- «Google использует множество факторов ранжирования. Поэтому алгоритм PageRank может быть наиболее известным. PageRank выражается в двух вещах: 1. как много существует ссылок с других сайтов на данный; 2. качества этих сайтов. Ссылки с пяти или шести высококачественных сайтов (таких, как cnn.com, nytimes.com) будут означать больше, чем вдвое больше ссылок с менее известных сайтов.» [Google Librarian Central]
- «PageRank – это только приблизительная оценка качества веб-страницы и ни в коем случае не мера ее тематической релевантности. Тематическая релевантность зависит от содержания ссылок и таких факторов, как соотносимость контента и ключевых слов, заголовка и т.п.» [PageRank: An Essay]
1.2. Как он работает?
- Никто полностью не уверен. «Никто точно не знает, как в данный момент Google считает PR.» [Google PageRank Explained]
- PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). «Эта формула показывает, каким образом вычисляется PageRank. Здесь ‘t1 — tn’ — это страницы, ссылающиеся на страницу А, ‘C’ — это количество исходящих ссылок на странице, а ‘d’ — регулирующий фактор, обычно равный 0.85.»
- Мы можем записать проще: PageRank = 0.15 + 0.85 * («долю» каждой страницы, ссылающейся на данную). «Доля» равна PR’у ссылающейся страницы, деленному на количество исходящих с нее ссылок. A page “votes” an amount of PageRank onto each page that it links to. The amount of PageRank that it has to vote with is a little less than its own PageRank value (its own value * 0.85). This value is shared equally between all the pages that it links to.” [Google’s Page Rank]
- “Суть алгоритма Google PageRank в распределении собственного PR между исходящими ссылками. Если у вас есть страница с PR=8 и одна ссылка на другую страницу, то эта страница получит полный «вес» вашего PR. Но если у вас есть не одна, а сотня ссылок, то каждая ссылка будет иметь равную с остальными часть «веса» вашего PR (иначе говоря 1/100 его).» [The Importance of PageRank]
- «Отсюда следует, что страница с PR=4 и пятью ссылками будет значить больше, чем страница с PR=8 и сотней ссылок. PageRank страницы, ссылающейся на вашу важен, но так же важно и количество ссылок на ней. Чем больше ссылок на странице, тем меньше «веса» PR несет каждая их них.» [Google’s Page Rank]
- «PageRank [..] использует структуру ссылок как индивидуальный индикатор каждой страницы. Google интерпретирует ссылку со страницы А на страницу В как «голос» страницы А за страницу В. Google учитывает гораздо больше факторов, чем просто количество таких «голосов» или ссылок на страницу; он также анализирует страницу, от которой был получен «голос». Голоса от «важных» страниц значат намного больше, чем от остальных, и помогают другим страницам увеличить свой «вес». [Google: Technology]
- «Не все ссылки «весят» одинаково, когда это касается PR. Т.о. «важные» страницы дают больше пользы для вашего PR, чем «менее важные» (по версии Google конечно). […] Сила распространения PR – это количество исходящих ссылок на «голосующей» странице. Т.о. Страница с PR=4 и одной ссылкой может дать больше веса, чем страница с PR=5 и сотней исходящих ссылок на ней. Типичным примером в данном случае может быть знаменитая страница-на-миллион-долларов (milliondollarhomepage). PR этой страницы равен 7, но сотни ссылок на ней дают очень мало веса страницам, на которые ссылаются.» [Google PageRank Explained]
- Каждый следующий уровень PR намного сложнее достичь (в прогрессии). «PageRank считается с помощью логарифмов. Точно так же, в экспоненциальной зависимости, измеряются землетрясения по шкале Рихтера, т.е. за словом PageRank стоят математические вычисления. Требуется один шаг от PR=0, до PR=1, немного больше шагов от 1 до 3, намного больше до 4, еще больше до 5 и т.д.» [Google Page Rank FAQ]
[via
einfach-persoehnlich]
- «PageRank не определяет сайты целиком, а считает каждую страницу по отдельности. Далее, PageRank страницы А рекурсивно определяется рангами других страниц, ссылающихся на страницу А.» [The Page Rank algorithm]
- «Google объединяет PageRank с тонкой технологией текстового поиска для того, чтобы найти одновременно важные и релевантные страницы для пользователя. Google анализирует все детали контента страницы (и контентов страниц, ссылающихся на данную) для того, чтобы добиться наилучших результатов поиска.» [What Is Google PageRank?]
- «Google считает PR каждой страницы один раз в несколько месяцев (обновление PR). После того, как обновление завершено, все страницы получают от Google новый PR, который будет у них до тех пор, пока не придет время нового обновления. Ранг новых сайтов равен 0 до тех пор, пока не произойдет обновление и им не будет присвоен определенный уровень PR.» [Google PageRank Explained]
- Значение PageRank не изменяется от 0 до 10. PageRank – это число с плавающей точкой. «Более точным будет считать PR числом с плавающей точкой. Конечно, наши внутренние вычисления PR имеют намного больше знаков, чем значение от 0-10, показанное на панели инструментов.” [Matt Cutts]
- «Мы уверены, что их кривая подобна экспоненциальной, где каждый новый уровень труднее достичь, чем предыдущий. Я лично провел несколько исследований на эту тему и результатом стала экспоненциальная база, равная 4. Итак, PR=6 в 4 раза труднее достичь, чем PR=5. [..] Разница между верхней границей PR=6 и нижней границей PR=6 может быть в сотнях и тысячах ссылок.» [Top 10 Google Myths Revealed]
- «Полагается, что PageRank считается по логарифмической шкале. Это значит, что разница между PR=4 и PR=5 приблизительно в 5-10 раз выше, чем разница между PR=3 и PR=4. Так, вероятно, что существует в 100 раз больше страниц с PR=2, чем с PR=4. Это значит, что если вы достигли PageRank равный 6 или выше, вы находитесь в рейтинге выше, чем 0.1% всех остальных сайтов.» [Importance of Google PageRank]
- «PageRank базируется на входящих ссылках, но не просто на их количестве. Вместо этого, ваш PageRank зависит от «веса» входящих ссылок. Чтобы найти «вес» входящей ссылки, поделите PR страницы с этой ссылкой на общее количество ссылок на ней. Очень возможно получить PR равный 6 или 7 от малого количества входящих ссылок, обладающих достаточным весом.» [Top 10 Google Myths Revealed]
- «Google пытается найти страницы, одновременно авторитетные и релевантные. Если две страницы имеют примерно одинаковый уровень авторитетности и соответствия информации поисковому запросу, то выбирается та страница, на которую ссылается больше авторитетных сайтов. Но, не смотря на это, мы часто повышаем в результатах поиска страницы с меньшим количеством ссылок или меньшим PR, если другие факторы показывают, что страница более релевантная. Для примера, страница, целиком посвященная гражданской войне, будет намного более полезна, чем статья, мимоходом ее упоминающая, но располагающаяся на таком авторитетном сайте, как Time.com.» [Google Librarian Central]
- Ссылки не отдают свой PR кому-либо, они дают «голос». «Когда страница «голосует» своим значением PageRank за другие страницы, ее собственное значение PR не уменьшается. Собственный PR не раздается и не может закончиться в результате «голосований». Также, не существует передачи своего PR. Существует только «голосование», зависящее от PageRank каждой страницы.» [Page Rank Explained]
- «Из материала «Анатомия крупных гипертекстовых поисковых систем» («The Anatomy of a Large-Scale Hypertextual Web Search Engine») мы знаем, что PageRank страницы – это число, получающееся в результате работы рекурсивного алгоритма, в котором страница получает общий PR каждой страницы, ссылающейся на данную.» [Google PageRank]
- Робот Google не анализирует сайт мгновенно. «В большинстве случаев требуется два месячных обновления, чтобы все ссылки на ваш сайт были найдены, подсчитаны и показаны.» [Google FAQ]
PR Google (PageRank, Пейдж Ранк)
(от английского page — страница, по другой версии фамилия создателя Ларри Пейджа (Larry Page), rank — разряд, ранг; часто встречаемое обозначение – PR)— алгоритм в поисковой системы Google, который рассчитывает авторитетность каждой страницы сайта путём подсчёта ссылок на неё. Причём PageRank — это именно числовая величина, характеризующая «вес» страницы в Google, который увеличивается по мере ссылаемости на данную страницу.
Однако Google отфильтровывает ссылки с сайтов, специально предназначенных для скопления ссылок, что является немаловажным фактором при оптимизации того или иного сайта. Некоторые ссылки могут отрицательно влиять на ранжирование ссылающегося сайта, в результате чего сайт может быть пессимизирован. Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска.
PageRank является параметром, относящимся к каждой отдельной странице на веб-сайте, но не всему сайту в целом. Причём на одном сайте могут находиться страницы с разным PageRank.
Данный алгоритм Google является одним из основополагающих факторов при ранжировании сайтов в результатах поиска.
Это означает, что поиск в Google работает следующим образом:
1. ищутся все страницы, в которых есть слова из запроса пользователя;
2. найденные страницы ранжируются на основе текстовых критериев;
3. учитывается текст ссылок на сайт;
4. результаты корректируются с учетом PageRank каждой страницы.
PageRank может изменяться по шкале от 0 до 10, а перерасчёт самой значимости страниц происходит во время так называемого «Google Dance». Наиболее типичным для большинства сайтов средней раскрученности является PageRank от 4 до 5. Величина, практически недостижимая для множества сайтов, но иногда встречается — 7. Значения 8, 9, 10 имеют исключительно популярные и значимые проекты. Например, сейчас у каталога dmoz.org PageRank = 8. Значение 10 имеют всего несколько десятков сайтов, например http://www.whitehouse.gov, http://www.adobe.com.
Что такое PageRank Google’а и как получить его по максимуму
Не так давно мне попалась на глаза одна широко известная статья «Что такое ПэйджРанк», к которой большинство людей обращается, когда хочет уяснить для себя вопрос — что такое ПэйджРанк, и как он работает. Если честно, то я и сам ей пользовался. Однако, когда я писал Калькулятор ПэйджРанка, мне пришло в голову, что эта статья неверна с точки зрения производимых вычислений. В ней используется своя собственная форма ПэйджРанка, которую автор называет «мини-ранк». Мини-ранк, по непонятным причинам, использует формулу, отличную от Гугловского ПэйджРанка, из-за чего результаты вычислений становятся неверными.
Несмотря на то, что в результате написания этой и последующей статей автор отрицает мини-ранк, оригинальная статья о мини-ранке остается в интернете. Поэтому, если вам известна статья «Что такое ПэйджРанк», то лучше о ней забыть.
ПэйджРанк представляет собой численное значение, которое отражает, насколько значима данная страница в интернете. Гугл полагает, что когда одна страница ссылается на другую, она словно «отдает свой голос» за другую страницу. Тогда, чем больше голосов отдано за страницу, тем важнее эта страница должна быть. Кроме того, — и это важно! — «отданные голоса» отличаются по значимости в зависимости от того, «кто» голосует. Гугл подсчитывает важность оцениваемой страницы, исходя из «голосов», отданных за нее. При этом в процессе производства расчетов Гугл учитывает, насколько важен (весом) каждый из отданных «голосов».
Таким образом, ПэйджРанк Гугла — это его собственный способ определения важности оцениваемой страницы. Это весьма важно, потому что ПэйджРанк является одним из факторов, определяющих порядок вывода результатов поиска. Это не единственный фактор, который Гугл использует для оценки страниц, но один из важнейших.
Начиная с этого момента, мы будем использовать термин «ПэйджРанк» в сокращенной форме как «PR».
Далеко не все ссылки учитываются Гуглом. Так, Гугл жестко отфильтровывает ссылки, имеющиеся на известных «фермах ссылок» (специально созданных совокупностях веб-документов, искусственно созданных для увеличения «веса» тех или иных веб-ресурсов). Некоторые ссылки даже приводят к «наказанию» страницы, на которую они ведут, со стороны Гугла. Понятно, что вебмастера не могут контролировать, какие сайты ссылаются на их сайты, но они должны понимать, какие ссылки они сами проставляют на другие сайты. По этой причине, ссылки, проставленные внутри одного отдельно взятого сайта, не могут ему навредить, тогда как ссылки, ведущие вовне сайта, могут быть «вредными», если они ведут на «наказанные» сайты. Поэтому будьте осторожны, когда ставите ссылки на внешние ресурсы. Если PR сайта составляет 0, то это обычно следует в результате наказания, и будет недальновидно проставлять ссылку на такой сайт.
Факт: Веб-сайт имеет максимальное значение ПэйджРанка, которое распространяется по его страницам с помощью внутренних ссылок.
Максимальное значение ПэйджРанка сайта эквивалентно количеству страниц на сайте, умноженному на единицу. Оно увеличивается входящими извне ссылками с других сайтов и снижается уходящими вовне ссылками на другие сайты. Сейчас мы говорим о значении ПэйджРанка для всего сайта и не затрагиваем ПэйджРанк каждой индивидуальной страницы. Вы не должны принимать мои доводы на веру, вы и сами можете прийти к тому же самому заключению, взяв карандаш и лист бумаги, и произведя небольшие расчеты.
Факт: Максимальное значение ПэйджРанка сайта тем выше, чем больше количество страниц на этом сайте.
Чем больше страниц имеет сайт, тем выше его ПэйджРанк. И снова — вы можете прийти к такому же заключению с карандашом и листом бумаги. При этом помните, что во внимание берутся только те страницы, о существовании которых Гугл знает.
Факт: Неграмотная расстановка внутренних ссылок ведет к снижению ПэйджРанка сайта, но сверхграмотная расстановка внутренних ссылок не способна его повысить.
Плохая постановка внутренних ссылок снижает ПэйджРанк сайта, но не существует способа повысить ПэйджРанк с помощью внутренних ссылок. Единственный путь повышения ПэйджРанка — это получение большего числа входящих извне ссылок и/или увеличение количества страниц на сайте.
Предостережение: Хотя я настоятельно рекомендую создавать новые страницы и добавлять их на сайт, тем не менее, существуют определенные виды страниц, которые создавать и добавлять категорически нельзя. Это страницы, полностью или частично попадающие под определение «cookie-cutters» («обрезчики куков»). Гугл распознает их как спам, что включает его внутреннюю систему тревоги не только по отношению к самим этим страницам, но и к сайту в целом. А заканчивается все «наказанием» сайта в целом. Новые страницы должны содержать только качественный контент — это основное и важнейшее требование.
Теперь рассмотрим некоторые примеры вычислений, чтобы понять, каким образом можно манипулировать ПэйджРанком сайта. Однако, прежде чем сделать это, следует обратить внимание на тот факт, что веб-страница включается в индекс Гугла только тогда, когда существует хотя бы одна другая страница в интернете, которая на нее ссылается. Так заявляет сам Гугл. Если страницы нет в индексе Гугла, то никакие ссылки с нее не учитываются при производстве расчетов.
На самом деле, мы можем пренебречь этим фактом, в основном потому что другие документы на тему «Объяснение ПэйджРанка» также им пренебрегают. Так, вот этот калькулятор работает в двух режимах: «простом» и «реальном». В «простом» режиме подразумевается, что вычисления производятся для страниц, все из которых находятся в индексе Гугла, вне зависимости от того, ссылаются ли на них какие-либо другие страницы. В «реальном» режиме расчеты для страниц, не находящихся в индексе Гугла, не принимаются во внимание. Следующие ниже примеры относятся к результатам, получаемым в «простом» режиме.
Давайте представим себе сайт, состоящий из трех страниц (страницы A, B и C), на которые не проставлены ссылки извне этого сайта. Мы присвоим каждой странице изначальное значение ПэйджРанка в 1, хотя, на самом деле, неважно, с какого значения мы начнем — с 1, с 0 или с 99. Даже если назначить эту цифру в несколько миллионов, после ряда последовательных вычислительных итераций конечный результат будет тем же самым. Просто, стартуя с 1, нам понадобится меньшее количество итераций, нежели начиная отсчет с 0 или любого другого значения. Вы можете следить за расчетами с помощью карандаша и бумаги, или использовать калькулятор.
Максимальный ПэйджРанк сайта — это количество ПэйджРанка внутри сайта. Мы имеем три страницы, значит, максимальный ПэйджРанк для него равняется 3.
На текущий момент, ни на одной из страниц нет ссылки на любую другую, и никакие другие страницы не ссылаются на эти три. Если вы однократно произведете вычисления для каждой страницы, вы получите значение ПэйджРанка для каждой из них, равное 0.15. Совершенно неважно, какое количество вычислительных итераций вы пройдете — ПэйджРанк каждой страницы будет оставаться равным 0.15. Общий ПэйджРанк сайта будет составлять 0.45. хотя в идеале может равняться 3. Сайт серьезнейшим образом теряет большую часть своего потенциально возможного ПэйджРанка.
Пример 1
Теперь начнем снова с каждой страницы, которой присвоен PR 1. Поставим ссылку со страницы A на страницу B и произведем вычисления вновь для каждой из страниц. Вот что мы получим:
Страница A = 0.15
Страница B = 1
Страница C = 0.15
Страница A «проголосовала» за страницу B и, в результате, ПэйджРанк страницы B увеличился. Это неплохо смотрится для страницы B, но лишь в первой итерации — мы ведь не приняли во внимание описанную выше ситуацию из «Уловки-22». А теперь посмотрим, как изменятся цифры после большего количества вычислительных итераций.
После 100 итераций имеем:
Страница A = 0.15
Страница B = 0.2775
Страница C = 0.15
Этот результат остается неплохим для страницы B, но уже не настолько хорошим, каким он был ранее. Полученные результаты теперь выглядят более реалистично. Таким образом, общий ПэйджРанк сайта теперь составляет 0.5775, что немного лучше, но все же только небольшая часть того значения, которое может иметь место.
Примечание:
С технической точки зрения, эти результаты неверны в связи со специфическим отношением Гугла к так называемым «dangling links» («свисающим ссылкам»), но их можно использовать в качестве примера расчетов.
Пример 2
Попробуем другую структуру ссылок. Разместим на каждой из страниц ссылки на все оставшиеся страницы. Снова присвоим каждой из страниц PR, равный 1:
Страница A = 1
Страница B = 1
Страница C = 1
Теперь мы достигли максимума. Неважно, сколько вычислительных итераций будет произведено, — для каждой страницы PR будет составлять 1. Те же самые результаты мы получим при создании цикличной ссылочной структуры (то есть когда A ссылается на B, B ссылается на C, and C ссылается на D). Посмотрите, как это выглядит на калькуляторе.
Полученный нами результат свидетельствует, что, благодаря плохой структуре ссылок, очень легко потерять ПэйджРанк, тогда как при разумной простановке ссылок мы можем достичь его максимально возможной величины. Но мы не ставим себе целью достичь ситуации, когда каждая страница на сайте будет иметь одинаковую долю ПэйджРанка. Мы желаем, чтобы одна или несколько страниц имели большую долю ПэйджРанка за счет других страниц. К таким страницам мы относим индексную страницу, центральные смысловые страницы («hub pages») и страницы, которые оптимизированы под определенные поисковые запросы. Сейчас мы располагаем всего тремя страницами, поэтому мы наращиваем ПэйджРанк индексной страницы — страницы A. Это прекрасно иллюстрирует идею перераспределения ПэйджРанка.
Пример 3
Теперь попробуем поступить следующим образом. Разместим на странице A ссылки на B и C. Также на страницах B и C разместим ссылку на страницу A. Начнем расчеты со значения PR, равного 1 для каждой из страниц. После первой итерации получаем:
Страница A = 1.85
Страница B = 0.575
Страница C = 0.575
А после 100 итераций результат трансформируется в:
Страница A = 1.459459
Страница B = 0.7702703
Страница C = 0.7702703
В обоих случаях, общее значение ПэйджРанка сайта составляет 3 (это максимум), то есть ничего не теряется. Кроме того, в обоих случаях наглядно видно, что страница A имеет гораздо большую долю ПэйджРанка, чем две другие страницы. Так происходит потому, что страницы B и C передают свои доли ПэйджРанка только странице A и никаким другим страницам. Иными словами, мы получили управляемый механизм передачи доли ПэйджРанка в ту область сайта, в какую мы хотим.
Пример 4
В заключение, сохраним предшествующую ссылочную структуру, и добавим ссылку со страницы C на страницу B. Вновь начнем с PR, равного 1 для всех страниц. После первой итерации получим:
Страница A = 1.425
Страница B = 1
Страница C = 0.575
По сравнению с результатами первой итерации из предыдущего примера, страница A потеряла некоторую долю ПэйджРанка, страница B немного приобрела, а страница C осталась на том же самом уровне. Страница C теперь делит свои «голоса» между страницами A и B. Ранее же страница A получала все «голоса». Именно поэтому страница A потеряла, а страница B — приобрела. По результатам 100 вычислительных итераций получаем:
Страница A = 1.298245
Страница B = 0.9999999
Страница C = 0.7017543
Когда пыль наконец осела, страница C потеряла немного в своем ПэйджРанке, поскольку, деля теперь «голоса» между A иB, вместо того чтобы отдавать их все на A, страница A отдает странице C через ссылку с A на C. Таким образом, добавление дополнительной выходящей вовне ссылки со страницы вызывает потерю части ПэйджРанка этой страницы непрямым образом, если любая из страниц, на которую поставлена ссылка, возвращает ссылку назад. Если же страницы, на которые проставлены ссылки, не возвращают ссылки назад, то потери ПэйджРанка страницы не происходит. Если представить себе более жизненную ситуацию, когда ссылка возвращается непрямым образом (страница ссылается на другую страницу, другая — на третью, и так далее, пока N-ная страница не возвратит ссылку на первую), то потери ПэйджРанка первой страницы незначительны. Это не так важно, если речь идет о внутренних ссылках на сайте, но приобретает особое значение, когда ссылки ведут вовне сайта.
Пример 5: новые страницы
Добавление новых страниц на сайт представляет собой важный механизм повышения общего ПэйджРанка сайта, поскольку каждая новая страница добавляет в среднем PR 1 к общему значению. Когда мы занимаемся добавлением новых страниц, их новый ПэйджРанк может передаваться уже существующим важным страницам. Воспользуемся калькулятором для демонстрации.
Давайте добавим три новых страницы к структуре, описанной нами в примере 3 [смотрим]. Итак, есть три новые страницы, но они пока особо не влияют на ситуацию. Небольшое увеличение общего ПэйджРанка, и по 0.15 на новую страницу — это все что мы видим. А теперь давайте проставим с них ссылки на сайт.
Поставим ссылки с каждой из новых страниц на важную страницу, в нашем случае — на страницу A [смотрим]. При этом мы видим, что суммарный ПэйджРанк удвоился, с 3 (когда не было новых страниц) до 6. Кроме того, и ПэйджРанк страницы A также практически удвоился.
Одна-единственная вещь неправильна в нашей модели. Новые страницы — это «сироты». Они не могут попасть в индекс Гугла, и поэтому не могут добавить никакого ПэйджРанка сайту, и не могут передать никакой доли ПэйджРанка странице A. Каждая из них нуждается в том, чтобы получить ссылку хотя бы с одной из других страниц. Если страница A — это важная страница, то лучшая страница для размещения таких ссылок, это, конечно же, страница A [смотрим]. Вы можете сколь угодно долго развлекаться подбором вариантов расстановки ссылок, но, с «точки зрения» страницы A, она не считает себя самым лучшим местом для размещения ссылок.
Таким образом, постановка ссылок с одной страницы на большое количество страниц, в случае, если вы заводите сразу много новых страниц, не является хорошей идеей. В этом случае вы получаете распыление ПэйджРанка этой важной страницы. Высока вероятность, что на сайте присутствует более одной важной страницы, поэтому можно использовать простановку прямых и обратных ссылок между важными и новыми страницами. Вы можете воспользоваться калькулятором, чтобы испробовать несколько различных мини-моделей сайта с тем, чтобы найти лучшее размещение ссылок, которое обеспечивает наилучшие результаты с точки зрения уровня ПэйджРанка для важных страниц.
Заключение по примерам
Вы наглядно видите, что, благодаря организации внутренней ссылочной структуры сайта, возможно обеспечить передачу ПэйджРанка отдельным его страницам. Внутренние страницы сайта следует создавать с учетом перераспределения ПэйджРанка, но это работает лишь в том случае, когда Гугл знает об их существовании. Поэтому следует строить политику таким образом, чтобы роботы Гугла своевременно их индексировали.
Можно дать определенные примеры, но гораздо лучше почитать о них ниже, и немного побаловаться с моделями, опять же используя уже знакомый нам калькулятор.
Когда одна страница содержит множество ссылок на другую страницу, все ли ссылки учитываются?
Иными словами, если страница A однократно ссылается на страницу B и 3 раза на страницу C, получает ли страница C 3/4 доли делимого ПэйджРанка от страницы A?
Концепция ПэйджРанка заключается в том, что страница «отдает голос» за одну или более других страниц. В оригинальном документе от Гугла, описывающем ПэйджРанк, ничего не говорится о «голосовании» более чем одной ссылкой за одну страницу. Такая идея подрывает концепцию ПэйджРанка, и вполне определенно, если допустить, что она справедлива, открывает простор для манипуляций в области изменения пропорций передачи «голосов» для ряда страниц. Коль скоро вам нужна ссылка на не важную страницу, добавьте с нее несколько ссылок на важную страницу для минимизации негативного эффекта.
Поскольку нам не удалось получить от Гугла определенного ответа на эту тему, разумно предполагать, что страница может передать другой странице только один «голос», и что дополнительные «голоса», исходящие с одной страницы, не учитываются.
Когда страница ссылается сама на себя, учитывается ли такая ссылка?
Вернемся снова к основной концепции. Она заключается в том, что страница может «голосовать» за другие страницы. В оригинальном документе от Гугла ничего не сказано о том, что страницы могут отдавать свои «голоса» сами за себя. Поэтому такая идея противоречит концепции и, опять же, открывает простор для недобросовестных манипуляций результатами. По этим причинам, разумно считать, что страница не может голосовать сама за себя, и что такие ссылки не учитываются.
«Свисающие ссылки представляют собой такие ссылки, которые ведут на страницу, с которой нет ни одной выходящей ссылки. Они приносят ущерб модели, поскольку непонятно, каким образом перераспределяется их вес. А таких ссылок — великое множество. Часто эти свисающие ссылки ведут на страницы, которые мы никогда еще не загружали. Поскольку свисающие ссылки не влияют на оценку ПэйджРанка других страниц непосредственным образом, мы просто удаляем их из системы до тех пор, пока все расчеты ПэйджРанка не будут произведены. Когда же расчеты завершены, все величины ПэйджРанка известны, эти ссылки снова добавляются в базу и уже не влияют на порядок вещей существенным образом», — так звучит выдержка из оригинального документа о ПэйджРанке, написанного основателями Гугла Сергеем Брином и Лоренсом Пэйджем.
Итак, свисающая ссылка — это ссылка, ведущая на страницу, которая не имеет выходящих с нее ссылок, или ссылка на страницу, которую Гугл не индексирует. В обоих случаях, Гугл удаляет такую ссылку из базы сразу после начала процесса расчетов ПэйджРанка, и возвращает ее незадолго до того, как расчет заканчивается. Тогда влияние таких ссылок на результаты расчета ПэйджРанка минимально.
Возможно, в целях повышения функциональности конкретного сайта, можно проставлять ссылки на страницы, которые не имеют выходных ссылок, причем делать это без потерь ПэйджРанка, но это опасно с точки зрения снижения потенциального ПэйджРанка. Потенциальное значение для этого сайта составляет 5, поскольку он содержит 5 страниц, но без вовлечения страницы E, сайт достигает лишь значения 4.15.
А теперь проставим ссылку со страницы A на страницу E и нажмем Calculate. Отметим, что суммарное значение снижается весьма достоверно. Однако, поскольку новая ссылка является свисающей, и будет удалена из расчетов, мы можем пренебречь новым суммарным значением и считать предшествующее 4.15 правдой. Таково влияние полезных с точки зрения функциональности свисающих ссылок. Они не влекут за собой потери суммарного ПэйджРанка.
Однако, кое-что, тем не менее, теряется, поэтому поставим ссылку со страницы E назад на страницу A и нажмем Calculate. Теперь мы имеем максимальное значение ПэйджРанка, которое возможно для 5 страниц. Ничего не потеряно.
Несмотря на то, что с точки зрения удобства функционала неплохо ставить ссылки на страницы внутри сайта без их возврата, это опасно с точки зрения падения ПэйджРанка. Именно поэтому всегда следите за тем, чтобы каждая страница внутри сайта ссылалась по меньшей мере на одну страницу в пределах того же самого сайта.
Что такое PageRank? | SeoProfy.ua
PageRank или пейдж-ранк – один из алгоритмов ссылочного ранжирования в поисковой системе Google.
Этот показательно может быть от 0 до 10. На базе алгоритма ранжирования PageRank появился Гугл.
Если PageRank дать точное определение то:
PageRank — это числовая величина, характеризующая «важность» веб-страницы. Чем больше ссылок на страницу, тем она становится «важнее». Кроме того, «вес» страницы А определяется весом ссылки, передаваемой страницей B. Таким образом, PageRank — это метод вычисления веса страницы путём подсчёта важности ссылок на неё.
PageRank рассчитывается для каждой страницы, и если делать грамотную структуру сайта, его можно распределить равномерно или под нужные задачи по сайту.
Как можно проверить PageRank
Пейдж-ранк можно проверить с помощью разных сервисов или тулбаров в браузерах. Например, у сайта google.com PageRank 9, из 10.
Сервисы для проверки PR:
cy-pr.com
pr-cy.ru
и другие
Так де это можно сделать с помощью тулбаров, как:
seoquake.com
developing.ru/seobar
recipdonor.com/bar
Как было сказано ниже, PageRank влияет на ранжирование сайта, и если на продвигаемый сайт будут ссылаться множество ссылок с высоким пейдж-ранк, то это PR вашего сайта вырастет.
Основная формула, которая описывает PR:
Подробнее о формуле вы можете прочитать здесь http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf
Довольно таки обширную статью написал Александр Садовский, про растолкованный PageRank, статью читаем здесь
http://digits.ru/articles/promotion/pagerank.html
Книги по Google PageRank
— Google’s PageRank and Beyond: The Science of Search Engine Rankings
Данная книга с кучей формул, и для ее успешного чтения как минимум нужно хорошо знать математику
Часто задают такие вопросы
Как повысить PR сайта?
На самом деле есть много способов это сделать, самый простой и часто распространённый – это поставить ссылки с сайтов, на которых высокий PR, и когда поисковая система учтет ссылки, и сделает обновление алгоритма, он повысится на вашем сайте.
Когда и как часто обновляется PageRank?
Раньше PR обновлялся раз в 3-4 месяца, сейчас он обновляется по-разному, и нет четких интервалов, это может быть 1-3 раза в год.
Это обновление тулбарного (того что мы видим) пейдж-ранк, внутренний PR скорее всего обновляется чаще.
Влияет ли посещаемость сайта на PageRank?
Нет, не влияет. На PageRank влияет количество и качество ссылок, которые ссылаются на сайт.
PageRank – один из алгоритмов ранжирования поисковой системы Google. Чем выше он на вашем сайте, тем лучше.
Оцените статью
Загрузка…: столбец характеристик из AMS: PageRank
Размещено в декабре 2006 г.
Как мы увидим, хитрость состоит в том, чтобы попросить саму Интернет оценить важность страниц …
Дэвид Остин
Государственный университет Гранд-Вэлли,
, дэвид, merganser.math.gvsu.edu,
Представьте себе библиотеку, содержащую 25 миллиардов документов, но без централизованной организации и без библиотекарей. Кроме того, любой может добавить документ в любое время, никому не сообщая об этом.Вы можете быть уверены, что в одном из документов, содержащихся в коллекции, есть информация, которая жизненно важна для вас, и, будучи нетерпеливым, как и большинство из нас, вы хотели бы найти ее в считанные секунды. Как бы вы это сделали?
Поставленная таким образом проблема кажется невозможной. Тем не менее, это описание не слишком отличается от Всемирной паутины, огромной, очень неорганизованной коллекции документов во многих различных форматах. Конечно, все мы знакомы с поисковыми системами (возможно, вы нашли эту статью, используя одну из них), поэтому мы знаем, что есть решение.В этой статье будет описан алгоритм Google PageRank и то, как он возвращает страницы из коллекции, состоящей из 25 миллиардов документов, которые настолько хорошо соответствуют критериям поиска, что слово «google» стало широко используемым глаголом.
Большинство поисковых систем, включая Google, постоянно запускают целую армию компьютерных программ, которые извлекают страницы из Интернета, индексируют слова в каждом документе и сохраняют эту информацию в эффективном формате. Каждый раз, когда пользователь запрашивает поиск в сети, используя поисковую фразу, такую как «поисковая машина», поисковая машина определяет все страницы в сети, которые содержат слова из поисковой фразы.(Возможно, также будет указана дополнительная информация, такая как расстояние между словами «поиск» и «двигатель».) Вот проблема: теперь Google утверждает, что индексирует 25 миллиардов страниц. Примерно 95% текста на веб-страницах состоит из 10 000 слов. Это означает, что для большинства поисковых запросов будет огромное количество страниц, содержащих слова из поисковой фразы. Что необходимо, так это средство ранжирования важности страниц, которые соответствуют критериям поиска, чтобы страницы можно было отсортировать так, чтобы самые важные страницы находились в верхней части списка.
Один из способов определить важность страниц — использовать рейтинг, созданный человеком. Например, вы могли видеть страницы, которые состоят в основном из большого количества ссылок на другие ресурсы в определенной интересующей области. Если предположить, что человек, обслуживающий эту страницу, надежен, упомянутые страницы могут оказаться полезными. Конечно, список может быстро устареть, и человек, ведущий список, может пропустить некоторые важные страницы либо непреднамеренно, либо в результате неустановленной предвзятости.
Алгоритм Google PageRank оценивает важность веб-страниц без человеческой оценки содержания. Фактически, Google считает, что ценность его сервиса в значительной степени заключается в его способности предоставлять объективные результаты по поисковым запросам; Google утверждает, что «сердце нашего программного обеспечения — это PageRank». Как мы увидим, хитрость заключается в том, чтобы попросить сам Интернет оценить важность страниц.
Как узнать, кто важен
Если вы когда-либо создавали веб-страницу, вы, вероятно, включали ссылки на другие страницы, содержащие ценную и надежную информацию.Тем самым вы подтверждаете важность страниц, на которые вы ссылаетесь. Алгоритм Google PageRank проводит ежемесячный конкурс популярности среди всех страниц в Интернете, чтобы решить, какие страницы являются наиболее важными. Фундаментальная идея, выдвинутая создателями PageRank, Сергеем Брином и Лоуренсом Пейджем, заключается в следующем: важность страницы оценивается по количеству страниц, ссылающихся на нее, а также по их важности.
Мы присвоим каждой веб-странице P меру ее важности I (P) , называемую PageRank страницы.На разных сайтах вы можете найти приблизительный рейтинг страницы. (Например, домашняя страница Американского математического общества в настоящее время имеет рейтинг страницы 8 по шкале 10. Можете ли вы найти страницы с рейтингом страницы 10?) Это указанное значение является лишь приблизительным, поскольку Google отказывается публиковать фактические рейтинги страниц. в попытке помешать тем, кто будет манипулировать рейтингом.
Вот как определяется рейтинг PageRank. Предположим, что страница P j имеет l j ссылок.Если одна из этих ссылок ведет на страницу P i , то P j перейдет на 1/ l j своей важности к P i . Тогда рейтинг важности P i представляет собой сумму всех вкладов, сделанных страницами, ссылающимися на него. То есть, если обозначить набор страниц, ссылающихся на P i , через B i , то
Это может напоминать вам курицу и яйцо: чтобы определить важность страницы, нам сначала нужно знать важность всех страниц, ссылающихся на нее.Однако мы можем преобразовать задачу в более знакомую с математической точки зрения.
Давайте сначала создадим матрицу, называемую матрицей гиперссылок, в которой запись в строке i th и столбце j th равна
Обратите внимание, что H имеет некоторые особые свойства. Во-первых, все его записи неотрицательны. Кроме того, сумма записей в столбце равна единице, если на странице, соответствующей этому столбцу, нет ссылок.Матрицы, в которых все записи неотрицательны и сумма записей в каждом столбце равна единице, называются стохастическими ; они сыграют важную роль в нашей истории.
Мы также сформируем вектор, компонентами которого являются PageRank — то есть рейтинг важности — всех страниц. Условие, указанное выше для определения PageRank, может быть выражено как
.Другими словами, вектор I является собственным вектором матрицы H с собственным значением 1.Мы также называем это стационарным вектором из H .
Рассмотрим пример. Ниже показано представление небольшой коллекции (восемь) веб-страниц со ссылками, представленными стрелками.
Соответствующая матрица —
со стационарным вектором |
Это показывает, что страница 8 выигрывает конкурс популярности.Вот тот же рисунок с веб-страницами, закрашенными таким образом, что страницы с более высоким PageRank светлее.
Вычислительная техника
IЕсть много способов найти собственные векторы квадратной матрицы. Однако перед нами стоит особая задача, поскольку матрица H представляет собой квадратную матрицу с одним столбцом для каждой веб-страницы, проиндексированной Google. Это означает, что H имеет около n = 25 миллиардов столбцов и строк.Однако большинство записей в H нулевые; Фактически, исследования показывают, что веб-страницы содержат в среднем около 10 ссылок, а это означает, что в среднем все, кроме 10 записей в каждом столбце, равны нулю. Мы выберем метод, известный как метод мощности для нахождения стационарного вектора I матрицы H .
Как работает силовой метод? Мы начинаем с выбора вектора I 0 в качестве кандидата на I , а затем создаем последовательность векторов I k на
.Метод основан на следующем общем принципе, который мы скоро исследуем.
Общий принцип: Последовательность I k сходится к стационарному вектору I . |
Мы проиллюстрируем это на примере выше.
I 0 | I 1 | I 2 | I 3 | I 4 | … | Я 60 | Я 61 |
1 | 0 | 0 | 0 | 0,0278 | … | 0,06 | 0,06 |
0 | 0,5 | 0,25 | 0,1667 | 0,0833 | … | 0,0675 | 0,0675 |
0 | 0,5 | 0 | 0 | 0 | … | 0,03 | 0,03 |
0 | 0 | 0,5 | 0,25 | 0,1667 | … | 0,0675 | 0,0675 |
0 | 0 | 0.25 | 0,1667 | 0,1111 | … | 0,0975 | 0,0975 |
0 | 0 | 0 | 0,25 | 0,1806 | … | 0,2025 | 0,2025 |
0 | 0 | 0 | 0,0833 | 0.0972 | … | 0,18 | 0,18 |
0 | 0 | 0 | 0,0833 | 0,3333 | … | 0,295 | 0,295 |
Естественно спросить, что означают эти числа. Конечно, не может быть абсолютной меры важности страницы, только относительные меры для сравнения важности двух страниц с помощью таких утверждений, как «Страница A вдвое важнее, чем страница B.«По этой причине мы можем умножить все рейтинги важности на некоторую фиксированную величину, не влияя на информацию, которую они нам сообщают. Таким образом, мы всегда будем предполагать, по причинам, которые будут объяснены вкратце, что сумма всех популярностей равна единице.
Три важных вопроса
На ум приходят три вопроса:
- Всегда ли сходится последовательность I k ?
- Независимо ли вектор, к которому он сходится, от исходного вектора I 0 ?
- Содержит ли рейтинг важности ту информацию, которую мы хотим?
Учитывая текущий метод, ответ на все три вопроса — «Нет!» Однако мы увидим, как изменить наш метод, чтобы мы могли ответить «да» на все три.
Давайте сначала рассмотрим очень простой пример. Рассмотрим следующую небольшую сеть, состоящую из двух веб-страниц, одна из которых ссылается на другую:
с матрицей |
Вот один из способов, которым мог бы работать наш алгоритм:
I 0 | I 1 | I 2 | I 3 = I |
1 | 0 | 0 | 0 |
0 | 1 | 0 | 0 |
В этом случае рейтинг важности обеих страниц равен нулю, что ничего не говорит нам об относительной важности этих страниц.Проблема в том, что P 2 не имеет ссылок. Следовательно, он принимает некоторую важность со страницы P 1 на каждом итеративном шаге, но не передает это на какую-либо другую страницу. Это приводит к потере всей важности Интернета. Страницы без ссылок называются висячими узлами , и, конечно же, многие из них есть в реальной сети, которую мы хотим изучить. Мы посмотрим, как с ними справиться через минуту, но сначала давайте по-новому взглянем на матрицу H и стационарный вектор I .
Вероятностная интерпретация
HПредставьте, что мы просматриваем Интернет наугад; то есть, когда мы оказываемся на веб-странице, мы случайным образом переходим по одной из ее ссылок на другую страницу через одну секунду. Например, если мы находимся на странице P j с l j ссылками, одна из которых переводит нас на страницу P i , вероятность того, что в следующий раз мы остановимся на P i стр.
Поскольку мы просматриваем страницы случайным образом, мы будем обозначать долю времени, которую мы проводим на странице P j .Тогда доля времени, в течение которого мы оказываемся на странице P i , происходит из P j , составляет. Если мы попадаем на P i , значит, мы пришли со страницы со ссылкой на него. Это означает, что
, где сумма указана по всем страницам P j со ссылкой на P i . Обратите внимание, что это то же уравнение, определяющее рейтинг PageRank и так далее. Это позволяет нам интерпретировать PageRank веб-страницы как долю времени, которую случайный пользователь проводит на этой веб-странице.Это может иметь смысл, если вы когда-либо искали информацию по теме, с которой вы были незнакомы: если вы какое-то время переходите по ссылкам, вы обнаруживаете, что возвращаетесь на одни страницы чаще, чем на другие. Так же, как «Все дороги ведут в Рим», это, как правило, более важные страницы.
Обратите внимание, что при такой интерпретации естественно потребовать, чтобы сумма записей в векторе PageRank I была равна единице.
Конечно, в этом описании есть сложность: если мы будем перемещаться по страницам случайным образом, в какой-то момент мы обязательно застрянем на висящем узле, странице без ссылок.Чтобы продолжить, мы выберем следующую страницу случайным образом; то есть мы делаем вид, что висящий узел имеет ссылку на любую другую страницу. Это приводит к изменению матрицы гиперссылок H путем замены столбца нулей, соответствующего висячему узлу, на столбец, в котором каждая запись составляет 1/ n . Мы называем эту новую матрицу S .
В нашем предыдущем примере у нас теперь
с матрицей | и собственный вектор |
Другими словами, страница P 2 имеет вдвое большую важность, чем страница P 1 , что может показаться вам подходящим.
Матрица S имеет то приятное свойство, что записи неотрицательны и сумма записей в каждом столбце равна единице. Другими словами, это стохастический. У стохастических матриц есть несколько свойств, которые нам пригодятся. Например, стохастические матрицы всегда имеют стационарные векторы.
В дальнейшем отметим, что S получается из H простым способом. Если A — это матрица, все элементы которой равны нулю, за исключением столбцов, соответствующих висячим узлам, в которых каждая запись равна 1/ n , тогда S = H + A .
Как работает силовой метод?
В общем, степенной метод — это метод нахождения собственного вектора квадратной матрицы, соответствующего собственному значению с наибольшей величиной. В нашем случае мы ищем собственный вектор S , соответствующий собственному значению 1. При лучших обстоятельствах, которые будут описаны в ближайшее время, другие собственные значения S будут иметь величину меньше единицы; то есть if — собственное значение S , отличное от 1.
Предположим, что собственные значения S равны, а
Мы также предположим, что существует базис v j собственных векторов для S с соответствующими собственными значениями. Это предположение не обязательно верно, но с его помощью мы сможем более легко проиллюстрировать, как работает степенной метод. Мы можем записать наш начальный вектор I 0 как
Затем
Поскольку собственные значения с имеют величину меньше единицы, отсюда следует, что if и, следовательно, собственный вектор, соответствующий собственному значению 1.
Здесь важно отметить, что курс, по которому определяется. Когда относительно близко к 0, то относительно быстро. Например, рассмотрим матрицу
Собственные значения этой матрицы: и. На рисунке ниже мы видим векторы I k , показанные красным, сходящиеся к стационарному вектору I , показанному зеленым.
Теперь рассмотрим матрицу
Здесь собственные значения и.Обратите внимание, как векторы I k медленнее сходятся к стационарному вектору I в этом примере, в котором второе собственное значение имеет большую величину.
Когда что-то идет не так
В нашем обсуждении выше мы предположили, что матрица S обладает свойством, что и. Однако это не всегда происходит с матрицами S , которые мы можем найти.
Предположим, наша сеть выглядит так:
В данном случае матрица S будет
Тогда мы видим
I 0 | I 1 | I 2 | I 3 | I 4 | I 5 |
1 | 0 | 0 | 0 | 0 | 1 |
0 | 1 | 0 | 0 | 0 | 0 |
0 | 0 | 1 | 0 | 0 | 0 |
0 | 0 | 0 | 1 | 0 | 0 |
0 | 0 | 0 | 0 | 1 | 0 |
В этом случае последовательность векторов I k не может сходиться.Почему это? Второе собственное значение матрицы S удовлетворяет, и поэтому аргумент, который мы привели в обоснование степенного метода, больше не работает.
Чтобы гарантировать это, нам нужно, чтобы матрица S была примитивной . Это означает, что для некоторых м , S м имеет все положительные записи. Другими словами, если нам даны две страницы, можно перейти с первой страницы на вторую, пройдя м ссылок.Ясно, что наш последний пример не удовлетворяет этому свойству. Через мгновение мы увидим, как изменить нашу матрицу S , чтобы получить примитивную стохастическую матрицу, которая, следовательно, удовлетворяет.
Вот еще один пример, показывающий, как наш метод может дать сбой. Рассмотрим сеть, показанную ниже.
В данном случае матрица S будет
со стационарным вектором |
Обратите внимание, что рейтинг страницы, присвоенный первым четырем веб-страницам, равен нулю.Однако это кажется неправильным: на каждой из этих страниц есть ссылки, которые идут на них с других страниц. Понятно, что эти страницы кому-то нравятся! В общем, мы хотим, чтобы рейтинг важности всех страниц был положительным. Проблема с этим примером заключается в том, что внутри него есть меньшая паутина, показанная в синем поле ниже.
Ссылки входят в этот ящик, но ни одна не гаснет. Как и в примере с висячим узлом, который мы обсуждали выше, эти страницы образуют «приемник важности», который снижает важность других четырех страниц.Это происходит, когда матрица S является сокращаемой ; то есть S можно записать в блочной форме как
Действительно, если матрица S неприводима, мы можем гарантировать, что существует стационарный вектор со всеми положительными элементами.
Сеть называется прочно связной , если для любых двух страниц существует способ перехода по ссылкам с первой страницы на вторую. Ясно, что наш последний пример не сильно связан.Однако сильно связные ткани дают неприводимые матрицы S .
Подводя итог, матрица S является стохастической, что означает, что она имеет стационарный вектор. Однако нам нужно, чтобы S также был (а) примитивным, чтобы и (б) неприводимым, чтобы стационарный вектор имел все положительные элементы.
Окончательная модификация
Чтобы найти новую матрицу, которая была бы одновременно примитивной и неприводимой, мы изменим способ, которым наш случайный пользователь перемещается по сети.В настоящее время движение нашего случайного пользователя определяется S : либо он перейдет по одной из ссылок на своей текущей странице, либо, если он находится на странице без ссылок, случайным образом выберет любую другую страницу для перехода. Чтобы внести наши изменения, мы сначала выберем параметр от 0 до 1. Теперь предположим, что наш случайный серфер двигается немного по-другому. С вероятностью ориентируется на S . С вероятностью он выбирает следующую страницу наугад.
Если мы обозначим 1 матрицу, все элементы которой равны единице, мы получим матрицу Google :
Обратите внимание, что G является стохастическим, поскольку представляет собой комбинацию стохастических матриц.Кроме того, все записи G положительны, что означает, что G является одновременно примитивным и несократимым. Следовательно, G имеет уникальный стационарный вектор I , который можно найти с помощью метода мощности.
Параметр играет важную роль. Обратите внимание, что если, то G = S . Это означает, что мы работаем с исходной структурой гиперссылок в сети. Однако если, то. Другими словами, рассматриваемая нами сеть имеет связь между любыми двумя страницами, и мы потеряли исходную структуру гиперссылок сети.Ясно, что мы хотели бы взять значение, близкое к 1, чтобы структура гиперссылок в сети сильно влияла на вычисления.
Однако есть еще одно соображение. Помните, что скорость сходимости степенного метода определяется величиной второго собственного значения. Для матрицы Google было доказано, что величина второго собственного значения. Это означает, что когда оно близко к 1, сходимость метода мощности будет очень медленной. В качестве компромисса между этими двумя конкурирующими интересами выбрали Сербей Брин и Ларри Пейдж, создатели PageRank.
Вычислительная техника
IТо, что мы описали до сих пор, выглядит хорошей теорией, но помните, что нам нужно применить ее к матрицам, где n составляет около 25 миллиардов! На самом деле силовой метод особенно хорошо подходит для этой ситуации.
Помните, что стохастическая матрица S может быть записана как
и, следовательно, матрица Google имеет вид
.Следовательно,
Теперь вспомните, что большинство записей в H нулевые; в среднем только десять записей в столбце ненулевые.Следовательно, для вычисления H I k требуется только десять ненулевых членов для каждой записи в результирующем векторе. Кроме того, все строки A идентичны, как и строки 1 . Следовательно, оценка A I k и 1 I k сводится к добавлению текущего ранжирования важности «висячих» узлов или всех веб-страниц. Это нужно сделать только один раз.
При выбранном значении около 0.85, Брин и Пейдж сообщают, что для получения достаточно хорошего приближения к – требуется 50–100 итераций. Сообщается, что расчет займет несколько дней.
Конечно, Интернет постоянно меняется. Во-первых, содержание веб-страниц, особенно для новостных организаций, может часто меняться. Кроме того, основная структура гиперссылок сети изменяется по мере добавления или удаления страниц и добавления или удаления ссылок. Ходят слухи, что Google пересчитывает вектор PageRank I примерно каждый месяц.Поскольку в это время можно наблюдать, что PageRank страниц значительно колеблется, некоторым он известен как «танец Google». (В 2002 году Google проводил Google Dance!)
Сводка
Брин и Пейдж представили Google в 1998 году, когда скорость, с которой Интернет росла, стала опережать способность существующих поисковых систем выдавать полезные результаты. В то время большинство поисковых систем было разработано компаниями, которые не были заинтересованы в публикации подробностей о том, как работают их продукты.Разрабатывая Google, Брин и Пейдж хотели «способствовать развитию и пониманию в академической сфере». То есть они надеялись, прежде всего, улучшить дизайн поисковых систем, переместив их в более открытую академическую среду. Вдобавок они посчитали, что статистика использования их поисковой системы предоставит интересный набор данных для исследования. Похоже, что федеральное правительство, которое недавно пыталось получить некоторые статистические данные Google, считает то же самое.
Существуют и другие алгоритмы, которые используют структуру гиперссылок в сети для ранжирования важности веб-страниц.Одним из ярких примеров является алгоритм HITS, созданный Джоном Кляйнбергом, который составляет основу поисковой системы Teoma. Фактически, интересно сравнить результаты поиска, отправленные в разные поисковые системы, чтобы понять, почему некоторые жалуются на политику Google.
Список литературы
- Майкл Берри, Мюррей Браун , Понимание поисковых систем: математическое моделирование и поиск текста. Второе издание, SIAM, Филадельфия.2005.
- Сергей Брин, Лоуренс Пейдж , Антаомия крупномасштабной гипертекстовой поисковой машины в Интернете, Computer Networks and ISDN Systems , 33 : 107-17, 1998. Также доступно в Интернете по адресу http: //infolab.stanford .edu / pub / paper / google.pdf
- Курт Брайан, Таня Лейз , Собственный вектор стоимостью 25 000 000 000 долларов. Линейная алгебра, лежащая в основе Google. Обзор SIAM , 48 (3), 569-81. 2006. Также доступно по адресу http: //www.rose-hulman.edu / ~ bryan / google.html
- Корпоративная информация Google: технологии.
- Тахер Хавеливала, Сепандар Камвар , Второе собственное значение матрицы Google.
- Эми Лэнгвилл, Карл Мейер, Google PageRank и за его пределами: наука о рейтинге в поисковых системах. Princeton University Press, 2006.
Это информативная, доступная книга, написанная в увлекательном стиле. Помимо предоставления соответствующей математической основы и деталей PageRank и его реализации (а также алгоритма HITS Кляйнберга), эта книга содержит много интересных «отступлений», которые дают мелочи, проливающие свет на контекст разработки поисковых систем.
Дэвид Остин
Государственный университет Гранд-Вэлли,
, дэвид, merganser.math.gvsu.edu,
ПРИМЕЧАНИЕ: Те, кто имеет доступ к JSTOR, могут найти там некоторые из упомянутых выше документов. Для тех, у кого есть доступ, MathSciNet Американского математического общества может быть использован для получения дополнительной библиографической информации и обзоров некоторых этих материалов. К некоторым из вышеперечисленных элементов можно получить доступ через портал ACM, который также предоставляет библиографические услуги.
Google’s PageRank и не только | Издательство Принстонского университета
Почему ваша главная страница не появляется на первой странице результатов поиска, даже если вы запрашиваете свое собственное имя? Как другие веб-страницы всегда отображаются вверху? Что создает эти сильные рейтинги? И как? Первая книга о науке о ранжировании веб-страниц, Google’s PageRank and Beyond , дает ответы на эти и другие вопросы, а также на многие другие.
Книга предназначена для двух очень разных аудиторий: любознательных читателей и тех, кто занимается техническими вычислениями.Главы построены на математической сложности, так что первые пять доступны для широкого академического читателя. В то время как другие главы носят более математический характер, в каждой есть что-то для обеих аудиторий. Например, авторы включают занимательные моменты, например, как поисковые системы зарабатывают деньги и как Великий китайский файрвол влияет на исследования.
Книга включает обширную справочную главу, призванную помочь читателям больше узнать о математике поисковых систем, а также несколько кодов MATLAB и ссылки на образцы наборов веб-данных.Вся философия заключается в том, чтобы побудить читателей экспериментировать с идеями и алгоритмами в тексте.
Любой бизнес, серьезно заинтересованный в повышении своего рейтинга в основных поисковых системах, может извлечь выгоду из ясных примеров, примеров кода и списка предоставленных ресурсов.
- Множество иллюстративных примеров и занимательных сторон
- Код MATLAB
- Доступный и неформальный стиль
- Полный и автономный раздел для обзора математики
Награды и признание
- Почетная награда 2006 года за лучшую профессиональную / научную книгу в области компьютерных и информационных наук, Ассоциация американских издателей
«[F] или всем, кто хочет глубоко вникнуть в то, как работает Google PageRank, я рекомендую Google’s PageRank и выше . — Стивен Х. Вильдстрем, BusinessWeek
«Это стоящая книга. Она предлагает исчерпывающее и эрудированное представление о PageRank и связанных с ней алгоритмах поисковых систем, и она написана в доступной форме, учитывая задействованные математические основы». —Джонатан Боуэн, Приложение Times для высшего образования
«Эта книга должна быть в верхней части любого списка как обязательная к прочтению для тех, кто интересуется принципами работы поисковых систем и, в частности, тем, как Google может удовлетворить потребности стольких людей во многих отношениях.« — Майкл У. Берри, SIAM Review
«Эми Н. Лэнгвилл и Карл Д. Мейер исследуют логику, математику и изощренность Google PageRank и других программ ранжирования поисковых систем в Интернете … Это отличная работа». — Ян Д. Гордон, Библиотечный журнал
«Если бы я читал или преподавал курс линейной алгебры сегодня, эта книга была бы находкой». — Эд Герстнер, Nature Physics
«Лэнгвилл и Мейер представляют математику во всех ее деталях.. . . Но они меняют математику, обсуждая многие вопросы, связанные с созданием поисковых систем, «войны» между разработчиками поисковых систем и теми, кто пытается искусственно раздувать позиции своих страниц, и будущее развития поисковых систем. . . . Google PageRank and Beyond полезен всем, студентам или профессионалам, которые хотят разбираться в деталях поисковых систем ». — Джеймс Хендлер, Physics Today
«Эта книга написана для людей, интересующихся новой наукой и технологиями, а также для тех, кто имеет более продвинутый опыт в теории матриц…. Большая часть книги может быть легко прочитана обычными читателями, в то время как для понимания оставшейся части требуется только хороший первый курс линейной алгебры. Это может быть справочник для людей, которые хотят узнать больше об идеях, лежащих в основе популярных в настоящее время поисковых систем, а также вводный текст для начинающих исследователей в области поиска информации ». —Jiu Ding, Mathemathical Reviews
«Книга написана очень красиво и четко.Авторам удается оптимальным образом организовать представление как основных, так и более сложных концепций, задействованных в анализе рейтинга страниц Google, так что книга обслуживает обе аудитории: широкую и техническую научную публику ». — Константин Попа, Zentralblatt МАТЕМАТИКА
«Рецензируемая книга прекрасно написана, в свежем и увлекательном стиле. Читателю особенно понравятся« Отрывки », разбросанные по всему тексту. Они содержат всевозможные занимательные рассказы, практические советы и забавные цитаты.. . . Книга также содержит некоторые полезные ресурсы для вычислений ». — Пабло Фернандес, Mathematical Intelligencer
« Google PageRank and Beyond описывает инструмент анализа ссылок, называемый PageRank, помещает его в контекст поисковых систем и поиска информации, а также описывает конкурирующие методы ранжирования веб-страниц. Это чрезвычайно увлекательная книга.» —Билл Сацер, MathDL.maa.org
«Подробно и интересно написано.Эта книга должна стать важным ресурсом для многих аудиторий: прикладных математиков, профессионалов поисковой индустрии и всех, кто хочет узнать больше о том, как работают поисковые системы », — Джон Кляйнберг, Корнельский университет
«Я не думаю, что в печати есть какие-либо конкурентоспособные книги с такой же глубиной и широтой по теме ранжирования в поисковых системах. Содержание хорошо организовано и хорошо написано.» — Майкл Берри, Университет Теннесси
Алгоритм рейтинга страниц в Google | SoftwarePundit
PageRank был разработан в Стэнфордском университете основателями Google Сергеем Брином и Ларри Пейджем.Он основан на идее, что качество веб-страницы может определяться другими веб-страницами, которые ссылаются на нее.
Google использовал PageRank для определения рейтинга страниц в результатах поиска. Когда Google стал доминирующей поисковой системой, это вызвало огромный спрос на обратные ссылки.
Если вы работали в области SEO, вы почти наверняка слышали о PageRank. Вы также можете быть сбиты с толку относительно того, что именно означает PageRank и как он рассчитывается. Чтобы ответить на эти вопросы, мы определили PageRank ниже, а также то, как он рассчитывается и как он менялся с течением времени.
Содержание
Что такое PageRank?
PageRank — это первый алгоритм, который использовался Google для ранжирования веб-страниц на страницах результатов поисковой системы (SERP). Согласно Google, алгоритм был назван в честь соучредителя Google Ларри Пейджа.
В оригинальной статье о PageRank концепция была определена как «метод вычисления рейтинга каждой веб-страницы на основе веб-графика. PageRank — это попытка увидеть, насколько хорошее приближение к важности может быть получено только из ссылочная структура.«
PageRank был дополнительно определен Сергеем Брином и Ларри Пейджем в статье, посвященной поисковой системе Google. В документе PageRank описывается как «объективная мера важности цитирования, которая хорошо согласуется с субъективным представлением людей о важности. Из-за этого соответствия PageRank является отличным способом приоритизировать результаты поиска по ключевым словам в Интернете». Другими словами, «анализ структуры ссылок с помощью PageRank позволяет Google оценивать качество веб-страниц».
Как Google рассчитывает PageRank?
В основополагающем документе Google резюмируется расчет PageRank:
Мы предполагаем, что на странице A есть страницы T1…Tn, которые указывают на него (т.е. являются цитатами). Параметр d представляет собой коэффициент демпфирования, который может быть установлен от 0 до 1. Обычно мы устанавливаем d равным 0,85. Более подробная информация о d содержится в следующем разделе. Также C (A) определяется как количество ссылок, выходящих со страницы A. PageRank страницы A определяется следующим образом:
PR (A) = (1-d) + d (PR (T1) / C (T1) + … + PR (Tn) / C (Tn))
Обратите внимание, что PageRank формирует распределение вероятностей по веб-страницам, поэтому сумма PageRank всех веб-страниц будет равна единице.
PageRank или PR (A) может быть рассчитан с использованием простого итеративного алгоритма и соответствует главному собственному вектору нормализованной матрицы ссылок в сети. Кроме того, рейтинг PageRank для 26 миллионов веб-страниц можно вычислить за несколько часов на рабочей станции среднего размера. Есть много других деталей, которые выходят за рамки данной статьи.
Эта формула вычисляет PageRank для страницы путем суммирования процента от значения PageRank всех страниц, которые ссылаются на нее.Следовательно, обратные ссылки со страниц с более высоким PageRank имеют большую ценность. Кроме того, страницы с большим количеством исходящих ссылок передают меньшую часть своего PageRank каждой связанной веб-странице.
Согласно этой формуле на PageRank страницы влияют три основных фактора:
- Количество страниц со ссылками на него
- PageRank страниц, которые ссылаются на него
- Количество исходящих ссылок на каждой из страниц, которые ссылаются на нее
Простой пример: расчет PageRank для трех страниц
Приведенная выше формула может показаться устрашающей, но она относительно проста.Для демонстрации давайте посчитаем PageRank для Интернета с тремя веб-страницами.
В приведенном выше примере веб-страница A имеет обратную ссылку, которая указывает на веб-страницу B и веб-страницу C. Веб-страница B имеет обратную ссылку, которая указывает на веб-страницу C, а веб-страница C не имеет исходящих ссылок. Исходя из этого, мы уже знаем, что у A будет самый низкий PageRank, а у C — самый высокий PageRank.
Важно помнить, что формула PageRank является итеративной. Это связано с тем, что PageRank каждой страницы зависит от PageRank страниц, указывающих на нее.Каждый раз, когда выполняется расчет, вы приближаетесь к окончательному ответу.
Вот формулы PageRank и результаты для первой итерации при d = 0,85:
- Страница A: (1 — 0,85) = 0,15
- Страница B: (1–0,85) + (0,85) * (0,15 / 2) = 0,213745
- Страница C: (1 — 0,85) + (0,85) * (0,15 / 2) + (0,85) * (0,21375 / 1) = 0,3954375
Это только первая итерация расчета. Чтобы получить окончательный PageRank каждой страницы, расчет необходимо повторять до тех пор, пока средний PageRank для всех страниц не станет равным 1.0.
История PageRank
Google была не первой компанией, которая использовала анализ ссылок для определения рейтинга веб-сайтов в результатах поиска. Робин Ли, который позже основал Baidu, разработал алгоритм Rankdex в 1996 году. Патент Ли в США был подан за год до аналогичного патента Google.
Ларри Пейдж и Сергей Брин начали разработку PageRank в 1996 году в Стэнфордском университете. Среди других разработчиков, участвовавших в проекте, были Скотт Хассан, Раджив Мотвани, Алан Стеремберг и Терри Виноград.Патент на PageRank был подан 10 января 1997 года. Стэнфорд поделился исключительными лицензионными правами на этот патент с Google на 1,8 миллиона акций, которые он продал в 2005 году. По состоянию на 24 сентября 2019 года срок действия PageRank и всех связанных патентов истек.
На первых порах Google публично отображал рейтинг PageRank в своих продуктах. В 2000 году Google выпустила панель инструментов Google. Этот плагин имел несколько функций, в том числе возможность поиска в Интернете, создание закладок на страницах и доступ к учетным записям Google.
Первая панель инструментов также позволяла любому видеть рейтинг PageRank для любой просматриваемой веб-страницы. Как показано ниже, плагин выдал оценку по логарифмической шкале от 0 до 10 для каждой страницы. Данные PageRank были доступны на панели инструментов до 2016 года.
В 2000 году Google также начал публично публиковать данные PageRank в каталоге Google. Каталог Google представляет собой список лучших веб-сайтов, организованный по категориям и отсортированный по PageRank. В конечном итоге Google закрыл этот продукт в 2011 году.
Несмотря на закрытие публичного доступа к оценкам PageRank, Google продолжал использовать PageRank для ранжирования в поиске. Со временем компания обновила алгоритм PageRank. Google также обновил алгоритм поиска, связанный с PageRank — например, чтобы противодействовать практике формирования PageRank в 2008 году.
В 2017 году Гэри Иллис подтвердил, что все еще использует PageRank в качестве сигнала. Однако эта информация оспаривается. Бывший инженер Google Джонатан Танг пояснил, что Google заменил версию PageRank, разработанную в Стэнфорде «в 2006 году, алгоритмом, который дает примерно такие же результаты, но значительно быстрее вычисляется.«
Поскольку Google прекратил публично публиковать информацию о PageRank, практически невозможно точно знать, как алгоритм используется сегодня и как он изменялся с течением времени. Однако основная идея PageRank — то, что граф ссылок в Интернете может использоваться для определения качества отдельных веб-страниц — остается очень влиятельной. Обратные и внутренние ссылки по-прежнему имеют решающее значение для эффективности SEO.
В уме PageRank
1 О чем мечтает Google [1]? Как компания, которая лучше всего символизирует наиболее передовую форму когнитивного капитализма, представляет Интернет и как она хочет, чтобы он выглядел? Насколько большое значение мы должны придавать словам смелых молодых предпринимателей, выходящих на финансовые рынки, утверждающих, что они хотят «, чтобы сделать мир лучше »? В этой статье я утверждаю, что для ответа на этот вопрос мы должны углубиться в вычислительную архитектуру PageRank, алгоритма, который приносит состояние Google и может считаться его жемчужиной в короне.PageRank — это моральная машина: она охватывает систему ценностей, основанную на выделении тех, кого другие считают достойными этого, и реализует стремление сделать Интернет пространством, в котором обмен заслугами не затруднен и не деформирован. Однако дух, вдохновляющий PageRank, настолько тесно связан со многими другими соображениями, интересами и проблемами, что его эхо стало практически неслышным. Дебаты вокруг компании Google задушили PageRank. Это исследование направлено на то, чтобы понять, что Google сделал с Интернетом и с Интернетом, возродив принципы, лежащие в основе его алгоритма и определяющие поведение, решения и стратегический выбор фирмы в Маунтин-Вью.То, как Google установил собственный порядок в Интернете, можно понять, изучив процедуры алгоритма, его режим работы, его решения, его табу и весь аппарат, который он построил для кодификации поведения пользователей Интернета. Это также проливает свет на то, как под влиянием недавних преобразований Интернета другие принципы сортировки данных ослабили дух PageRank.
2До Google Интернет был огромной лотереей. Ответы на запросы пользователей Интернета были опасными, часто вымышленными, массово сфальсифицированными и иногда актуальными.Первые поисковые системы работали с ключевыми словами и измеряли плотность присутствия поискового запроса на различных веб-страницах. В 1990 году пионеры Арчи и Вероника проиндексировали только заголовок документа, прежде чем в 1994 году WebCrawler Брэйна Пинкертона начал учитывать полный текст страницы. Инновационная поисковая машина AltaVista, разработанная Луи Монье для DEC, была первой, кто попытался индексировать всю сеть. Когда он открылся для публики в декабре 1995 года, он был менее неуклюжим, чем другие, при выборе из 16 миллионов документов (Batelle, 2005: 40).Пока молодой исследователь из Корнельского университета Джон Клейнберг не предложил его IBM в 1996 году, никому и в голову не приходило обращать внимание на структуру гипертекстовых ссылок, а не на семантический анализ страниц. Однако в 1998 году многие искали эффективное решение для улучшения поисковых систем, поскольку их качество постоянно ухудшалось по мере роста количества страниц. Это позволяло очень легко обмануть лексические алгоритмы. Веб-мастерам просто нужно было несколько раз скопировать наиболее популярные слова белым цветом на белом фоне, чтобы улучшить видимость своего сайта.Чтобы выйти из тупика лексических исследований, потребовалась революция в дизайне алгоритмов. И, наконец, его выпустили на рынок два студента Стэнфорда, Сергей Брин и Ларри Пейдж (1998). Но этот прорыв был обусловлен глубоко укоренившейся интуицией, берущей начало в духе, который способствовал созданию сети сетей: той, которая стремилась воспользоваться реляционной структурой страниц, которые удерживаются вместе гипертекстовыми ссылками, для извлечения порядок, основанный на значении взаимодействий между пользователями Интернета, которые публикуют в Интернете.
3 История создания Google, которая предоставила все возможные коды для создания мифа о Кремниевой долине, больше не нуждается в описании (Levy, 2011). Следовательно, мое внимание здесь сосредоточено на том, как дизайн PageRank был прочно связан с определенным представлением Интернета, что оказывает структурирующее влияние на экосистему, в настоящее время сформированную Интернетом и его доминирующей поисковой системой. Основополагающая интуиция, которая привела к рождению Google, рассматривает входящую ссылку (а не исходящую ссылку , как это делала тогда Lycos) как поддержку всех операций по классификации Интернет-сайтов.Но лежащий в основе принцип не нов и уходит корнями в две разные традиции: социометрия, которая должна была объединить психологию и математику графиков вокруг свойств сетевой формы, и наукометрия, которая должна была применить знания библиотечного дела к оценке. научной деятельности. Хотя эти две традиции не слишком сильно соприкасались, они сходились по крайней мере в одном пункте, который оказался решающим для PageRank: определение показателей, которые будут использоваться для описания реляционных форм социального.Независимо от того, основано ли оно на влиянии в социометрии или на цитировании в наукометрии, произошел сдвиг, поскольку анализ отошел от фиксированных и самодостаточных объектов, будь то социальные акторы или документы, к отношениям между ними.
4Идея использования ссылки цитирования для определения ранжирования информации восходит к социометрической революции Морено. В 1930-е годы Морено стремился описать структуру общества, основываясь на связях между людьми, а не на категориях, используемых для идентификации и дифференциации людей (Mayer, 2009).Он просил людей указывать на окружающих, которые им нравятся больше всего (люди, которыми они восхищаются, с которыми они больше всего общались и т. Д.), И тех, кто им нравится (восхищаются и т. Д.) Меньше всего. Таким образом, групповая психология Морено ввела как идею представления социальной сети индивидов в форме социограммы , так и идею организации ее в соответствии с принципом привлекательности и отталкивания, свидетельствующим о взаимном влиянии этих людей на людей. другие.Как указал Бернхард Ридер (2012) в своем исследовании компьютерной генеалогии PageRank, в то время как социология Морено не включала математизацию, другие, в частности, Элейн Форсайт и Лео Кац (1946), использовали ее для разработки набора матриц и вычислений, которые должны были внести свой вклад. к рождению социальной математики в расцветающей теории графов.
5Но PageRank в первую очередь встроен в другую исследовательскую традицию, которая была обречена на большой успех, — наукометрию, которая сформировалась с Индексом научного цитирования (SCI), основанным в 1964 году Юджином Гарфилдом в Институте научной информации.Проект Гарфилда состоял в том, чтобы облегчить распространение научного контента, поощряя переход от цитирования к цитированию, между научными статьями. Гарфилд, внештатный консультант в области документации, выступил с рядом инициатив с целью создания индекса научного цитирования. В то время идея заключалась не в измерении репутации исследователей, а в том, чтобы « сделать [е] возможность сознательного ученого знать о критике более ранних работ » (Гарфилд, 1955, цитируется по Wouters, 2006: 14) .После длительных усилий ему удалось убедить Национальный научный фонд и Национальный институт здравоохранения поддержать внедрение инструмента как для централизации научного производства с базой данных цитирования публикаций, так и для его объективизации с помощью ряда мер. Для первого издания Индекса научного цитирования (SCI) в 1964 году 1,4 миллиона цитирований из статей 613 журналов, опубликованных в 1961 году, были собраны вручную, что потребовало больших затрат. Результаты были записаны на магнитную ленту и составили одну из первых больших баз данных в истории информатики.
6Давайте посмотрим, что привело к тому, что индекс научного цитирования представил науку через сеть цитирований , прежде чем он стал критерием оценки научной бюрократии. Поддерживая ссылочную связь с записанным миром, это представление также изобрело очень специфическую когнитивную структуру, в которой можно идентифицировать пять эпистемических свойств, характеризующих PageRank. Первое предположение — это претензия на позицию , внешняя .SCI позиционирует инструмент объективизации науки за пределами науки, чтобы измерить его качество, не прибегая к нормативной поддержке изнутри науки, что влечет за собой любая экспертная оценка. Этот внешний эффект также дает ему всесторонний обзор научной деятельности, к которому исследователи, оказавшиеся в ловушке своих дисциплин, не могут получить доступ. Второе предположение зависит от этой всеобъемлющей точки зрения: абстрагирует цитату от контекста, в котором она была опубликована.Основная операция SCI состоит в преобразовании списка из ссылок в статье, которые представляют собой простые и непосредственно доступные данные, в список из ссылок , который статьи получают из других публикаций (информация, которая не видна из самих статей и может рассчитываться только с доступом ко всем цитирующим текстам). Таким образом, SCI переходит к когнитивной операции, которая заключается в простом преобразовании ссылки (упоминание статьи B в статье A) в цитирование (факт цитирования статьи B A).
7Эта крошечная операция, которая требует феноменальной работы по сбору данных в мире аналогий, должна была быть заменена гипертекстовой ссылкой, которая позволила активировать взаимосвязь между цитируемым текстом и цитируемым текстом. В то время как ссылка наделена множеством значений тем, кто помещает ее в свой текст (почитание, критика, выделение приоритета, указание, выставление напоказ и т. Д.), Ссылка стирает разнообразие контекстных значений ссылки которые создали его, превратив в однозначную абстракцию.Как отметил Пол Воутерс, хотя все ссылки не равны, абстрагируя их контекст эмиссии, преобразование ссылок в цитаты требует рассмотрения всех цитат как равных. Таким образом, это преобразование способствует унификации значения цитаты, чтобы сделать ее своего рода «валютой научной деятельности», которая стандартизирована, деконтекстуализирована, однозначна и одинакова (Wouters, 1999: 108-109). В то время как ссылка относится к его эмиссионному контексту, цитата относится только к самому себе.Став простым знаком, ценность цитирования становится самореферентной и поддается вычислению.
8 Третье предположение, лежащее в основе этой системы объективизации науки посредством ее цитирования, состоит в том, что она является строго процедурной . SCI измеряет не существенное содержание научных оценок, которыми исследователи обмениваются в своих статьях, а единственное самореференционное цитирование с его индексируемыми свойствами (имя автора, принимающее учреждение, название, тип публикации и т. Д.). « В то время как научная литература изображает науку с акцентом на ее когнитивные требования (содержание опубликованных статей и книг) », — писал Пол Воутерс (1999: 7), « SCI представляет научную литературу, стирая содержание в пользу его формальных свойств ». SCI намеренно сокращает существенное разнообразие научного дискурса, чтобы сделать его инструментом исследования, который, вероятно, будет распространяться во всех дисциплинарных сообществах, не беспокоясь об их идиосинкразии.Этот формализм должен полностью игнорировать научные аргументы, из которых он не имеет никакой легитимности. Нет необходимости знать множество значений, которые исследователи вкладывают в акт цитирования, чтобы общий расчет числа цитирований — который выигрывает от эффектов статистики больших чисел — составлял хорошее приближение к тому, чем они являются. используется для измерения. « Блестящая полезность подхода индекса цитирования , — писал Джошуа Ледерберг, генетик, который активно поддерживал Юджина Гарфилда в его предприятии, — заключается в том, что он решает проблему значения с помощью автоматизированной процедуры » (цитируется по Wouters, 1999: 20).
9 В-четвертых, представление науки через сеть цитирований считается продуктом не тех, кто индексирует, а тех, кто цитирует друг друга: исследователей, которые публикуют. При всех своих упрощениях индекс цитирования воплощает в себе прозрачный идеал невмешательской объективности. Это совокупный результат действий исследователей, которые взаимно цитируют друг друга, но при этом они, в принципе, не действуют в соответствии с этим представлением, которое является внешним по отношению к их деятельности.Таким образом, SCI импортирует натуралистическое предположение о «механической объективности» (Daston, Galison, 2012) в мир научных знаний. Однако, поскольку она наблюдает за социальным миром, который является рефлексивным, в отличие от мира природы, допущение прозрачности этой когнитивной технологии не может избежать риска того, что те, кого она записывает, будут действовать в соответствии с теми, кто их измеряет. Следовательно, предположение о нейтральности подразумевает дополнительное требование к невидимости , чтобы не беспокоить внешний мир, чьи действия оно фиксирует.Как мы увидим, быть забытым — это мечта PageRank, но мечта, которая исполняется все меньше и меньше с течением времени. из.
10 Наконец, SCI полагается на основное предположение, которое поддерживает все остальные: осторожное доверие к честности цитирования . Процедурализм новой технологии измерения науки требует подкрепляющего существенного обоснования, которое придает научному цитированию ценности академического этоса. Подсчет цитирований без попытки их понимания возможен только при следующих двух предположениях: несмотря на разнообразие способов использования этих цитат, исследователи рассматривают их в целом как один из наиболее очевидных признаков их принадлежности к сообществу и уважения к нему. одно из его самых фундаментальных правил; и что, подвергаясь неусыпной критике со стороны сообщества, цитаты основаны на принципах, которые могут быть оправданы для сообщества.При этом условии исследователи могут наделять акт цитирования всеми возможными значениями, не обращая внимания на них библиометристов. Библиометристы довольствуются осторожным доверием пониманию научной деятельности как соревнования за признание коллег, выдвинутому Робертом Мертоном (1957). В его рассуждениях тесно переплетаются моральные и познавательные ограничения. Поскольку наука является публичным, а не частным знанием, исследователи должны сделать свою работу общественным достоянием и признать ее своей собственностью.Но поскольку научное производство — это сеть взаимозависимостей между различными работами, крайне важно указать источник, который наследует каждая публикация, рискуя тем, что сообщество укажет на несоответствие. Как подчеркивал Мертон (1977), « цитат и ссылок, таким образом, действуют в рамках совместно когнитивной и моральной структуры ». Таким образом, цитирование дает наукометрам след регулярной и объективной практики, которая в достаточной степени включает нормы научной деятельности, чтобы пройти вычислительную процедуру.
11 Предметом исследования, которое Сергей Брин и Ларри Пейдж первоначально представили своему учителю Терри Винограду, была разработка системы для загрузки аннотаций на веб-сайты (Levy, 2011: 16-17). Однако молодые студенты Стэнфордского университета вскоре осознали, что гипертекстовая ссылка представляет собой цитирование и что, по-своему, ее можно рассматривать как голосование. Происхождение от индекса научного цитирования к PageRank явное. Основатели Google, оба сыновья ученых, неуклонно подчеркивали тот факт, что « Большое количество ссылок в научной литературе […] означает, что ваша работа важна, потому что другие люди думали, что стоит упомянуть » (Vise & Malseed, 2006 : 34-35).В статье Джона Клейнберга «Авторитетные источники в среде с гиперссылками» (1998), которая должна была повлиять на Ларри Пейджа при разработке PageRank, репутация исследователей, измеряемая с помощью библиометрии, очень четко рекламировалась как главный источник вдохновения. Статья настаивала на том факте, что, как и научная цитата, гипертекстовая ссылка является одновременно актом узнавания и знаком авторитета: « гипертекстовых ссылок , — писал он, — кодирует значительное количество скрытых человеческих суждений и мы утверждаем, что это именно то суждение, которое требуется для формулирования понятия авторитета ».Гипертекстовая ссылка ограничивает поле релевантности текста цитирующего, распознает значение цитируемого контента и, когда этот контент получает несколько и разнообразных апробаций, утверждает свою важность по меритократической шкале, которая уважает тех, кто был идентифицированы их сверстниками. Он представляет собой именно тот след, который, превращенный в метрику, может ранжировать информационные объекты в соответствии с преобладающей рациональностью в мире исследований, привлекая внимание к содержанию с некоторой видимостью.Эта известность, обычно измеряемая числом разрешенных цитирований, представляет собой наилучшее приближение к эпистемической достоверности. Джон Кляйнберг (1998) указал, что одного подсчета ссылок достаточно, чтобы зафиксировать авторитет любого документа: «Создание ссылки на www представляет собой конкретное указание на суждение такого рода: путем включения ссылки на страницу q, создателя страницы. p в некоторой степени наделяет полномочиями q. Более того, ссылки дают возможность обнаружить потенциальный авторитет просто через страницы, указывающие на него ».Эта интуиция, во всех отношениях унаследованная от свойств абстракции и процедурности Индекса научного цитирования, стала решающим новаторским. Благодаря все более подробному анализу его лексического содержания качество информации, найденной на сайтах, стало не внутренним свойством для поиска внутри документа, а внешним свойством, сформированным соответствующими атрибутами, сделанными сайтами, узнающими друг друга. Качество — это социальная конструкция, которая проецируется на документы.Ларри Пейдж ясно дал понять это в патенте, который, не вдаваясь в подробности, описывает функционирование PageRank: « Интуитивно понятно, что документ должен быть важным (независимо от его содержания), если он часто цитируется другими документами » (Пейдж, 1998). Гипертекстовая ссылка — это просто конверт, «сгусток интеллекта» (Pasquinelli, 2009: 155), который нельзя открывать, чтобы сохранить его вычислимость. Его маркеры легко идентифицируются роботами, которые пылесосят Интернет. Нет необходимости знать, почему он был создан, и какое количество разнообразных и разнообразных намерений, выводов, вычислений и оценок было использовано при его создании.Как и в урне для голосования, его просто нужно посчитать. Основатели Google смело расширили это понимание научного авторитета, расширив метафору ссылки как цитирования до ссылки как голоса. В разделе «Почему Google» компания Mountain View охотно представила свой алгоритм как исходный код демократии:
12
PageRank — это защитник демократии (…): любая ссылка, указывающая со страницы A на страницу B, рассматривается как голосование страницы A за страницу B.Однако Google не ограничивает свою оценку количеством «голосов» (ссылок), полученных страницей; он также переходит к анализу страницы, содержащей ссылку. Ссылки на страницах, которые Google считает важными, имеют больший «вес» и тем самым способствуют «выбору» других страниц »(цитируется по Cassin, 2007: 102-103).
13 Хотя PageRank обеспечивает голосование за гиперссылки, его политический режим остается не демократия, в которой каждый избиратель имеет одинаковый вес, а меритократия, которая не предоставляет равную власть каждому голосу.В то время как алгоритм, разработанный Юджином Гарфилдом для измерения репутации журналов, Journal Impact Factor (JIF) рассматривал каждую цитату как эквивалентную, PageRank повторно присвоил рекурсивный механизм для присвоения разного веса цитирующим страницам. Он черпал вдохновение из алгоритма с весом влияния , разработанного Габриэлем Пински и Фрэнсисом Нарином (1976) [2]. Нарин первым предложил установить соотношение между входящими и исходящими цитированиями, чтобы не допустить, чтобы определенные журналы получали большой престиж только потому, что они опубликовали много статей.Вес журнала здесь измеряется числом входящих цитирований, деленным на количество исходящих цитирований. Это соотношение делает власть циркулирующим товаром, как полученным, так и распространяемым, что дает положительный баланс тем, кто получает больше, чем распределяет. Превратившись в коэффициент, индекс авторитета относится к самим себе, чтобы сделать его реальной валютой. Основная идея Фрэнсиса Нарина заключалась в том, чтобы учитывать, что не все цитаты имеют одинаковый вес и что к ним необходимо применить рекурсивный атрибут для вычисления авторитета цитирующего в сети в соответствии с количеством цитат, которые они сами получили от других.
14Равенство цитирований, подсчитываемых импакт-фактором журнала, имеет смысл в небольшом сообществе базы данных индекса научного цитирования ISI, которая включает только академические журналы. Цитирование является эгалитарным и засчитывается демократическим путем, хотя и на основе переписи населения, при этом в состав выборного органа входят только ученые. Если фильтр авторитетности уже применен, разумно подсчитать равное количество голосов, выбрав академический статус читателей, которые являются единственными публикующимися в академических журналах.В контексте ограниченного рынка разграничение авторитета голосов даже могло бы показаться противоречащим эгалитарным принципам научного сообщества. Однако, хотя количество журналов, собранных с помощью индекса научного цитирования, могло в то время казаться очень большим, оно бесконечно мало по сравнению с гигантским объемом страниц, связанных между собой в сети. Здесь рынок цитирования значительно расширен, так как снят барьер научного статуса. Авторитет больше не измеряется в точке входа, а внутри базы данных.Интернет, инклюзивное пространство, рассматривает всех пользователей Интернета, публикующих контент, как авторов и не требует от них какой-либо квалификации. Похоже, что повышение авторитета цитирующих страниц является следствием демократизации цитирующих. В мире, открытом для всех и каждого, равенство голосов привит принцип популярности , а не авторитета (Cardon, 2011). Как же тогда можно распознать выдающееся положение определенных документов, если те, кто их цитирует, не являются их коллегами? В 2004 году, когда Интернет стал настолько обширным и разнообразным, что было все труднее отобразить на нем модель научного мира, Сергей Брин использовал метафору социальных рекомендаций для описания PageRank.Авторитет, предоставляемый исследователями в отношении их соответствующих работ, был распространен на доверие, оказываемое экспертам в повседневной жизни. Алгоритму тогда было поручено не создавать сообщество предварительно выбранных равных голосов, а выделять тех, кого другие признали экспертами, чтобы их голос имел больший вес. Хотя не все в равной степени заслуживают доверия, каждый способен определить тех, кто:
15
« Если я ищу врача в районе , — пояснил Сергей Брин, — я мог бы пойти и попросить друзей порекомендовать хороших врачей.Они, в свою очередь, могут указать мне на других людей, которые знают больше, чем они: «Этот парень знает всю область врачей Bay Area». Затем я подошел к этому человеку и спросил его. То же самое относится и к веб-сайтам. Они ссылаются друг на друга ссылками, система имитирует рефералов ».
(Шефф, 2004)
16 Вес влияния предлагает алгоритмическое решение для разрешения противоречия между демократизацией цитирующих лиц и меритократическими особенностями принципа власти.В открытом мире Интернета невозможно дать всем такой же авторитет, как в ограниченном мире науки. PageRank предлагает очень элегантное решение: открытие разнообразия цитирующих должно помочь определить авторитет страниц сети, а не пользователей Интернета , которые их создали. В 2005 году Сергей Брин объяснил: «… [мы] пришли к выводу, что не все веб-страницы созданы равными — вы знаете, люди, но не веб-страницы. Некоторые веб-страницы по своей сути не хуже других, но, по крайней мере, менее важны, чем другие.И мы разработали этот анализ графа ссылочных структур в Интернете, который оценил важность каждой веб-страницы ». [3]. PageRank считает, что публикующие Интернет-пользователи равны, а их страницы — нет, и делает это различие между человеком и страницей способом сохранения принципа авторитета, когда право на публикацию открыто для всех. Для этого он опирается на идеализацию, лежащую в основе концепции Интернета, которую разделяли ее пионеры. Гипертекстовая ссылка, основная структура единой сети документов, представляет собой наиболее совершенную реализацию утопии, в которой тексты могут соотноситься друг с другом, избегая авторитета их создателя.Еще в 1945 году этот сон вдохновил Ванневара Буша на фантастический текст As We May Think , оказавший глубокое влияние на пионеров Интернета. Затем он подпитывал проект Теда Нельсона Xanadu (1965), систему HyperCard Билла Аткинсона (1986) и изобретение Тимом Бернерсом-Ли всемирной паутины в 1990 году. ассоциаций между терминами, без необходимости квалификации лиц, которые их произвели. Исчезновение высказывающего лежит в основе этого идеализированного видения мира идей, которые общаются друг с другом посредством аргументации и рассуждений, освобожденных от веса интересов, личности или психологии тех, кто их испускал (Lévy, 1991: 62). ).График сети, по которой циркулирует рекурсивный индикатор PageRank, представляет собой график документов, а не людей. Авторитет, который он измеряет, проистекает из операции, которая не полагается ни на единственное содержание цитирующих друг друга текстов, как следует из семантического подхода к сети, ни на статус людей, написавших тексты, как это делает индекс научного цитирования. ограничение доступа исследователей к научным журналам. Основываясь на различении, проводимом в прагматике высказываний, социальная сила которых PageRank измеряет авторитет не высказывания или говорящего, а предмета высказывания [4].PageRank предполагает открытие дистанции между говорящим и субъектом высказывания, так что интертекстовая сеть ссылок может открыть «пространство, где пишущий объект бесконечно исчезает» (Foucault, 2001: 821) для автора (т. Е. Говорящего ). PageRank рассматривает гипертекстовую ссылку не как семантическую ассоциацию между высказываниями и не как обмен удовольствиями между людьми, а как средство оценки авторитета веб-страницы. Гипертекстовая ссылка начинается с элемента цитирующего текста, чтобы идентифицировать URL-адрес страницы в целом.Таким образом, он придает свою силу форме страницы, объединяя текст и автора, тем самым предлагая реалистичный и невероятно эффективный способ ранжирования документов.
17В 1998 году, как только были проведены первые сравнительные тесты, качество результатов, предлагаемых PageRank для различных запросов, оказалось бесконечно выше, чем у их конкурентов. « Это была разница между оценкой незнакомца по его внешности и сбором мнений всех, кто его знал » (Эдвардс, 2011: xii).В августе 1999 года серверы Google получали 3 миллиона запросов в день. В августе 2000 года, после достижения соглашения с Yahoo !, на серверы молодого стартапа ежедневно отправлялось 60 миллионов запросов (Batelle, 2005: 126). Чтобы алгоритм заработал, Google составил таблицу всех просканированных веб-сайтов, занесенных в огромный индекс, которому был отнесен набор сигналов. В настоящее время он насчитывает более 200 сигналов для каждой записанной страницы (Singhal, 2008). Они информируют о двух различных параметрах качества поиска: релевантности страницы запросу, сделанном в запросе, и важности страницы по сравнению с другими страницами, имеющими такой же уровень релевантности.Первое измерение направлено на то, чтобы как можно яснее указать смысл запроса, чтобы ответы, предлагаемые механизмом, точно соответствовали вопросу пользователя Интернета. В этой области Google разработал большую панель семантических индикаторов, которые способствовали усложнению алгоритма и увеличению количества сигналов. Второе измерение стремится измерить авторитет ответа среди соответствующих предложений путем фильтрации входящих ссылок, насколько это возможно, чтобы различать те, которые несут авторитет, и те, которые не имеют.« Рейтинг популярности пришел на помощь содержанию » (Langville & Meyer, 2006: 25). Расчет PageRank касается этого второго измерения. Следовательно, это просто сигнал среди прочего. Несмотря на растущие споры по этому поводу, он по-прежнему играет доминирующую роль в общем функционировании алгоритма, и его дух косвенно влияет на множество других сигналов, которые обеспечивают ему повышенную точность и силу. PageRank — это оценка от 1 до 10 по логарифмической шкале, которая измеряет количество ссылок, полученных страницей с других страниц.Он делает это, учитывая, что сайты посылают друг другу силу, которая вскоре стала известна как «сок Google» или «сок ссылок» на референцном жаргоне.
18PageRank немедленно смог радикально улучшить качество веб-поиска, потому что он лучше всего поддерживал дух Интернета, предлагая когнитивный артефакт, подобный зеркалу, который превращал распределение взаимодействий между документами в метрику, показывающую их соответствующий авторитет. PageRank был разработан для того, чтобы пользователи Интернета получали обратную связь только о суждениях, которые каждый из них высказал друг о друге по своим ссылкам.Джеймс Гриммельманн (2009: 941) отметил, что « Гений Google в том, что его создатели не придумали отличной организационной схемы для Интернета. Вместо этого они заставили всех сделать это за них ». Таким образом, Google часто подвергается критике за то, что он питается чужой работой, повышает свою актуальность за счет добровольной энергии других и, что еще лучше, накапливает богатство, полностью полученное благодаря работе интернет-пользователей (Pasquinelli, 2009; Moullier-Boutang, Rebiscoul , 2009; Kyrou, 2010; Vaidhyanathan, 2011).Однако нам следует подумать над этим парадоксом: поддерживая идею о том, что рейтинг, производимый его алгоритмом, равен естественным , или «органическим», согласно принятой терминологии, с неослабевающей энергией и иногда вопреки свидетельствам, Google также пытается выполнить статистическое ограничение, необходимое для соответствия PageRank: отсутствие информации о намерениях пользователей Интернета.
19 Какой принцип может сформулировать алгоритмический подход Google, чтобы оправдать его предпочтение автоматическому агрегированию неопределенных, разрозненных и случайных суждений толпы пользователей Интернета? В то время как индекс научного цитирования в конечном итоге опирался на допущение о честности цитирования, встроенной в нормативную структуру функционирования научной области, PageRank не имеет такого рода существенного основания для оправдания его процедурности.Вместо этого он использует другой тип оправдания, гораздо более формальный, основанный в основном на статистике и получивший название «мудрость толпы» (Surowiecki, 2008; Orrigi, 2008). Теория коллективного интеллекта интернет-пользователей, лучшим примером которой всегда является PageRank, опирается на совокупность работ, сочетающих математику и политическую философию, чтобы доказать эпистемологическое превосходство большого числа людей. Две разные гипотезы, основанные на различных концепциях «мудрости толпы» (Landemore & Elster, 2012), подтверждают претензию PageRank на измерение авторитета в сети.Первый в первую очередь связывает его с чудом агрегации , основанным на теореме присяжных Кондорсе, которая утверждает, что нахождение правильного решения эпистемологического вопроса просто требует голосования как можно большего числа людей при условии, что большинство участников имеют положительную вероятность. найти правильное решение, и что они не влияют друг на друга. Если эти условия соблюдены, то чем больше число избирателей, тем больше уверенности в том, что большинство голосов будет правильным.Эта теорема также является принципом знаменитого эксперимента Гальтона, проведенного в 1906 году, когда публику на рынке крупного рогатого скота попросили проголосовать, чтобы оценить вес коровы. Таким образом, публика, взятая в целом, эпистемологически более надежна, чем каждый из ее составных членов, какими бы экспертными ни были некоторые из них (Landemore, 2010). Работа Скотта Пейджа добавила новое измерение к этому свойству, показав, что гораздо важнее ценить когнитивное разнообразие избирателей, чем их интеллект. Эта статистическая основа привела к первому пониманию «чуда агрегации», согласно которому важно избегать эффектов координации и влияния, которые избиратели могут оказывать друг на друга, и которое способствует развитию индивидуализированных систем суждения, таких как прогнозные рынки (Sunstein, 2006 г.).
20В отличие от этого «агрегированного» подхода, вторая, «совещательная» интерпретация мудрости гипотезы толпы подчеркивает самоорганизованный эффект согласования суждений в Интернете. Вдохновленный хабермасианской моделью обсуждения, весьма оптимистичная версия такой координации находится в книге Йохая Бенклера La richesse des réseaux (2009: 309 и далее). Используя многочисленные анализы блогосферы в качестве примеров [5], он выделил механизмы самоорганизации, с помощью которых небольшие разрозненные круги общения в Интернете общаются друг с другом, чтобы получить видимость в поисковой системе Google путем последовательного выбора.Посредством серии итераций эти формы координации между децентрализованными диалогами [6] могут использоваться для извлечения контента из его первоначального производственного цикла, чтобы сделать его известным другим и облегчить его распространение в стратифицированном пространстве видимости в сети. Однако эти попытки наглядности не следует сравнивать с измерением мнений пользователей Интернета, которые производятся с помощью индивидуализированных систем анкетирования, таких как опросы общественного мнения. Они являются продуктом спонтанной координации снизу вверх без центральной организации.
21 Гипотеза мудрости толпы в основном зависит от третьего аспекта, возможно, самого строгого. Суждения, которыми пользователи обмениваются через свои ссылки, должны подлежать «нескоординированной координации» (Benkler, 2009: 33). Как утверждали Джон Клейнберг и Стив Лоуренс (2001: 1849), совокупность обменов между гиперссылками, регистрируемыми PageRank, является результатом отдельных действий, которые не поддерживали эту координацию в качестве своего намерения. Ибо важнейшим условием его функционирования является то, что пользователи Интернета не действуют в соответствии с PageRank, и что их выбор ссылок «естественным образом» раздает честь и забвение.Если бы суждения, которыми пользователи обмениваются через ссылки, были произведены в соответствии с мета-координатором, который их объединяет, это сильно изменило бы эпистемологическую релевантность результата. Различные модели, разработанные под знаменем мудрости толпы, различают местный, непреднамеренный и непосредственный характер формирования индивидуальных суждений (в теореме присяжных), дискуссионных анклавов (в модели децентрализованного обсуждения) и формального инструмент агрегирования, используемый для представления этих суждений, не инициировав их каким-либо образом.Предположение о внешнем эффекте является условием возможности коллективного разума. Система мудрости толпы, как подчеркивал Дэниел Андлер (2012), « можно считать разумным, если кто-то готов разорвать связь между двумя компонентами интеллекта: понимание мира достигается распределенным образом, отдельными членами группы (каждый из которых обладает частичным, но искренним пониманием), в то время как поиск решения достигается архитектурой системы в чисто формальной (т.е. семантически слепой) мода. Примерами, которые приходят на ум, являются поисковые системы, такие как Google, и другие интернет-инструменты ». Выбор ссылок PageRank становится тем более уместным, что агрегатор суждений пользователей Интернета является абсолютно внешним по отношению к их решениям. Сеть заменяет предположение о честности цитирования, требуемое существенными нормами научной сферы, ожиданием, которое является чисто процедурным, хотя трудно проверить, ожиданием искренности : что пользователи Интернета не думали о Google.
22В то время как в научной статье о PageRank основатели утверждали, что принципы информационного поиска и рекламы несовместимы (Brin & Page, 1998), в 2004 году Google изобрел рекламную модель с непревзойденной эффективностью. Он также опирался на уникальный алгоритмический аппарат, вдохновленный службой Goto Билла Гросса. Но Google добавил в Adwords три конкретных улучшения: с так называемыми аукционами по ключевым словам «Викри» (победитель оплачивает стоимость клика второго аукциона), лексический анализ рекламной страницы проверяет ее информационную релевантность с риском снижения рейтинга ссылка, если она не соответствует тому, что объявляет ключевое слово.Более того, анализ кликов пользователей Интернета по различным рекламным ссылкам может в процессе обучения изменить порядок ранжирования. Однако главное отличие от Goto, представленного Google, заключалось в категорическом отказе от смешивания результатов «естественного» ранжирования алгоритма с результатами аукционов, проданных рекламодателям. Google отличился от своих конкурентов тем, что отделил «естественный» поиск от рекламных ссылок. На жаргоне Google этот барьер, реальная линия «разделения церкви и государства» (Cassin, 2007: 139), стал известен как «Великая китайская стена».Google не только предоставляет пользователям интерфейс, который изолирует рекламу от редакционного контента более эффективно, чем это сделали его конкуренты, но также проводит границу через зону конфликта между математикой и рынком, которая проходит через корпоративную культуру и личность его основателей. Хотя наука об алгоритмах должна стремиться к совершенству, чтобы наилучшим образом отражали действия интернет-пользователей, при этом ни в коем случае не должны участвовать интернет-пользователи, действующие в соответствии с Google, или инженеры Google, вмешивающиеся в рейтинги.Google хочет видеть этот мир как естественный . Параллельно с этим, другой мир открыт для рекламодателей, желающих бороться за ключевые слова рекламных аукционов. Этот мир открыто полностью стратегических и инструментальных . Если смотреть со стороны Великой Китайской стены, есть два способа добиться заметности на страницах Google: либо за счет репутации, полученной от других, без Google, либо путем оплаты за видимость… Google. Разделение страницы результатов на два мира, органических и стратегических , передает видение Интернета и пользователей Интернета, которое Google навязал всей экосистеме Интернета всеми возможными способами.
23 Разделение между естественными ссылками и ссылками на рекламу впервые было представлено как цифровой ответ на экономическую модель традиционных СМИ. В 2004 году основатели Google написали письмо будущим акционерам, в котором объяснили, что то, что Google измеряет в левом столбце, не должно зависеть от того, что он продает в правом столбце. Они оправдывали это редакционной моделью прессы: « Наши результаты поиска — лучшее, что мы знаем, как произвести », — хвастался Google.« Они беспристрастны и объективны, и мы не принимаем за них плату (…). Мы также показываем рекламу, которую мы очень стараемся сделать релевантной, и четко маркируем ее. Это похоже на газету, где реклама четкая, а на статьи не влияют платежи рекламодателей »[7]. Google поступил мудро, чтобы поразить журналистов своим доверием к обмену информацией, что является центральным элементом профессиональной этики СМИ. Но реальность его построения «объективного» и «нейтрального» редакционного мира отличается от реальности профессиональной журналистики.«Объективность», которую называет Google, является «механической» и основана на разделении научной работы на дисциплины, начатом в конце 19-го -го века, с властным желанием устранить любое вмешательство человека в пользу методов и машин, способных непосредственно запечатлевая природу на экране поисковика (Daston & Galison, 2012). Беспристрастная отстраненность, требующая от журналистов высокого уровня самоконтроля, — не то добродетель, на которое Google может надеяться. Какой бы объективной ни была их деонтология, привратники традиционных СМИ всегда будут подвержены страстям, выбору или интересам, вносящим предвзятость в их упорядочение информации [8].Цель объективности, как показал Мишель Портер (1995), в конечном итоге имеет не столько истину о природе, сколько попытку изгнать человеческое суждение, предпринимаемое учеными против их собственной субъективности. Основанная на науке, математике и больших числах, компания из Маунтин-Вью убеждена, что для нейтрализации капризов человеческого суждения лучше всего доверять алгоритмам и придерживаться их. Любая попытка исправить неудовлетворительный результат вручную — это начало порчи сервиса.В статье, озаглавленной «Почему мы продаем рекламу, а не результаты», Google отказался нести ответственность за результаты «обычного» поиска. Компания позиционировала себя за пределами действий своего алгоритма: «Наши результаты отражают то, что сообщество считает важным, а не то, что мы или наши партнеры думаем, что вы должны увидеть» [9]. Эта забота о делегировании ответственности за рейтинг правилу вычислений избавляет компанию от необходимости оправдываться против многочисленных обвинений, выдвинутых против нее.Когда происходят взрывы в Google (т. Е. Скоординированные действия интернет-пользователей по связыванию сайта с конкретным запросом, например, официальная страница Джорджа Буша с запросом «жалкий провал»), когда предложения его поисковой системы приводят к появлению антисемитских терминов. , когда компания считает, что ее конкурент несправедливо занял более высокий рейтинг и т. д., Google отказывается вносить исправления вручную или устанавливать фильтр в свой алгоритм (Grimmelmann, 2009). Амит Сингхал, архитектор PageRank, ответил на вопрос: «Редактирует ли Google свои результаты вручную?» с иронией:
«Позвольте мне просто ответить на это нашей третьей философией: никакого ручного вмешательства.На наш взгляд, Интернет создается людьми. Вы сами создаете страницы и делаете ссылки на них. Мы используем весь этот человеческий вклад через наши алгоритмы. Окончательный порядок результатов определяется нашими алгоритмами с использованием вкладов большого Интернет-сообщества, а не нами вручную. Мы считаем, что субъективное суждение любого человека, ну… субъективно, и информация, извлеченная нашими алгоритмами из огромного количества человеческих знаний, закодированных на веб-страницах и их ссылках, лучше, чем индивидуальная субъективность »[10].Столкнувшись с ошибками в результатах алгоритма, когда обнаруживаются локальные ошибки в рейтинге данного сайта, Google отказывается исправлять алгоритм «вручную», чтобы восстановить точный рейтинг. Инженеры поисковой группы всегда ищут автоматическое правило, позволяющее в целом устранять обнаруженные недостатки. Машины обладают качествами, которых нет у людей, но, прежде всего, у них есть достоинства, проистекающие из их слабости. Как убедительно заявил Эрик Шмидт (2004), их сила в их глупости: «, могу вас заверить.В нем нет предвзятости. Это компьютеры, они скучные. Мне жаль, что вы просто не поняли. »Многие критики« антропоморфизируют »алгоритм Google, заставляя его вести себя как человек. Критика такая же, как и в адрес редакции газеты со стороны социологии СМИ: пристрастие, вкус к общему, забвение периферии, конформизм. Но Google не рассматривает свой алгоритм как человеческое существо, он перенимает другую онтологию. Решения машинного ранжирования носят процедурный характер, в то время как человеческие суждения, какими бы они ни были основаны на правилах или этике, остаются существенными.Что дисквалифицирует человеческое суждение, так это смущающая склонность судить и оценивать по существу, всегда хотеть ценить обоснованность, рациональность или здравый смысл ранжирования ответов. Это то, чего не могут сделать алгоритмы. Они глупы, и эта глупость — лучшая гарантия их «объективности».
24Самым лучшим пиаром Google для пользователей Интернета было бы молчание. Но тщетно пытаться быть забытым, и Google вынужден сообщать о своем желании быть невидимым.Компания постоянно просит пользователей Интернета спросить себя: « Я бы сделал это, если бы поисковых систем не существовало? »[11]. В 2011 году Амит Сингхал, менеджер отдела качества поиска, настаивал: « Мы по-прежнему советуем издателям сосредоточиться на обеспечении наилучшего пользовательского опыта на ваших веб-сайтах и не слишком сосредотачиваться на том, что, по их мнению, является текущим. алгоритмы ранжирования или сигналы »[12]. Google просит быть невидимым и просто рекомендует набор здравых практик, чтобы быть более заметным для поисковой системы: оптимизация ключевых слов путем проверки того, что страница содержит термины, наиболее часто используемые пользователями, работа над дизайном сайта, чтобы он был понятным. и удобочитаем не только для пользователей, но и для робота Google, а также увеличивает скорость загрузки сайта.Представитель Google перед веб-мастерами Мэтт Каттс призывает к сотрудничеству между роботами движка и дизайнером сайта. PageRank установил порядок в Интернете, освоив письменные приемы веб-мастеров. Теперь они структурируют свои сайты на основе тонкостей движка, таким образом, все больше адаптируя свое выражение к тому, что движок может прочитать. Они узнали, как PageRank просматривает веб-страницы: сначала URL, затем заголовок и субтитры, важность символов, выделенных жирным шрифтом и курсивом, тот факт, что PageRank сохраняет только первый якорь ссылки, когда одна и та же страница цитируется несколько раз, важность тегов в файлах изображений, невозможность сканирования файлов PDF и т. д.Это интенсивное знакомство с малейшими процедурами алгоритма превратилось в ноу-хау, доступное в виде обучения, руководств и инструментов для измерения совместимости сайтов с Google. Нормализация экосистемы, образованной Интернетом и его основным двигателем, стала серьезной промышленной проблемой. Но определение, которое Google дает высококачественному сайту, также подчеркивает строгость, рациональность и оригинальность — критерии, непосредственно заимствованные из наиболее традиционной этики библиографической культуры. Google предоставляет веб-мастерам список хороших вопросов, которые они могут задать себе, как настоящая программа перевоспитания, чтобы отвлечь их от плохих вопросов о том, что они видны алгоритму.Эти вопросы раскрывают представление компании о высококачественном сайте. Во-первых, статья должна быть написана « экспертом или энтузиастом, который хорошо знает тему », « компетентным органом », а сам сайт должен быть « признанным авторитетом по своей теме ». Лучший способ узнать, так ли это, — спросить: « Это та страница, которую вы хотите добавить в закладки, поделиться с другом или порекомендовать? »Информации следует уметь« доверять », а содержание должно подлежать« контроля качества ».Google подчеркивает, что отсутствие надежности оставляет следы, которые научились обнаруживать роботы. Контент не должен быть « дубликат [d] », он не должен содержать « орфографических, стилистических или фактических ошибок » и должен предоставлять « оригинального контента или информации, исходной отчетности, оригинального исследования или исходного анализа ». Лучше всего предлагать « существенное значение по сравнению с другими страницами », « описывает обе стороны истории », предлагая « полное или исчерпывающее описание темы ».В строгой и профессорской манере Google даже требует « глубокого анализа или интересной информации, выходящей за рамки очевидного ». Google не любит контент, который отличается от «, хорошо отредактирован, », который выглядит « небрежно или наспех, » без «, большое внимание и внимание, » или что « короткое, несущественное или иным образом лишенное полезной информации. специфические особенности »и« массово производятся или передаются на аутсорсинг большому количеству создателей »или содержат« — чрезмерное количество рекламы, которая отвлекает от основного контента или мешает ему ».Это документальное видение информационного качества можно было бы лучше выразить, только задав вопрос в штрафе : « Вы бы ожидали увидеть эту статью в печатном журнале, энциклопедии или книге? »[13]. С точки зрения Googleplex качество цифровой информации всегда следует оценивать по стандартам бумажных изданий.
25 Для Google репутацию либо зарабатывают, либо покупают. Это различие определяет разделение между естественными ссылками и ссылками adwords , которые компания превратила в высокоэффективную «двустороннюю» экономическую модель.Этот раскол отражает дух первопроходцев Интернета, также предполагая четкое разделение между рыночным миром компаний, приглашенных для удовлетворения их стремления к видимости путем покупки ключевых слов, и нерыночным миром интернет-пользователей, которые не рассчитывают свою видимость, но обмениваться искренними ссылками. Однако пользователи Интернета не соответствовали моральным добродетелям, приписываемым им PageRank. Их мир не такой «естественный», и некоторые из их связей не «искренние». Вместо того, чтобы разделять две разные группы населения, различие между рыночным и нерыночным миром проходит через многих пользователей Интернет-издателей, стремящихся к репутации и известности.Многие из них постоянно расчетливы, стремятся быть замеченными и соревнуются, чтобы занять первое место в «органических» результатах поисковой системы. Для этого они стремятся деформировать структуру веб-ссылок в свою пользу, чтобы получить больше авторитета, предоставляемого PageRank. Действуя в соответствии с алгоритмом, эти интернет-пользователи-стратеги отменяют позицию внешнего воздействия и невидимости, к которой стремится PageRank, рефлексивно воздействуют на структуру сети (Espeland, 2007) и ставят перед Google проблему, которая является как математической, так и моральной.С того момента, как суждения, то есть ссылки, были выработаны стратегически, они предоставляют предвзятую информацию, которая снижает релевантность общего результата поиска. Но, пытаясь исправить это, Google вынужден отказаться от процедурного подхода, чтобы дать существенное определение качества ссылок и стать веб-полицией.
26 Всю историю развития алгоритма можно описать как игру в кошки-мышки между веб-мастерами и компанией из Маунтин-Вью, чтобы попытаться стратегически влиять на PageRank, с одной стороны, а с другой стороны, обнаруживать и наказывать такое поведение путем реформирование алгоритма до того, как пользователи Интернета со стратегическим поведением обнаружат новую слабость, которую нужно использовать.Мы, конечно же, не в полной мере осознаем технологические, рыночные и моральные ставки этой малоинтенсивной войны, которая продолжалась на протяжении всей истории Интернета, с тех пор, как поисковые системы стали основным каналом доступа к цифровой информации. Мы, вероятно, также неправильно понимаем борьбу за власть между сверхмощным и доминирующим Голиафом в сети и тысячами хитрых Давидов, атакующих его тысячей самодельных стрел. Во многих отношениях позиция PageRank в отношении противников на самом деле чрезвычайно хрупка, и некоторые наблюдатели утверждают, что Google уже давно проиграл битву за оптимальный рейтинг в Интернете (Ippolita, 2011; Mowshowitz & Kawaguchi, 2002; Diaz, 2005; Гранка, 2010).Развитие рынка поисковой оптимизации (SEO) превратило часть Интернета в гигантскую конкуренцию между участниками, публикующимися в нем, чтобы их видели алгоритмы. Часть этой консультативной деятельности, называемой «белой SEO», заключается в приведении веб-сайтов в соответствие с роботами Google путем введения наиболее подходящего html-кода (URL-адрес, привязка ссылки, выбор ключевых слов и т. Д.). Но другой сектор SEO-деятельности («черная шляпа SEO») состоит в продаже репутации. Сделать себя видимым означает получить «ссылочный вес» от других.Если он не приходит естественным путем, его нужно вымогать, покупать или производить искусственно. Методы, к которым прибегают веб-мастера, чтобы обеспечить себе известность путем создания ложных ссылок, постоянно совершенствовались, и теперь они превратились в настоящую индустрию. Регистрируя свои сайты в галактике, состоящей из более или менее фальшивых каталогов, каталогов и указателей, веб-мастера создают себе серию ссылок. К тому времени, пытаясь разместить ссылку на свои сайты на других сайтах, например, в комментариях в известных блогах или в Википедии, веб-мастера долгое время черпали «ссылочный сок» у тех, кто был лучше обеспечен (практика, называемая спамодексингом).Но Google сделал эту практику непродуктивной, создав тег
27 Эта конкуренция между рынком ссылок и алгоритмом вызывает противоречие между двумя противоречащими принципами, регулирующими видимость в сети: аудитория и авторитет . Защищая естественные ссылки, PageRank считает, что они распространяют акты узнавания в сети и, следовательно, должны основываться на качестве цитирующего текста. Рынок ссылок, с другой стороны, рассматривает гипертекстовую ссылку в качестве поставщика трафика, простой указатель, который не требует привязки к высококачественному тексту.Эта конкуренция вокруг определения того, какие гипертекстовые ссылки вводят в обращение, объясняет последовательные изменения в алгоритме Google. С каждой версией алгоритма используется все более подробная сортировка, чтобы различать на веб-страницах ссылки, передающие распознавание (URL, заголовки, субтитры, жирные ссылки, ссылки, включенные в текстовое содержимое страницы), от ссылок, передающих меньшее признание или отсутствие распознавания (ссылки в паратекст страницы, коммерческие ссылки, ссылки
28 Я только что обрисовал контуры разума PageRank, исследуя как можно более сочувственно обоснования, которые его подпитывают. Этот методологический принцип необходим для того, чтобы не слишком легко сводить действия Google к его экономическим интересам до их анализа. В настоящее время он переживает кризис. Достоинство авторитета , которое он пытался продвигать, все больше подрывается напряжением, в которое он попал, проистекая из других принципов ранжирования информации: популярность , продвигаемая логикой рейтингов аудитории, противодействие близости , поддерживаемое убедительный рост социальных сетей и, наконец, эффективность , измеряемая по удовлетворенности пользователей Интернета, которая определяет прогнозирующую персонализацию алгоритмов.
29Первое напряжение проистекает из эффекта откровения, который имеет PageRank, поскольку чрезвычайно неравномерное распределение ссылок в сети становится видимым и измеримым. Он подпитывается воображением, которое проецирует в сети пасторальное видение графа мелких производителей, обменивающихся ссылками, чтобы взаимно показать друг другу свои лучшие продукты. Но ссылки между сайтами не распределяются в равном порядке, что гарантирует, что каждый, по крайней мере на начальном этапе, имеет равные возможности получать ссылки от других.С 2000 года исследования структуры Интернета без устали повторяли, что она ни в коем случае не ризомна: очень небольшое количество страниц привлекает значительное количество ссылок, в то время как подавляющее большинство сайтов связано с очень небольшим количеством сайтов и часто цитируется нет (Broder et al., 2000; Adamic & Huberman, 2001). Это, несомненно, так: 90% рейтинга страниц в Интернете занимают 10% сайтов (Pandurangan et al., 2006). Альберт-Ласло Барабаши (2002: 58) безжалостно подчеркнул, что « хаба являются сильнейшим аргументом против утопического видения эгалитарного киберпространства.Да, все мы имеем право размещать в сети все, что пожелаем. Но кто-нибудь заметит? [Хабы] очень легко найти, где бы вы ни находились. По сравнению с этими хабами остальная часть Интернета невидима ». PageRank не только делает видимым распределение полномочий как степенной закон, но и усиливает его за счет множества эффектов концентрации, асимметрии и иерархии, присущих сетевым структурам. Самым известным из них был эффект Мэтью, идентифицированный Робертом Мертоном (1968) в наукометрии, в соответствии с которым система признания научного сообщества способствует тому факту, что « выдающихся ученых получают непропорционально высокую оценку за свой вклад в науку, в то время как относительно неизвестные ученые склонны получить непропорционально мало кредитов за сопоставимые взносы ».«Богатые» крупные участники сети и сайты с очень высокой популярностью в офлайне (компании, СМИ, учреждения) становятся еще богаче, потому что видимость, которую они получают в сети, автоматически привлекает новые дополнительные ссылки. Узлы, которые получают наибольшее количество ссылок, имеют эффект ореола, который заставляет другие узлы активно искать близости к ним, чтобы позаимствовать часть их силы; это явление приводит к тому, что некоторые получают незаслуженный авторитет (явление, которое часто называют победитель получает все ), в то время как многие заслуживающие других остаются в тени.Этот эффект также усиливается механизмами «предпочтительной привязки», которые побуждают сайты цитировать другие сайты с таким же или большим авторитетом, чем их собственный, и отказываться цитировать сайты меньшего размера, чем они сами (Cardon et al., 2011). Как следствие этих усиливающих эффектов, если смотреть на верхнюю часть рейтинга сайта, созданного поисковыми системами, авторитет (измеряемый количеством ссылок) сливается с популярностью (количеством кликов, совершенных пользователями Интернета) (Hindman et al., 2003 ) [14]: сайты компаний, крупных СМИ и учреждений, а также важнейшие веб-участники, такие как Википедия, получают признание (ссылочный вес) в той же степени, что и аудитория (клики), при этом невозможно определить, какая переменная воздействовала на другую.Гипертекстовая ссылка передает не авторитетность суждения, основанного на цитировании, которым ее наделили первопроходцы, а простое рефлексивное внимание, управляемое механизмами мимикрии рекламы. Таким образом, меритократическая власть — это просто тщетная попытка скрыть установленную законом власть сильных мира сего, которой они обязаны своему центральному положению в социальной жизни и своему экономическому капиталу (Diaz, 2005). Доминируя в иерархии ссылок, они также навязывают Интернету рейтинг, который дает чрезмерную видимость центральным сайтам, которые являются средними, конформистскими, бесспорными и неоригинальными.
30 Второе напряжение является результатом демократизации участия пользователей Интернета, что стало возможным благодаря развитию методов публикации, требующих лишь очень низких затрат на участие (Cardon, 2010). PageRank является элитарным, только предоставляя публикующим Интернет-пользователям (т. Е. Тем, кто создает гипертекстовые ссылки) право принимать участие в ранжировании информации в Интернете. С массовым распространением использования Интернета монополия издателей на порядок предоставления информации все больше ставится под сомнение.А с развитием новых диалоговых форматов письма в цифровых социальных сетях (статусы, комментарии, кнопки «Мне нравится» или «+1» и инструменты обмена, такие как RT в Twitter), акт публикации стал больше похож на простой акт обратной связи с аудиторией. Эти новые выразительные формы дали новые права более молодой аудитории, которая географически разбросана и, как правило, принадлежит к более низким социальным слоям, чем «достойные» производители гипертекстовых ссылок. Но в социальных сетях также действует совершенно другой принцип ранжирования информации.В то время как PageRank измеряет связи между документами, EdgeRank Facebook оценивает документы в соответствии с субъективными суждениями, которыми обмениваются люди, связанные родством. Вместо того, чтобы скрывать человека за текстом, разговорная речь в социальных сетях становится более гибкой, расслабленной и мгновенной; это сделало видимость субъективности людей, чтобы сделать их суждения сигналом идентичности, который они проецируют в сторону своей общительности (Cardon, 2013). В то время как в сети документов иллокутивная сила ссылки встроена в авторитет страницы цитирующего текста, в сети людей цифровой авторитет высказывающего, его электронная репутация, поддерживает их высказывание.Показатели близости социальных сетей распространяются на документы, которые они оценивают как авторитет, уходящий корнями в людей, которых PageRank стремился затмить.
31 Последнее напряжение, которое тяготит дух PageRank, связано с преобразованиями, которые инженеры Google постоянно вносят в алгоритм, в их борьбе против ссылочных стратегов и черного рынка ссылок. Со всеми изменениями и корректировками алгоритм Google все меньше и меньше похож на устройство , установленное в сети для его записи, и все больше на устройство , управляемое со стратегической точностью командой качественного поиска Амита Сингхала [15].Учитывая многочисленные трудности, с которыми Google сталкивается из-за своих коммерческих амбиций и доминирующего положения на рынке поисковых систем, и хотя он это отрицает, компания все чаще вынуждена обрабатывать результаты своего алгоритма «вручную» и крест на своей заботе о невмешательстве в нейтралитет. Под давлением национальных юрисдикций ему пришлось подвергнуть цензуре некоторые расистские и антисемитские сайты во Франции и Германии (Zittrain & Edelman, 2002). Давление со стороны индустрии культуры вынудило его снизить рейтинг в результатах поиска, что привело к появлению сайтов, предлагающих пиратский контент (Menell, 2012).Под давлением компаний он согласился отказаться от покупки определенных adwords их конкурентами. Давление индустриализации обмана с целью искусственного производства «ссылочного сока» привело к тому, что Google отказался от своей позиции внешнего воздействия и занял позицию надзора, фильтруя и наказывая нарушителей. Недавно компании даже пришлось создать систему отчетности, позволяющую пользователям Интернета сообщать о сайтах, фальсифицирующих репутацию. Вряд ли можно сомневаться в том, что идеал аппарата правил, регистрирующих сеть для ее ранжирования, был значительно подорван.В то время как Google пожертвовал своей позицией внешнего воздействия из-за того, что пользователи Интернета уделяли Google слишком много внимания, его промышленная стратегия также способствовала тому, что претензии на нейтралитет естественного поиска становились все более хрупкими и риторическими. Это особенно заметно по тому факту, что компания разработала множество других услуг, коммерциализация которых может противоречить логике нейтралитета поисковой системы. Кроме того, алгоритм Google все чаще включает в себя так называемую технологию обучения (машинное обучение) для расчета рейтингов, представляемых пользователям.Теперь больше нет необходимости устанавливать несколько параметров, приписывающих вес определенным сигналам, в частности PageRank, извлекаемым с каждой страницы Интернета для внесения в индекс Google. Можно просто позволить методам обучения регулировать эти параметры от случая к случаю, на основе запросов, на том, что Google знает о прежних методах работы пользователя, на приобретении знаний, предоставляемых ссылками, на которые нажимают другие пользователи Интернета для того же запроса (Granka , 2010) и, в конечном итоге, на человеческие суждения об релевантности сайтов, собранные оценщиками качества, нанятыми Google (PotPieGirl, 2011).Google все более и более заменяет принцип авторитета, который сделал силу PageRank, принципом эффективности , который отправляет пользователям Интернета варианты выбора, которые алгоритм извлек из их поведения, еще более уместно [16]. Машина, изобретенная Google, стала настолько сложной, настолько чувствительной к статистическим тестам, которые продолжают ее параметризовать, настолько изменчивой и потребляющей следы, и настолько самообучающейся, что ее поведение больше нельзя понять или интерпретировать, даже ее создатели.
Алгоритм Google PageRank и оценка авторитета веб-сайта
29 июня 2021 г. | 13 мин. Чтения
Интернет, каким мы его знаем сегодня, не выглядел так, как раньше. Авторитет веб-страниц, основанный на ссылках, указывающих на них, теперь воспринимается как норма. Но это было революционно еще в 1998 году, когда Google представил алгоритм PageRank, чтобы сделать оценку исходящих ссылок действительным фактором ранжирования. Хотя PageRank определенно сыграл решающую роль в эволюции SEO и его методов, неясно, будет ли он по-прежнему иметь значение после 2018 года, когда истек срок действия оригинального патента.В этом посте мы рассмотрим историю PageRank, объясним, как он рассчитывается, и выясним, применяется ли он по-прежнему для ранжирования.
Что такое PageRank
PageRank — это алгоритм ранжирования веб-страниц на основе количества и качества ссылок, указывающих на них. Он был разработан первопроходцами Google Ларри Пейджем и Сергеем Брином в 1998 году и стал первой успешной попыткой любой поисковой системы оценить уровень авторитета данной веб-страницы. По сути, это означало, что страница будет получать более высокий рейтинг с большим количеством обратных ссылок.
Как объясняют инженеры в оригинальном документе, PageRank был нацелен на «наведение порядка в сети» путем распределения веса по страницам. Они построили алгоритм на идее случайного интернет-пользователя, который посещает страницу и попадает на другие страницы, нажимая на ссылки. Вероятность того, что случайный пользователь попадет на определенную страницу, и есть PageRank этой страницы. Оценка рассчитывается на основе логарифмической шкалы от 0 до 10, где 10 представляет собой наиболее надежный веб-источник, который может быть.
PageRank — это объективная мера, которая согласуется с субъективными намерениями поисковиков: чем больше источников указывают на страницу, тем ценнее информация на этой странице и тем больше вероятность того, что пользователи ее посетят.Но источники ссылок не равны — количество страниц, которые ссылаются на них, также измеряется: чем больше обратных ссылок имеет ссылающаяся страница, тем большую силу PageRank она передает на страницу, на которую ссылается. Давайте рассмотрим это подробнее.
Как это вычисляется
Вот исходная формула PageRank:
PR (A) = (1-d) + d (PR (T1) / C (T1) + ... + PR (Tn) / C ( Tn))
где
- A — анализируемая страница
- T1… Tn — страницы, указывающие на анализируемую страницу
- C — количество ссылок, размещенных на анализируемой странице
- d — коэффициент демпфирования, который соответствует вероятности того, что пользователь покинет страницу (обычно установлен на 0.85)
Когда страницы голосуют за другие страницы, цитируя их, они распределяют свой PageRank. Например, страница A имеет рейтинг PageRank 5 и ссылается на страницы B и C. В отличие от других ссылок, которые могут иметь страницы B и C, страницы B и C получают вместе 85% баллов страницы A (4,25) ( оценка, умноженная на коэффициент демпфирования). Если страница B ссылается на страницу D, оценка PageRank D будет включать 85% оценки B и так далее.
Давайте рассмотрим простой пример распределения PageRank, полученного с помощью симулятора PageRank:
Page 3 здесь имеет наивысший балл PageRank, потому что он связан с большинством.А поскольку страница 3 имеет наивысший балл, рейтинг PageRank, который она передает на страницах 4 и 5, также выше. Естественно, этот расчет выполняется изолированно от реального сценария, предполагая, что в сети существуют только эти 5 страниц, но он показывает в упрощенном виде, как значение PageRank распределяется по веб-страницам.
Поскольку PageRank является авторитетным показателем, мощность, передаваемая по ссылкам, рассчитывается иерархически: цитирование со страницы PageRank 8 весит больше, чем цитирование со страницы PageRank 2.Но ваша страница может получить более высокое значение PageRank за счет ссылок с менее авторитетных страниц, если они обычно используют меньше цитирований. Скажем, на вашу страницу ссылаются из источника PageRank 7, который содержит 10 исходящих ссылок, а также из источника PageRank 3, который содержит только 3 ссылки. Первый источник получит значение PageRank, равное 0,105 (0,7, умноженное на коэффициент демпфирования), а второй принесет вашей странице 0,15. Однако качественные и популярные страницы обычно не ведут на множество других страниц, поэтому всегда лучше сосредоточиться на получении обратных ссылок с самых надежных сайтов.
Панель инструментов PageRank и манипулирование ссылками
В 2000 году Google сделал рейтинг PageRank любого веб-сайта общедоступным на панели инструментов браузера. Такое воздействие привело к манипуляциям с ранжированием, называемым формированием PageRank: владельцы веб-сайтов и оптимизаторы поисковых систем сосредоточились на получении большего количества ссылок с высоко оцененных страниц, и возникли целые фермы ссылок, чтобы помочь людям покупать ссылки. Такое понимание алгоритма, заключающегося в получении как можно большего количества ссылок со страниц с максимально высоким баллом, без учета контекста ссылок и многих других аспектов, не было устойчивой практикой SEO.
Google предпринимал различные попытки остановить манипуляции с рейтингом PageRank и в конце концов прекратил работу с панелью инструментов в 2016 году. Мы все еще можем видеть онлайн-сервисы, которые вычисляют рейтинг PageRank и предлагают значки PageRank для размещения на веб-сайтах, хотя это полностью устаревшая практика. Алгоритм по-прежнему используется в рейтинге Google, но найти официальные расчеты в открытом доступе невозможно.
Значение nofollow
Методы манипулирования ссылками были связаны не только с общедоступной панелью инструментов PageRank.Чтобы решить проблему спама в комментариях, Google вместе с другими крупными поисковыми системами в 2005 году представил значение nofollow для атрибута rel . Это значение указывает поисковым роботам не переходить по ссылке и предотвращает распределение доли ссылок. До nofollow люди могли наводнять Интернет комментариями, в которых упоминался адрес своего веб-сайта, и повышать рейтинг PageRank.
Это новое значение атрибута привело к появлению новых практик манипулирования ссылками. Учитывая, что вес, который PageRank передает связанным страницам, зависит от их количества — чем больше ссылок на странице, тем меньше часть PageRank этой страницы распределяется — оптимизаторы поисковых систем будут использовать nofollow , чтобы направлять поток PageRank и передавать больший вес через отслеживаемые ссылки.
Скажем, источник с рейтингом PageRank 5 процитировал 10 других страниц и отметил 8 из всех цитирований как nofollow. До nofollow это означало, что каждая процитированная страница получала одну десятую балла ссылающейся страницы (0,425 с учетом коэффициента демпфирования). При nofollow только 2 страницы, на которые вы просматриваете, будут получать половину PageRank страницы, на которую они ссылаются (2,125). Поскольку это была манипулятивная техника, ситуация изменилась в 2009 году: по тому же сценарию две страницы, за которыми следили, получат значение PageRank равное 0.425 вместо 2.125. Таким образом, PageRank равномерно распределяется по всем ссылкам на странице, но фактически передается только по ссылкам, помеченным как , следующие за .
Значение UGC
По сравнению с естественно размещенными релевантными исходящими ссылками, ссылки для комментариев чаще всего не заслуживают доверия, и было бы несправедливо давать им такую же оценку. В 2019 году Google добавил новый тип значения атрибута rel , специально разработанный для ссылок на комментарии: UGC (пользовательский контент).Теперь многие блоги и форумы автоматически устанавливают любые ссылки, помещенные в разделе комментариев, на UGC, в то время как nofollow используется для более широкого круга целей.
Обновленный алгоритм
В 2004 году Google опубликовал обновленный патент PageRank, основанный на «модели разумного серфера», где они представили идею о том, что ссылки могут иметь разные значения в зависимости от их потенциала для нажатия. Например, ссылки, размещенные вверху страницы, или ссылки с достаточно длинными информативными якорными текстами обычно более заметны и привлекательны для пользователей.С этого момента вероятность нажатия была рассмотрена для оценки авторитета и ранжирования.
В 2006 году Google разработала новую систему, которая выбирает несколько надежных источников, называемых исходными страницами, и оценивает качество других страниц на основе ссылок, поступающих с исходных страниц. Это была реакция на уязвимость PageRank для манипуляций, и новая формула выглядела так:
∀s i ≠ p ∈ P, R i (p) = d ∑ q → p R i (q) / q out * w (q → p)
где
- s i высокие -качество исходных страниц
- P представляет все веб-страницы
- q out — крайняя степень страницы q
- w — вес ссылки (по умолчанию установлено значение 1 )
Google называет The New York Times хорошим примером начальной страницы, поскольку она достаточно разнообразна, чтобы охватить широкий круг тем, которые интересуют пользователей, и содержит множество полезных исходящих ссылок.Страницы, процитированные семенами, также считаются высококачественными, и чем легче перейти на страницу из семени, тем она надежнее и тем выше ее оценка.
Согласно этому обновленному патенту процесс ранжирования распределения на основе ссылок проходит через следующие этапы:
- Система получает набор страниц, открытых для индексации и ранжирования
- Системе известен набор начальных страниц, которые связываются выход на другие страницы
- Система вычисляет расстояние от исходных страниц до анализируемых страниц на основе ссылок между ними
- Система определяет рейтинг на основе кратчайших расстояний до исходных страниц
Этот новый алгоритм, который заменил исходную формулу PageRank вычислить быстрее, потому что он больше не переходит от одной итерации к другой.И хотя срок действия оригинального патента PageRank истек в 2018 году, это не означает, что Google до сих пор его не использует. Отвечая на твит об авторитете, аналитик Google Джон Мюллер признал, что они использовали PageRank «среди многих других сигналов».
Факторы, влияющие на PageRank
Как мы уже упоминали, различные аспекты ссылок влияют на рейтинг PageRank:
- Количество ссылок
- Атрибуты ссылки
- Текст привязки
- Вероятность нажатия
Давайте посмотрим как получить максимальную отдачу от размещаемых и приобретаемых ссылок.
Оптимизация потока ссылок
Получение обратных ссылок для голосования в пользу вашего веб-сайта по-прежнему является одним из самых важных факторов для установления авторитета в Интернете. Ссылки передают ссылочный вес на страницы, которые они цитируют, при определенных условиях:
- Когда они актуальны . Релевантность является ключом к SEO во многих аспектах. Google не любит, когда страницы связаны между собой случайным образом. Допустим, ваша страница, содержащая рецепт кулинарии, получает ссылки со страниц об автомобилях — независимо от того, насколько доверяют внешнему источнику, этот тип ссылки не повысит рейтинг вашей страницы.
- Если у них есть естественный текст привязки . Бессмысленные якорные тексты, такие как «нажмите здесь» или чрезмерно оптимизированные, содержащие целевые ключевые слова, не подходят для установления релевантности. Якорный текст должен описывать, о чем связан источник, и служить подсказкой, почему пользователь должен перейти по ссылке.
- Когда сайтам, с которых они приходят, доверяют . Важно проверять домен и качество страниц источников, чтобы получать обратные ссылки и отслеживать вредоносные ссылки, поступающие из некачественных источников.
- Когда они доступны для сканирования . Ссылки имеют значение, если поисковые роботы могут их найти, и они не блокируются в robots.txt или другими способами.
- Когда они не вызывают ошибку, ответ сервера . И связанные, и ссылающиеся страницы должны быть открыты для индексации. Кроме того, ни одна переадресация не может передать полное количество ссылок: хотя Google заявил, что все типы переадресации проходят через PageRank, оптимизаторы SEO считают, что это может быть не так с переадресацией, отличной от 301.
- Когда за ними следят .Мы уже обсуждали, как значение nofollow влияет на распределение рейтинга: если ваша страница цитируется, но на нее нет подписчиков, это не принесет вам значительных преимуществ при ранжировании.
- Когда они видны на странице . Скрытые ссылки могут привести к штрафам, и чем больше видимых ссылок, тем лучше для UX и SEO. Это не означает, что ссылки должны резко выделяться: они должны быть легко различимы, но разработаны с использованием общих принципов визуализации ссылок.
Поскольку PageRank оценивает авторитет страницы, а не сайта, внутренние ссылки так же важны, как и обратные.При правильной внутренней привязке вы можете распределить поток ссылок:
- Чем больше внутренних ссылок на странице, тем выше ее PageRank
- Чем больше ссылок размещено на странице, тем меньшее значение PageRank они передают
- Ссылки, по которым легко щелкнуть передать более высокий PageRank
- Ссылки, присвоенные nofollow , не проходят никакого PageRank
Говоря о внешних ссылках, они не влияют на оценку PageRank страниц, на которых они размещены. Они действительно служат сигналами релевантности и помогают Google устанавливать связи между различными источниками, но не влияют напрямую на рейтинг в поисковых системах.
Альтернативные авторитетные метрики
PageRank был первым авторитетным показателем, который повлиял на работу в Интернете и поисковую оптимизацию. Он по-прежнему используется в рейтинге Google, хотя неясно, как именно. Можно с уверенностью сказать, что релевантные ссылки из высококачественных источников имеют решающее значение как для ранжирования, так и для установления авторитета.
Другие показатели SEO, предназначенные для оценки авторитета веб-сайта, также связаны с количеством и качеством обратных ссылок. Amazon Alexa Rank отличается от этой парадигмы, поскольку он оценивает посещаемость веб-сайта и вовлеченность посетителей, но параметры качества, разработанные платформами SEO, действительно сосредоточены на профиле обратной ссылки.
Например, доверие к домену и доверие к странице SE Ranking — это агрегированные оценки качества домена и страницы, основанные на количестве и качестве обратных ссылок и ссылающихся доменов. Вы можете получить представление о качестве любого веб-сайта, выполнив его анализ в инструменте Competitive Research :
Данные DT и PT также доступны в инструменте Backlink Checker и Backlink Monitor , а оценка DT представлена в Обзор Website Audit среди других основных показателей домена.
Итак, нужно ли вам заботиться о PageRank?
Ценность ссылок легла в основу формулы рейтинга Google. Независимо от изменений в алгоритме PageRank и его важности, ссылки всегда были и, вероятно, будут основным фактором ранжирования. В ходе вопросов и ответов в 2016 году представители Google показали, что контент и ссылки являются двумя основными факторами, влияющими на рейтинг, а в обсуждении Twitter в 2020 году, о котором мы уже упоминали, Джон Мюллер признал, что PageRank по-прежнему имеет значение для рейтинга.
Это означает, что вам нужно уделять первоочередное внимание работе над безопасным профилем обратных ссылок и время от времени совершенствовать внутренние ссылки. По словам Рэнда Фишкина из Moz, независимо от возраста теории PageRank, проверка ваших ссылок и удаление ненужных не повредит. Убедитесь, что структура вашего веб-сайта позволяет легко перемещаться по различным страницам и устанавливать обратные ссылки с авторитетными источниками, которые имеют отношение к темам, на которые вы ориентируетесь.
просмотров поста: 1,686
Контент-маркетолог и редактор SE Ranking, Анастасия пишет о SEO, маркетинге и технологиях.Помимо освещения различных тем для рейтинга SE, она тратит время на создание музыки, просмотр старых фильмов и игры со своей собакой.
Что такое Google PageRank? | Page One Power
История PageRank
Ларри Пейдж и Сергей Брин, соучредители Google, создали PageRank в Стэнфордском университете в 1996 году. В 1998 году, после основания Google Inc., Пейдж и Брин попытались использовать первый прототип PageRank в своей новой поисковой системе. для организации поискового контента.Прототип PageRank работал по простому принципу; если на странице было много обратных ссылок, то это должен быть авторитетный источник по данной теме. Ссылки никогда не были так важны для рейтинга поисковой выдачи. PageRank был настолько мощной и необходимой организационной системой для онлайн-информации, что за десять лет после своего создания Google стал одной из самых популярных поисковых систем в Интернете.
Хотя рейтинг страницы Google был революционным для поисковиков, это не означало, что проблем не было.Панель инструментов PageRank публично показывала рейтинг любой страницы по шкале от 0 до 10. Почему это было проблематично? Потому что с этим визуалом сайты могут покупать и продавать ссылки, используя свой PageRank, а не качество контента в качестве определяющего фактора.
Способ продажи ссылок в то время был еще одним способом, которым владельцы сайтов могли манипулировать рейтингом PageRank. Тактика Black Hat SEO включала в себя игры по ссылкам и аукционы, на которых владельцы сайтов покупали и продавали бэклайны исключительно на основе панели инструментов PageRank.В то время как Google хотел дать поисковикам и растущим специалистам по SEO способ измерения и отображения качества и авторитета сайтов, на которых они были, вместо этого они разработали схему быстрого обогащения для владельцев сайтов, которая не полагалась на контент. качественный. Таким образом, панель инструментов PageRank исчезла, и с помощью других обновлений алгоритмов, таких как Penguin Update, PageRank начал оценивать ссылки, основываясь больше на исследовательской основе, чем на чисто числовой.
Как работает PageRank?
Как упоминалось выше, PageRank фокусируется на анализе ссылок как на ключевом сигнале ранжирования для Google.Но как выглядит этот анализ? Короткий ответ: никто, кроме Google, точно не знает, как работает PageRank. Однако есть факторы, которые, как мы знаем, напрямую влияют на это, например, обработка обратных ссылок и внутренних ссылок.
Обратных ссылок
Сканирование, понимание и оценка обратных ссылок — приоритет номер один для PageRank. Не только качество вашей страницы важно, но и авторитет и качество страницы, с которой вы получаете ссылки, не менее важны для оценки PageRank.Наличие большого количества качественных обратных ссылок — один из способов поднять ваш PageRank. Другой способ — получить ссылки со страницы, которая считается «признанным авторитетом», например, со страницы правительства или организации здравоохранения.
Внутреннее соединение
Когда дело доходит до внутренних ссылок, PageRank имеет две основные особенности; размещение и функции. Якорный текст, текст, используемый для создания гиперссылки в контенте, важен для PageRank, поскольку он сигнализирует, по каким ключевым словам связанная страница надеется получить рейтинг, и может использоваться для информирования о семантических отношениях между связанными страницами.Этот контекст позволяет алгоритму быть более точным при оценке и понимании значения, цели и взаимосвязи между страницами, на которые есть ссылки, и словами, которые они содержат. Использование ссылок для поддержки навигации по сайту также может улучшить ваш рейтинг PageRank, поскольку пользовательский опыт является одним из ключевых факторов ранжирования Google по всем направлениям.
Google PageRank для инвесторов
Angels, Micro VC и Corporate VC с использованием модели, подобной Google PageRank, которая оценивает надежность и качество сети.
PageRank был первым алгоритмом, используемым Google для определения качества веб-сайта и результатов поиска. Если бы вы применили аналогичный алгоритм к инвесторам, как бы они сложились? Ниже мы сделали это, чтобы помочь измерить качество:
Но сначала для тех, кто не знаком с PageRank, вот как это работает:
PageRank работает путем подсчета количества и качества ссылок на страницу, чтобы определить приблизительную оценку того, насколько важен веб-сайт.Основное предположение состоит в том, что более важные веб-сайты, вероятно, будут получать больше ссылок с других веб-сайтов.
Для упрощения: если на вашем веб-сайте много ссылок, Google считает, что это может быть более надежным. Если некоторые из этих ссылок поступают с высококачественных сайтов, таких как harvard.edu или whitehouse.gov, это также повышает авторитет или доверие к сайту. Учет широты и качества ссылок на сайт помогает PageRank определять качество веб-сайта и, следовательно, его положение в результатах поисковой системы.Интернет — это большая взаимосвязанная сеть соединений (ссылок), основанная на PageRank.
Инвестиционная экосистема не отличается. Синдикация сделок в сфере технологий позволяет нам использовать аналогичный алгоритм для оценки качества работы любого инвестора в сети. В частности, мы можем использовать алгоритм стиля PageRank для оценки качества инвестора на основе его связей с другими участниками инвестиционной экосистемы.
Но зачем это делать?Для этого есть две причины:
- Качество сети определяет доходность фонда .Ученые доказали, что венчурные инвесторы с более развитой сетью работают лучше. Этот показатель, часто называемый центральностью сети, можно измерить количественно, построив рейтинг страниц в Google для инвесторов.
- Объективная мера силы сети . Каждый инвестор говорит, что у него отличная сеть. Подобно «проприетарному потоку сделок», это утверждение звучит здорово, но, к сожалению, в значительной степени не поддается проверке. Кроме того, что сейчас.
Алгоритм централизации сети рассматривает (1) количество (широту) связей инвестора с другими инвесторами в экосистеме и (2) качество и глубину этих связей.Наличие множества связей с инвесторами — это хорошо, равно как и заключение множества сделок с Accel Partners или Union Square Ventures (эквивалент ссылки с harvard.edu при использовании более ранней веб-аналогии). Если вы инвестируете в компании, которые в конечном итоге последуют за фондами высшего уровня, такими как Benchmark или Sequoia Capital, это также повысит силу вашей сети.
В качестве примера, используя наш инструмент построения карты сети под названием Business Social Graph, мы можем взглянуть на Felicis Ventures.Felicis — это узел в центре карты, а линии или края, соединяющие его с другими инвесторами, показывают, что он имеет много связей с фондами высшего уровня, включая Sequoia Capital, Founders Fund, SV Angel и First Round Capital (интерактивный социальный график бизнеса может быть увеличено изображение CB Insights, что упрощает чтение этикеток)
Еще один способ визуализировать центральность сети — использовать наши информационные панели Investment Syndicate от Investor Analytics. Используя эту возможность, мы можем взглянуть на другого управляющего фондом, Floodgate, и увидеть, что качество последующих инвесторов высокое и включает такие фирмы, как First Round Capital, Insight Venture Partners, Andreessen Horowitz и Kleiner Perkins.
Теперь давайте посмотрим на Google PageRank применительно к Angels, Micro-VC и корпоративным VC.
Данные ниже:
Бизнес-ангелы — влияние Y Combinator очевидноАлексис Оганян, основатель сайта социальных новостей Reddit, имел наивысший рейтинг «PageRank» или сетевой центральности среди всех ангелов, причем чаще всего его вложения следовали New Enterprise Associates, Google Ventures и First Round Capital.
Макс Левчин, соучредитель PayPal, а теперь стоящий за хорошо финансируемым платежным стартапом Affirm, является вторым бизнес-ангелом с наибольшим количеством сетевых контактов.Известность Левчина как члена «мафии PayPal» обусловлена сильной сетью. Highland Capital Partners, SV Angel и Founders Fund чаще всего следят за его инвестициями.
Следует отметить, что 6 из 20 ведущих ангелов по центральному положению в сети были связаны со знаменитым ускорителем Y Combinator. В число этих ангелов входят нынешний президент Y Combinator Сэм Альтман, нынешние / бывшие партнеры Гарри Тан, Джефф Ральстон, Пол Бухейт и Хардж Таггар, а также посол Алексис Оганян.
Среди последующих инвесторов First Round Capital был наиболее частым, что свидетельствовало о сильных связях компании с известными бизнес-ангелами.Andreessen Horowitz и SV Angel завершили тройку лидеров. В приведенной ниже таблице представлены 20 ведущих ангелов по центральному расположению сети и 3 их крупнейших соинвестора венчурного капитала на основе общего числа компаний, в которые они вложили совместные инвестиции.
Микро ВК — подключается SV Angel и коннекторSV Angel занял первое место среди всех микрокомпаний венчурного капитала, а фонд легендарного инвестора Рона Конвея получил наибольшее значение по централизованности сети. Компания Lerer Hippeau Ventures из Нью-Йорка заняла второе место по центральности сети.Дэйв МакКлюр возглавлял 500 стартапов, CrunchFund основателя TechCrunch Майкла Аррингтона и Founder Collective завершили пятерку крупнейших венчурных капиталистов по оценке PageRank инвесторов.
Следует отметить, что все перечисленные ниже фирмы входят в верхний дециль микрокомпаний венчурного капитала, поэтому различия между их оценками централизации сети относительно невелики. В приведенной ниже таблице представлены 14 крупнейших венчурных капиталистов (верхний дециль) по центральности сети и их 3 крупнейших соинвестора венчурных капиталистов по общему количеству компаний.
Корпоративные венчурные капиталисты — быстрое восхождение Google VenturesКомпания Google, являющаяся базой для алгоритма PageRank, увидела, что ее корпоративное венчурное подразделение, Google Ventures, занимает первое место среди всех корпоративных венчурных групп по силе сети. Пять других CVC попали в верхний дециль, включая Qualcomm Ventures, Comcast Ventures, Salesforce и Time Warner Investments.
Партнерами инвестиционного синдикатаGoogle Ventures часто являются Kleiner Perkins Caufield & Byers и Andreessen Horowitz.Andreessen Horowitz заключил большинство сделок с GV на ранней стадии, в то время как Kleiner и GV объединились для финансирования по всему спектру зрелости от AngelList до Shape Security и Secret. В приведенной ниже таблице представлены 10 крупнейших корпоративных предприятий с наибольшим количеством сетевых объединений, которые вооружают своих трех крупнейших соинвесторов по общему количеству сделок.
Для получения дополнительной информации о синдикации инвесторов могут быть интересны следующие аналитические обзоры:
Для доступа и анализа инвестиционных синдикатов из Investor Analytics или Business Social Graph создайте учетную запись ниже.
Этот отчет был создан на основе данных платформы CB Insights для анализа новых технологий, которая предлагает ясность в отношении появляющихся технологий и новых бизнес-стратегий с помощью таких инструментов, как: Если вы еще не являетесь клиентом, подпишитесь на бесплатную пробную версию, чтобы узнать больше о нашей платформе.