Индексировать сайт в поисковых системах: Индексация сайта в поисковых системах, добавление в индекс и проверка

Содержание

Как переиндексировать сайт в поисковиках

Индексация сайта позволяет отобразить его страницы в поисковой системе. За такую работу отвечают специальные алгоритмы – роботы. Они сканируют всю информацию на сайте: картинки, фотографии, видео и так далее. Если все прошло успешно, то веб-страницы добавляются в базу и начинают появляться в поисковике при релевантных запросах пользователей.

Как сказать роботу, чтобы он просканировал сайт и отправил его в поисковую систему? Об этом и многом другом поговорим в сегодняшней статье.

Как работает индексирование

Поисковый робот сканирует страницу, и она попадает в Google, Яндекс или другую систему. Но между этими процессами протекают еще и внутренние. После обхода страницы вся полученная информация отправляется в базу данных – индекс, которая хранится в поисковике. Следующим этапом данные распределяются по двум путям: для выстраивания ранжирования (сортировки сайта в поисковой выдаче) и для служебных целей.

При сканировании работы исследуют не только видимую для пользователей текстовую информацию, но и другие параметры: атрибуты документа, информацию из тегов alt, title и description, скрипты.  

И даже если робот обошел весь сайт, не факт, что он окажется в топе. На это влияет уникальность страницы и полезность контента. Если робот посчитает, что информация не соответствует действительности либо недостаточно уникальна, он может не добавить ее в индекс.

Процесс индексации в Google и Яндекс происходит немного по-разному. 

Как оно работает в Google

Первым делом стоит сказать, что точные алгоритмы индексирования страниц засекречены. Как работают Google и Яндекс, знают только сотрудники компаний, но поговорить о базовых принципах можно.

В Google используется технология Mobile-first, которая в первую очередь сканирует мобильную версию сайта. Таким образом, если десктопная версия отлично проработана и заслуживает внимания, а про мобильную версию забыли, то вероятность индексирования будет крайне мала.

Другая особенность Гугла – проверка краулингового бюджета – регулярности и объема посещения сайта роботом. Чем выше этот показатель, тем быстрее будут проходить индексацию новые страницы. Как именно он рассчитывается, неизвестно, но многие специалисты предполагают, что это связано с возрастом сайта и частотой его обновлений.

Как оно работает в Яндекс

В отличие от Гугла, Яндекс не берется в первую очередь за мобильную версию – он изучает, как устроена десктопная версия сайта. С краулинговым бюджетом все наоборот – по крайне мере, официально. Индексирование происходит вне зависимости от траста и других показателей ресурса.

На попадание в поисковик может влиять количество страниц в сети, которые выкладываете вы и другие пользователи. А чтобы добиться высоких результатов в выдаче, сайт должен быть популярным. Чем больше пользователей его посещают, тем лучше.

И еще одна особенность – поисковик не сканирует на сайте файлы размером больше 10 Мб. Это следует учитывать, если вы собираетесь покорять Яндекс.

Комьюнити теперь в Телеграм

Подпишитесь и будьте в курсе последних IT-новостей

Подписаться

Как настроить индексацию сайта

Чаще всего индексация сайта происходит автоматически. Для настройки индексации сайта нам потребуется файл robots.txt. Обычно он генерируется CMS и выглядит примерно так:

Может показаться, что в файле написано что-то сложное и непонятное, но не переживайте – сейчас во всем разберемся. Вот на что стоит обратить внимание:

  • user-agent – показывает, для какого поисковика настраивается индексирование;
  • disallow – показывает, какие страницы не должны попасть в индекс.

Теперь поговорим о другом файле под названием sitemap.xml. Уже из названия понятно, что это карта сайта. Она показывает некую иерархию – как устроена структура ресурса. Это необходимо для упрощения считывания данных поисковыми роботами. В файл вносятся все страницы, которые должны быть проиндексированы.

Такой файл, как правило, создается всего в несколько кликов с помощью плагинов CMS. Например, на WordPress можно воспользоваться AIOSEO. В настройках плагина достаточно перевести ползунок в режим «Включено».

Чтобы сайт максимально быстро индексировался, следует обеспечить внутреннюю перелинковку. Тогда поисковый робот без проблем будет переходить по страницам и быстро найдет новый документ.

После этого вам останется пройти базовую настройку в Google Search Console и Яндекс.Вебмастере. Там нет ничего сложного – интерфейс сам подскажет, что нужно делать.

Можно ли ускорить индексирование

Как таковой заветной кнопки для ускорения индексирования не существует, но можно «поторопить» робота. Это будет полезно, если индексация страницы идет слишком долго, например, из-за какого-то сбоя.

Сделать это можно через личный кабинет Яндекс.Вебмастера. Первым делом необходимо перейти в раздел «Переобход страниц».

После этого вводим адрес той страницы, которую нужно проиндексировать, и нажимаем «Отправить».

Так можно поступать не только с новыми страницами, но и при редактировании старых. Важное замечание – количество отправок в сутки ограничено, причем все зависит от возраста и траста сайта.

У Google ускорение индексации состоит из двух этапов – сначала переходим в Search Console и в верхней части вводим необходимый адрес. Затем нажимаем на клавишу «Enter».

На отразившейся странице будет доступна информация по данной странице. Чтобы ее проиндексировать, достаточно нажать на кнопку:

Как удалить страницу из результатов поисковой системы

Существует три способа удаления страницы: использование тега robots, добавление запрещающей директивы в системный файл robots.txt и использование специальных инструментов Google или Яндекс.

Первый способ подразумевает добавление тега в <head> страницы:


<meta name="robots" content="noindex, follow"/>

Чтобы добавить запрещенную директиву, необходимо прописать «пожелания» для робота. Они могут быть не выполнены, но чаще всего срабатывают. Для этого в файле robots.txt прописываем:


User-agent: Google или Yandex

Disallow: /указывается ссылка на желаемую страницу, которую нужно удалить из выдачи

И последний, пожалуй, самый простой способ – воспользоваться Google Search Console или Яндекс. Вебмастером. В настройках сервисов есть отдельная вкладка, позволяющая удалить любую страницу сайта. Вот так это выглядит в Вебмастере:

Чтобы попасть на эту страницу, необходимо в личном кабинете перейти в «Инструменты» и выбрать «Удаление страниц из поиска».

Как понять, что страница есть в поисковике

Один из самых простых способов понять, проиндексировалась ли страница – это ввести запрос в поисковую систему. Выглядит он как ссылка на страницу, например: https://timeweb.com/ru/community/articles/luchshie-rossiyskie-servisy-email

.

Если мы введем такой запрос в гугле, то увидим эту страницу в выдаче:

Соответственно, если бы страница не проиндексировалась, то по данному запросу мы ее не увидели.

Также мы можем посмотреть все страницы, которые были добавлены в поисковик. Для этого необязательно сотню раз вводить адреса страниц. Достаточно воспользоваться простой формулой:


site:адрес сайта

При таком запросе будет отображен список всех страниц, которые есть в данном поисковике. Вот, например, как это выглядит в Гугле:

Также вы можете посмотреть индексацию страниц через Яндекс.Вебмастер в разделе «Индексирование» -> «Страницы в поиске».

Почему проиндексированная страница пропала из выдачи?

Этому может способствовать множество различных причин. Вот одни из самых распространенных:

  • запрашиваемая страница выдает 301 код ошибки;
  • запрашиваемая страница выдает 400 и 500 коды ошибок;
  • в файле robots.txt стоит запрет на индексирование;
  • на странице есть дублирующий контент;
  • наложены санкции за покупные ссылки, некачественный или устаревший контент.

При любых сложностях с индексированием в первую очередь следует смотреть рассмотренные выше файлы – robots.txt и sitemap.xml. Если там все в порядке, то необходимо проверить, нет ли каких-либо ограничивающих фильтров. Если и с ними все хорошо, то лучше всего обратиться к администратору хостинга.

Выводы

Индексация страниц в поисковиках – это один из важнейших этапов успешного SEO-продвижения. Если вы хотите, чтобы ваши страницы посещали другие пользователи, то необходимо регулярно контролировать синхронизацию с популярными поисковыми системами.

Главное правило – это качественный контент, который ценится людьми и ботами. Старайтесь, чтобы сайт был хорошим для пользователей не только в плане контента, но и удобства использования. Все это может повлиять на индексацию как с позитивной, так и с негативной стороны.

Индексация сайта в поисковых системах

Индексация в поисковых системах — что это?

Если говорить простым языком, то индексирование сайта представляет собой внесение его страниц в базу поисковых систем. В ходе этого процесса система собирает информацию о содержании ресурса. Поисковые роботы (их еще называют пауками) сканируют и обрабатывают веб-страницы, видео, изображения и т. д. После того как анализ завершен, страницы сохраняются в поисковый индекс — то есть базу данных. И именно в ней в дальнейшем система ищет результаты, которые соответствуют запросам пользователей.

Как происходит индексация сайта поисковыми системами

Один запрос — это тысячи адресов, потенциально содержащих ответ. По сути, Google знает его до того, как пользователь ввел запрос в поисковую строку. Индексация — непрерывный процесс, так как веб-роботы регулярно сканируют новые и обновленные сайты, добавляя полученную информацию в индекс (базу данных). Получается, когда пользователь что-то ищет в интернете, на самом деле он ищет индекс.

Подстраницы сайта, то есть, дочерние, идущие после основной, индексируются по одной. После ввода запроса робот выполняет поиск по индексу и находит все соответствующие ему страницы. Таким образом, мы получаем действительно огромное количество результатов.

Чтобы дать пользователю наиболее точный ответ, Google использует алгоритмы, которые выбирают сайты в индексе на основе нескольких сотен различных факторов. Они учитывают не только количество и размещение ключевых слов, релевантных словосочетаний, но и качество, юзабилити сайта, насколько хорошо он защищает конфиденциальные данные. Факторов ранжирования множество, и соответствовать нужно каждому. При этом сам процесс определения позиции сайта и отображения результатов поиска занимает у Google примерно полсекунды.

Сколько www-адресов в индексе? Сотни миллиардов. Они занимают более 100 000 000 гигабайт. Google назначает сайт для индекса в соответствии со словами, которые он содержит.

Загрузка, индексация и работа алгоритмов

Чтобы определить сайт, который лучше всего отвечает на запросы пользователя, должны сработать поисковые алгоритмы. Именно благодаря им результаты в индексе выбираются и упорядочиваются в определенном порядке. Google постоянно работает над улучшением своих алгоритмов, поэтому он может распознавать ключевые слова, контекст и даже опечатки, которые могут появляться при вводе запроса. При этом алгоритмы оценивают не только текст, но и другие аспекты, например, доверие к сайту, достоверность и информативность контента, качество ссылок и даже намерения пользователя.

Провести анализ индексации сайта в поисковых системах

Адрес сайта

Индексирование и сканирование

Что такое индексация страниц, мы рассмотрели. Однако в контексте поисковых систем вы также можете найти термин «сканирование». Сканирование еще не индексирует страницы, а только перемещает робота между ними.

Crawling — это отправка бота на анализируемый сайт, тогда как индексирование — это загрузка, обработка и сбор данных для включения его в индекс поисковой системы. Сканирование не означает, что адрес был проиндексирован и появится в результатах поиска.

Размещение веб-адреса в индексе — это следующий этап после сканирования. Не каждая просканированная страница индексируется, но каждая проиндексированная была просканирована ранее.

Краулинговый бюджет сканирования

Краулинговый бюджет — это максимальный объем данных, которые поисковая система может получить с домена за одно посещение роботом. Чтобы извлечь максимальную пользу из обхода роботом, необходимо рассмотреть два аспекта:

  • ограничение скорости сканирования;
  • ускорение индексирования сайта.

Во время одного посещения сайта роботы хотят просканировать максимально возможное количество URL-адресов. Ограничение скорости сканирования заключается в том, чтобы они делали обход без перегруза сервера. Если краулер будет загружать слишком большое количество страниц, сайт начнет грузиться медленнее, а это, в свою очередь, разочарует его посетителя.

Ранее для этого ограничения нужно было указывать директиву crawl-delay в файле robots.txt. Сегодня она считается устаревшей, так как поисковые системы сами управляют скоростью. Если нагрузка на сервер слишком большая, сканирование прекращается автоматически, поэтому «тяжелые» странички необходимо оптимизировать, чтобы их вес уменьшился, и на их обработку роботы тратили меньше времени.

Чтобы ускорить индексирование, бота принудительно возвращают на сайт. Для этого новые или обновленные страницы отправляются на повторное сканирование через панель вебмастера. Стоит отметить, что популярные и часто обновляемые сайты обрабатываются чаще, так как изменения на них привлекают внимание поисковых роботов. Именно поэтому прекращение работ по оптимизации становится причиной снижения позиций в выдаче.

Если кратко, бюджет индексации сайта — количество URL-адресов, которые поисковая система может и хочет проиндексировать. Выражается в мегабайтах (Мб).

На каждый домен выделен ежедневный бюджет. Боты просматривают страницы до предела и прекращают индексирование после его израсходования. Затем они возвращаются, чтобы проверить обновления на уже загруженных адресах. Если архитектура сайта плохо проработана, страницы, расположенные слишком глубоко, могут вообще не индексироваться. Чтобы этого избежать, нужно делать упор не столько на красивом дизайне, сколько на юзабилити с учетом дальнейшей оптимизации. Важные подстраницы должны находиться в числе первых в иерархии структуры сайта, остальные упорядочиваются по мере снижения приоритетности.

Когда поисковый робот возвращается на сайт, никто не знает. По идее, сканирование осуществляется каждый день, но нигде не указано, когда именно бот его прекращает и в какое время возобновляет.

Циклическая индексация

Индексирование носит циклический характер, поэтому нужно постоянно заботиться о качестве сайта и вносимых обновлениях, чтобы занимать высокие позиции в результатах выдачи. После первого посещения роботы время от времени возвращаются, чтобы проверить и проиндексировать любые изменения. Чем чаще они встречают новый, ценный контент, тем больше вероятность, что вернутся вновь. И как итог: чем раньше он будет проиндексирован, тем быстрее появится в результатах поиска.

Часто возникающие вопросы в процессе индексации сайтов.

1. Почему я не могу найти свою страницу в Google?

1.1. Время индексации.

Сколько времени занимает индексация страницы в Google? На этот вопрос нет однозначного ответа. Однако практика веб-мастеров показывает — загрузка нового сайта в индекс поисковой системы может занять от пары дней до нескольких месяцев. В этой статье мы рассмотрим факторы, которые ускоряют и замедляют этот процесс, и попытаемся ответить на вопрос, можно ли оценить реальное время индексации страницы в Google.

Как проверить, была ли страница сохранена в поисковой системе?

Способ 1: введите сайт в окно поисковой системы ссылку Вашего сайта. Если вы получаете результаты, сайт был проиндексирован. Отсутствие ссылок на сайт означает, что он, вероятно, еще не обработан роботом Google.

Способ 2: проверить статистический отчет в консоли Google для веб-мастеров. Он содержит информацию о действиях на сайте, выполненных поисковым роботом за последние 90 дней.

1.2. Когда Google не сохраняет адрес в индексе?

Google не сохраняет url сайта по разным причинам. Несколько примеров, почему это может произойти:

  • неправильно настроенный robots.txt. При этом поисковая система по-прежнему может просматривать страницу, заблокированную в файле robots.txt, но не будет видеть ее содержимое. В этом случае рядом с результатом появится сообщение: «Описание этого результата недоступно из-за robots.txt»,
    ограничено выбранными каталогами,

например:
User-agent: *
Disallow: / images /
Disallow: / private /

Здесь мы не блокируем индексацию всей страницы, а только элементы, хранящиеся в двух каталогах, то есть, images и Private.

Или

User-agent: *
Disallow: /

Здесь блокируем доступ ко всему сайту.

  • неправильно настроенный файл .htaccess, который позволяет, среди прочего, блокировать пользователей, например, по IP-адресам. Если администратор случайно заблокировал IP-адреса Google, страница не проиндексируется;
  • устаревшая карта сайта;
  • низкокачественный сайт.

1.3. Когда стоит переиндексировать сайт?

Отправка запросов в панели веб-мастера на сканирование страниц не является обязательной, но может помочь ускорить посещение сайта роботом Google. Помните, что бот автоматически возвращается, чтобы получить актуальную информацию о его содержимом. Таким образом, запрос на индексирование можно повторить, но на практике это необязательно, потому что толком неизвестно, действительно ли это ускорит процесс. В общих рекомендациях, доступных в Справке Google, есть информация о том, что индексация занимает от пары дней до нескольких недель (в некоторых случаях даже месяцев), и отправка большого количества запросов на повторное сохранение одного и того же URL-адреса никак не ускорит ее.

2. Как ускорить индексацию страницы в Google?

2.1. Изменения на сайте и индексация.

Систематическое обновление сайта новым и полезным контентом может привести к тому, что роботы поисковых систем будут чаще его посещать, тем самым ускоряя индексацию. Это, конечно, только один метод, но очень важный с точки зрения поискового продвижения. Прежде чем мы узнаем, почему некоторые адреса сканируются быстрее, а другие замедляются, стоит изучить способы ускорения всего процесса.

2.2. Способы ускорения индексации страницы.

Вот несколько SEO-методов, которые помогут ускорить индексацию сайта:

  • добавление ссылок на страницы с большим трафиком.

Чем больше ссылок связано с сайтом, тем выше вероятность того, что он будет проиндексирован. Также контент, который нужно быстро проиндексировать, должен быть связан с главной. Кроме того, чем ближе к ней находится важная страница, тем лучше. Теоретически, поисковая система должна сканировать ее быстрее.

Вот почему стоит учитывать это при планировании структуры сайта. Чтобы ускорить этот процесс, стоит также разместить важные ссылки в своем блоге, социальных сетях, тематическом форуме или написать статью, содержащую ссылку;

  • использование карт XML и HTML.

Карта сайта поможет ускорить процесс индексации сайта, хотя в целом отсутствие файлов XML и HTML не помешает роботу сделать это и без них. Карта сайта — это перечень имеющихся подстраниц. Она минимизирует количество переходов бота по страницам, благодаря чему уменьшается время на их поиски;

  • отправка запроса на индексацию страниц с помощью Google Search Console.

Внимание! Ускорение индексации — это не то же самое, что увеличение позиции сайта в результатах поиска. Индексация напрямую не влияет на нее, но сильно сказывается на самом продвижении. Непроиндексированный контент не будет включен в результаты поиска, но в то же время индексирование не означает, что позиции страницы будут высокими.


3. Быстрая индексация страниц в Google: сколько времени это займет?

3.1. Почему один адрес сканируется быстрее, чем другой?

Как обычно бывает с Google, когда дело доходит до индексации, эксперты компании ничего не объясняют напрямую. В 2018 году Джон Мюллер из Google подтвердил, что URL-адреса сохраняются в соответствии с различными факторами, и что поисковая система не сканирует URL-адреса с одинаковой частотой все время. Поэтому неудивительно, что некоторые сайты роботы будут посещать ежедневно, другие – каждую неделю, третьи — раз в несколько месяцев или даже через полгода.

Стоит подчеркнуть, что редкое сканирование сайта не означает, что с ним что-то не так с технической стороны. Период обработки в несколько месяцев вполне нормальный и естественный. В качестве примера следует добавить, что внесение значительных изменений на сайте приведет к тому, что часть страниц проиндексируется быстро. Остальным же придется какое-то время подождать. Почему так происходит? На это влияют многие факторы: перелинковка, структура страницы, частота изменений. Например, если сайт давно не обновлялся, поисковая система может не отправить к нему бота. Тем не менее, когда происходит обновление, это может занять какое-то время, но в конечном итоге робот Google обязательно посетит изменившуюся страницу.

3.2. Как быстро поисковая система может проиндексировать страницу?

В большинстве случаев на это требуется несколько дней. Это может занять до 24 часов, хотя нельзя сказать, что это происходит на постоянной основе. Веб-мастера признают, что бывает и иначе: страница может появиться в индексе в тот же день, через неделю или даже месяц.

3.3. Сколько времени занимает индексация изменений на страницах?

На этот вопрос нет однозначного ответа. Google работает в определенном темпе, но известно, что, помимо частоты обновлений, он также учитывает и другие факторы. Чтобы поисковый робот посещал сайт чаще, его нужно регулярно обновлять. После внесенных изменений, например, удаление или добавление страниц, отправьте запрос на переобход через панель вебмастера. Можно также оставлять ссылки на новый контент в социальных сетях, блогах, тематических форумах.

3.4. От индексации к ранжированию.

Без индексации вы не сможете получить высоких позиций в результатах поиска, потому что это необходимый шаг для включения сайта в индекс Google. Само индексирование иногда занимает несколько месяцев. После сохранения сайта в кеше Google нужно время, чтобы оценить изменения. На данный момент страница уже находится на каком-то уровне в рейтинге. Вы вносите изменения, чтобы улучшить рейтинг, и цикл начинается снова.

4. Медленная индексация страниц в Google.

4.1. Ожидание индексации: сколько времени это занимает, в чем причина?

4.1.1. Долгое ожидание индексации: последствия для сайта.

Время, необходимое для индексации, влияет на время продвижения в целом. Поднятие позиций или изменений в ранжировании можно наблюдать только после индексации страницы.

4.2. Медленная индексация новых страниц.

Для появления новой страницы в результатах поиска может потребоваться от 24 часов до нескольких месяцев. Это из-за того, что сайт новый, он не имеет входящих ссылок.

Ожидание в течение нескольких недель появления адреса в результатах поиска — естественный процесс. Как пользователи интернета, мы привыкли к мгновенному получению ответов на запросы, но с другой стороны, веб-мастера, это происходит не так быстро, как хотелось бы. Чтобы повысить вероятность быстрого сканирования страницы, выполните действия, описанные в разделе «Как ускорить индексацию страницы в Google?».

4.3. Медленная индексация измененных страниц.

Стоит понимать, что регулярное и частое обновление контента ускоряет индексацию и, следовательно, повышает шанс подняться в рейтинге поисковой системы. Чем чаще что-то происходит на сайте, тем больше вероятность того, что Google сочтет его активным и будет чаще отправлять свой сканер для анализа изменений.

Как запретить сайту выполнять индексацию страниц

Существует несколько способов сделать это:

  1. Используйте в html-коде страницы атрибут noindex. Таким образом поисковая система «поймет», что эту страницу необходимо исключить из результатов поиска.
  2. Ограничьте индексацию через файл конфигурации .htaccess с помощью пароля.
  3. Используйте файл robots.txt. С помощью этого документа можно запретить индексацию ресурса целиком или же заблокировать доступ к выбранным страницам.
  4. Удалите URL через специальные плагины.

Каждый из методов подходит под отдельную ситуацию. Поэтому выбирать, как закрыть сайт или страницы от индексирования, нужно в индивидуальном порядке.

FAQ

Что такое индексация сайта?

Индексация страниц сайта — это процесс, который чем-то похож на внесение информации в каталог библиотеки. Только в этом случае сведения о ресурсе или его отдельных страницах добавляются в базы данных поисковиков. Индексация выполняется в автоматическом режиме специальными алгоритмами — роботами.

Как индексировать сайт?

Если вас интересует индексация сайта в Google, то для этого нужно выполнить следующие действия:

  • найти инструмент проверки URL в Google Search Console;
  • указать URL-адрес страницы или сайта, дождаться, пока будет выполнена его проверка;
  • после этого нажать на кнопку «Запросить индексирование».

Такой способ бесплатный и подходит для индексации новых страниц.

Какие страницы не нужно индексировать?

В индексации не нуждаются копии сайта, страницы в процессе разработки, пользовательские элементы и формы, технические страницы, а также страницы пагинации, сортировки, печати. Кроме этого, нельзя индексировать страницы, на которых содержится персональная информация о клиентах.

Что такое индексирование в поисковых системах и как оно работает?

Сэм Марсден

SEO и контент-менеджер

Давайте поделимся

Что происходит, когда поисковая система завершает сканирование страницы? Давайте рассмотрим процесс индексации, который поисковые системы используют для хранения информации о веб-страницах, что позволяет им быстро выдавать релевантные высококачественные результаты.

 

Зачем нужна индексация поисковыми системами?

Помните дни до Интернета, когда вам приходилось обращаться к энциклопедии, чтобы узнать о мире и копаться в Желтых страницах, чтобы найти сантехника? Даже на заре Интернета, до появления поисковых систем, нам приходилось искать информацию в каталогах. Какой трудоемкий процесс. Откуда у нас хватило терпения?

Поисковые системы произвели революцию в поиске информации, поскольку пользователи ожидают почти мгновенных ответов на свои поисковые запросы.

 

Что такое индексирование поисковыми системами?

Индексирование — это процесс, с помощью которого поисковые системы упорядочивают информацию перед поиском, чтобы обеспечить сверхбыстрые ответы на запросы.

Поиск на отдельных страницах по ключевым словам и темам будет очень медленным процессом для поисковых систем, чтобы определить релевантную информацию. Вместо этого поисковые системы (включая Google) используют инвертированный индекс, также известный как обратный индекс.

Просмотрите дополнительные ресурсы по индексации поисковыми системами в Академии веб-разведки Lumar

 

Что такое инвертированный индекс?

Инвертированный индекс — это система, в которой база данных текстовых элементов составляется вместе с указателями на документы, содержащие эти элементы. Затем поисковые системы используют процесс, называемый токенизацией, чтобы сократить слова до их основного значения, тем самым уменьшая количество ресурсов, необходимых для хранения и извлечения данных. Это гораздо более быстрый подход, чем перечисление всех известных документов по всем релевантным ключевым словам и символам.

Пример инвертированной индексации

Ниже приведен очень простой пример, иллюстрирующий концепцию инвертированной индексации. В примере видно, что каждое ключевое слово (или токен) связано со строкой документов, в которых этот элемент был идентифицирован.

Ключевое слово Путь к документу 1 Путь к документу 2 Путь к документу 3 9004 38 SEO example. com/seo-tipsmoz.com
HTTPS deepcrawl.co.uk/https-speed пример использует URL-адреса, но это может быть документ Вместо этого идентификаторы зависят от того, как устроена поисковая система.

 

Кэшированная версия страницы

Помимо индексации страниц, поисковые системы также могут хранить сильно сжатую текстовую версию документа, включая все HTML и метаданные.

Кэшированный документ — это последний снимок страницы, просмотренный поисковой системой.

Доступ к кэшированной версии страницы можно получить (в Google), щелкнув маленькую зеленую стрелку рядом с URL-адресом каждого результата поиска и выбрав вариант кэширования. Кроме того, вы можете использовать оператор поиска Google «cache:» для просмотра кешированной версии страницы.

Bing предлагает те же возможности для просмотра кешированной версии страницы с помощью зеленой стрелки вниз рядом с каждым результатом поиска, но в настоящее время не поддерживает оператор поиска «кэш:».

 

Что такое PageRank?

«PageRank» — это алгоритм Google, названный в честь соучредителя Google Ларри Пейджа (да, действительно!) Это значение для каждой страницы, рассчитанное путем подсчета количества ссылок, указывающих на страницу, чтобы определить ее значение относительно любой другой страницы в Интернете. Значение, передаваемое каждой отдельной ссылкой, основано на количестве и значении ссылок, указывающих на страницу со ссылкой.

PageRank — это лишь один из многих сигналов, используемых в большом алгоритме ранжирования Google.
Приблизительные значения PageRank изначально были предоставлены Google, но они больше не являются общедоступными.

Хотя PageRank является термином Google, все коммерческие поисковые системы рассчитывают и используют эквивалентную метрику ссылочного веса. Некоторые SEO-инструменты пытаются дать оценку PageRank, используя собственную логику и расчеты. Например, Page Authority в инструментах Moz, TrustFlow в Majestic или рейтинг URL в Ahrefs. У Lumar есть метрика под названием DeepRank для измерения ценности страниц на основе внутренних ссылок на веб-сайте.

 

Как PageRank перемещается по страницам

Страницы передают PageRank или ссылочный капитал другим страницам посредством ссылок. Когда страница ссылается на контент в другом месте, это рассматривается как вотум уверенности и доверия, поскольку контент, на который ссылаются, рекомендуется как актуальный и полезный для пользователей. Количество этих ссылок — и мера того, насколько авторитетным является ссылающийся веб-сайт — определяет относительный PageRank страницы, на которую ссылаются.

PageRank поровну распределяется между всеми обнаруженными ссылками на странице. Например, если на вашей странице пять ссылок, каждая ссылка будет передавать 20% PageRank страницы через каждую ссылку на целевые страницы. Ссылки с атрибутом rel=»nofollow» не проходят PageRank.

 

Обратные ссылки являются краеугольным камнем того, как поисковые системы понимают важность страницы. Было проведено множество исследований и тестов, чтобы определить корреляцию между обратными ссылками и рейтингом.

Исследование обратных ссылок, проведенное Moz, показывает, что в результатах 50 самых популярных поисковых запросов Google (около 15 000 результатов поиска) 99,2% из них содержали как минимум 1 внешнюю обратную ссылку. Кроме того, SEO-специалисты постоянно оценивают обратные ссылки как один из наиболее важных факторов ранжирования в опросах.

Следующая глава: Отличия поисковых систем


 

Полное руководство по работе поисковых систем:

Как работают поисковые системы?

Как поисковые системы сканируют веб-сайты

Как работает индексирование в поисковых системах?

Каковы различия между поисковыми системами?

Что такое краулинговый бюджет?

Что такое Robots. txt? Как robots.txt используется поисковыми системами?

Руководство по директивам Robots.txt

 


Дополнительные учебные ресурсы:

Рекомендации по индексации (Академия аналитики веб-сайтов Lumar)

Узнайте больше об индексации в поисковых системах и поисковой оптимизации

Электронная книга: Полное руководство по SEO для предприятий

Как следует подходить к SEO для корпоративных веб-сайтов? Какие уникальные соображения и проблемы существуют для поисковой оптимизации в масштабе предприятия по сравнению с внедрением SEO в небольших организациях?

Электронная книга
: Digital Ops & Demand Generation

Узнайте, как сделать свой веб-сайт мультипликатором производительности для формирования спроса, из этого руководства для специалистов по цифровому маркетингу и SEO-специалистов.

Начните улучшать онлайн-опыт уже сегодня

Lumar — это интеллектуальная и автоматизирующая платформа для прибыльных веб-сайтов

Начните с Lumar

Сэм Марсден

SEO и контент-менеджер

Сэм Марсден — бывший менеджер Lumar по поисковой оптимизации и контенту, а в настоящее время — руководитель отдела SEO в Busuu. Сэм регулярно выступает на маркетинговых конференциях, таких как SMX и BrightonSEO, и является автором отраслевых изданий, таких как Search Engine Journal и State of Digital.

Индексирование веб-сайтов для поисковых систем: как это работает?

Индексирование веб-сайтов является одним из первых шагов (после сканирования) в сложном процессе понимания того, что представляют собой веб-страницы, чтобы они были ранжированы и обслуживались поисковыми системами в качестве результатов поиска.

Поисковые системы постоянно совершенствуют методы сканирования и индексации веб-сайтов.

Понимание того, как Google и Bing подходят к сканированию и индексированию веб-сайтов, важно для технического SEO и полезно при разработке стратегий улучшения видимости в поиске.

Индексирование: как работают поисковые системы сегодня

Давайте рассмотрим основные принципы работы поисковых систем.

Эта статья посвящена индексации. Итак, приступим.

Веб-индексирование

Индексация — это начало процесса ранжирования после сканирования веб-сайта.

Индексирование, по сути, означает добавление содержимого веб-страницы в Google для рассмотрения при ранжировании.

Когда вы создаете новую страницу на своем сайте, ее можно проиндексировать несколькими способами.

Самый простой способ проиндексировать страницу — ничего не делать.

Поисковые роботы Google переходят по ссылкам, и, таким образом, при условии, что ваш сайт уже находится в индексе и на новый контент есть ссылка с вашего сайта, Google в конечном итоге обнаружит его и добавит в свой индекс. Подробнее об этом позже.

Как быстрее проиндексировать страницу

Но что, если вы хотите, чтобы робот Googlebot быстрее попадал на вашу страницу?

Это может быть важно, если у вас своевременный контент или если вы внесли важное изменение на страницу, о которой нужно знать Google.

Я использую более быстрые методы, когда оптимизирую важную страницу или корректирую заголовок и описание, чтобы повысить число кликов.

Я хочу точно знать, когда они были обнаружены и отображены в поисковой выдаче, чтобы знать, с чего начинается измерение улучшения.

В таких случаях можно использовать несколько дополнительных методов.

1. XML-карты сайта

XML-карты сайта — это самый старый и в целом надежный способ привлечь внимание поисковых систем к контенту.

XML-карта сайта предоставляет поисковым системам список всех страниц вашего сайта, а также дополнительную информацию о нем, например дату последнего изменения.

Карта сайта может быть отправлена ​​в Bing через Bing Webmaster Tools, а также в Google через Search Console.

Однозначно рекомендуется!

Но когда вам нужна немедленная индексация страницы, это не особо надежно.

2. Запросить индексирование с помощью Google Search Console

В Search Console вы можете «Запросить индексирование».

Вы начинаете с нажатия на верхнее поле поиска, которое по умолчанию гласит: «Проверить и URL-адрес в домене.com».

Введите URL-адрес, который вы хотите проиндексировать, затем нажмите Enter.

Если страница уже известна Google, вам будет представлена ​​куча информации. Мы не будем вдаваться в подробности здесь, но я рекомендую войти в систему и посмотреть, что там есть, если вы еще этого не сделали.

Для наших целей важная кнопка появляется независимо от того, была ли страница проиндексирована или нет — это означает, что она подходит для обнаружения контента или просто для запроса Google, чтобы понять недавнее изменение.

Вы найдете кнопку, показанную ниже.

Скриншот из Google Search Console, декабрь 2022 г.

В течение от нескольких секунд до нескольких минут вы можете выполнить поиск нового контента или URL-адреса в Google и найти измененный или новый контент.

3. Примите участие в Bing IndexNow

В Bing используется открытый протокол, основанный на методе принудительного оповещения поисковых систем о новом или обновленном содержимом.

Этот новый протокол индексации поисковой системы называется IndexNow.

Он называется push-протоколом, потому что идея состоит в том, чтобы предупреждать поисковые системы с помощью IndexNow о новом или обновленном контенте, что заставит их прийти и проиндексировать его.

Примером протокола извлечения является старый способ XML-карты сайта, который зависит от решения поискового робота о посещении и индексации (или извлечении с помощью Search Console).

Преимущество IndexNow заключается в том, что он тратит меньше ресурсов веб-хостинга и центра обработки данных, что не только более экологично, но и экономит ресурсы полосы пропускания.

Однако самым большим преимуществом является более быстрая индексация содержимого.

IndexNow в настоящее время используется только Bing и Яндекс.

Внедрить IndexNow очень просто:

  • Существует плагин IndexNow для WordPress.
  • Модуль Drupal IndexNow.
  • IndexNow поддерживается Cloudflare.
  • IndexNow поддерживается Akamai.

4. Инструменты Bing для веб-мастеров

Помимо участия в IndexNow рассмотрите возможность создания учетной записи Bing для веб-мастеров.

Если у вас нет учетной записи Bing Webmaster Tools, я не могу ее рекомендовать.

Предоставленная информация является существенной и поможет вам лучше оценить проблемные области и улучшить свой рейтинг в Bing, Google и где-либо еще — и, возможно, обеспечит лучший пользовательский интерфейс.

Но чтобы ваш контент проиндексировался, вам просто нужно нажать: Настройка личного сайта > Отправить URL-адреса.

Введите URL-адреса, которые вы хотите проиндексировать, и нажмите «Отправить».

Снимок экрана из Bing Webmaster Tools, январь 2023 г.

Итак, это большая часть того, что вам нужно знать об индексировании и о том, как это делают поисковые системы (с прицелом на то, куда идут дела).

Дополнительные сведения см. на странице справки Инструментов для веб-мастеров Bing.

Существует также Bing Webmaster Tools Indexing API, который также может сократить время появления контента в результатах поиска Bing в течение нескольких часов.

Дополнительные сведения об API индексирования Bing см. здесь.

Бюджет сканирования

Мы не можем говорить об индексации, не говоря о бюджете сканирования.

По сути, краулинговый бюджет — это термин, используемый для описания количества ресурсов, которые Google затрачивает на сканирование веб-сайта.

Назначенный бюджет основан на сочетании факторов, два основных из которых:

  • Насколько быстро работает ваш сервер (т.
  • Насколько важен ваш сайт?

Если вы управляете крупным новостным сайтом с постоянно обновляемым контентом, о котором пользователи поисковых систем захотят знать, ваш сайт будет часто сканироваться (осмелюсь сказать — постоянно).

Если у вас небольшая парикмахерская, у вас есть пара десятков ссылок, и вы по праву не считаетесь важным в этом контексте (вы можете быть важным парикмахером в этом районе, но вы не важны, когда речь идет о краулинговом бюджете) , то бюджет будет низким.

Подробнее о краулинговых бюджетах и ​​их определении можно прочитать в объяснении Google.

У Google есть два вида сканирования

Индексирование Google начинается со сканирования, которое бывает двух видов: