Почему сайт не индексируется и что с этим делать
Чтобы пользователи узнали о вашем сайте и, к примеру, совершили покупку или прочитали статью — он должен отображаться в поисковых системах, вроде Google и Яндекс. Для этого каждый ресурс проходит индексацию. Этот процесс отличается от ранжирования тем, что при индексации сайт просто попадает в базу данных поисковиков, а при ранжировании — встает на конкретное место.
Мы спросили мнение у экспертов в области веб-оптимизации и рассказали в статье о том, как происходит индексация сайтов и что делать, если ваши страницы не индексируются поисковиками.
Что значит индексация сайта и почему она важна
«Индексирование сайта — это процесс, в ходе которого поисковые системы получают информацию о страницах ресурса. Полученные данные хранятся в базе, которую называют поисковым индексом. Так Яндекс, Google и другие поисковики узнают, что ваш сайт существует и наполнен полезным контентом. Индексация нужна для того, чтобы юзеры могли найти ваши страницы при поиске», — так определяет индексацию Сергей Шабуров, руководитель группы оптимизации сайтов Kokoc Group.
Эксперт Роман Огрин добавляет, что индексация — важный этап запуска любого проекта, на котором планируется активное SEO-продвижение или есть планы по развитию органического трафика. Исключения составляют рекламные форматы, вроде контекстной рекламы, — для них процесс индексации не является ключевым.
Для индексирования поисковик, например Яндекс или Google, отправляет на сайт роботов, они считывают код и регулярно посещают страницы ресурса. Периодичность зависит от того, как часто меняется контент, от количества страниц и объема трафика.
Как происходит индексация сайта
Анастасия Шестова, руководитель направления поискового продвижения в ИнтерЛабс, сравнивает индексацию с добавлением книги в библиотеку: когда определен жанр, автор и название книги, она занимает свое место в библиотеке, и читатель может ее найти. Поэтому индексацию сайта вернее рассматривать как двухэтапный процесс: сначала идет сканирование страниц, затем — их обработка.
Сканирование страниц
Сканирование страниц — это основная задача поискового робота. Когда он попадает на новую страницу, то получает два набора данных:
- Содержание, информацию о сервере и служебные данные.
- Перечень ссылок на страницах.
Затем робот передает данные в обработку, а после — сохраняет в базе. Самый простой способ индексации страниц в рамках домена — создание карты сайта sitemap.xml.
Чтобы Google и Яндекс увидели ваш сайт, нужно cначала добавить его в сервисы, а затем прикрепить ссылку на файл Sitemap в Google Search Console и Яндекс.Вебмастере. Это специальные сервисы для веб-мастеров, которые помогают работать с индексацией.
Чтобы добавить файл Sitemap в Google Search Console, зайдите в сервис, добавьте свой сайт и перейдите в раздел «Сканирование». В пункте «Файлы Sitemap» выберите «Добавить файл Sitemap» и вставьте ссылку на файл Sitemap.
В Яндекс.Вебмастере путь похож: зайдите в ваш аккаунт, выберите нужный сайт. Затем в левом меню нажмите на раздел «Индексирование» и выберите вкладку «Файлы Sitemap». В строку «Добавить файл Sitemap» вставьте ссылку файла и нажмите «Добавить». Кстати, если вы внесли изменения в карту сайта, то просто отправьте карту на перепроверку, нажав на стрелочки рядом с файлом Sitemap.
Обработка страниц
После сбора роботами информация проходит обработку и потом попадает в базу данных. Это необходимо для ускорения дальнейшего поиска.
В начале программа формирует страницу со всем содержимым: скрипты, эффекты, стили. Важно, чтобы робот имел полный доступ ко всем файлам, потому что без них индексатор не сможет понять структуру.
Вы можете посмотреть, одинаково ли видят страницу пользователи и поисковой робот. Для этого зайдите в Google Search Console, выберите отчет «Посмотреть как Googlebot» в разделе «Сканирование».
Затем робот анализирует текст страницы: упрощает слова и определяет частоту упоминания ключевого слова, проверяет уникальность. Так, если ваш контент уже индексировали в интернете, то у страниц будет низкая уникальность. Значит, робот может не добавить их в поисковый индекс. Поэтому важно наполнять свой сайт уникальным и полезным контентом.
Как проверить индексацию
Эксперты выделяют три способа, чтобы проверить, отображается ли сайт в поисковиках: запрос в поисковой системе, использование бесплатных сервисов для автоматической проверки и использование сервисов для веб-мастеров.
«Если значения проиндексированных страниц в Google и Яндекс сильно различаются, это свидетельствует о проблемах в оптимизации сайта», — Дарья Каблаш, основатель маркетингового агентства Dvizh
Поисковая строка
Роман Огрин, руководитель группы оптимизации в Kokoc Group, называет специальные операторы самым быстрым и простым способом проверки индексации. Яндекс и Google поддерживают оператор site, который помогает отображать проиндексированные страницы. Базовый синтаксис использования: site:sitename.com
Например: site:gosuslugi.ru
Но поисковые системы могут ограничить работу этих операторов для снижения нагрузки. Поэтому рекомендуют использовать дополнительные способы для проверки индексации.
Бесплатные плагины
«Можно использовать специальные бесплатные сервисы, например, be1.ru и pr-cy.ru. Для проверки введите адрес сайта в специальную строку и нажмите «Проверить». Обычно такие сервисы, помимо количества страниц в индексе популярных поисковиков, предоставляют еще много интересных данных», — Николай Полушкин, директор веб-студии DIUS.
Веб-сервисы Яндекс.Вебмастер и Google Search Console
Сергей Шабуров, руководитель группы оптимизации сайтов Kokoc Group, считает веб-сервисы поисковых систем самым достоверным источником информации о наличии страницы в индексе. В этих инструментах можно получить данные о количестве, динамике индексации, причинах удаления или включения страницы в базу данных, а также многое другое. Минус в том, что доступы к этой информации могут получить только владельцы сайта или те, у кого есть права владельцев.
Эксперт Роман Огрин рассказывает, как именно посмотреть индексацию в Яндекс. Вебмастере и Google Search Console. Оба сервиса сначала надо «привязать» к исследуемому домену и только потом смотреть точную статистику.
В Яндекс.Вебмастере есть раздел «Индексирование» с подразделом «Страницы в поиске». По клику на вкладку «Все страницы» сервис выдает список проиндексированных на данный момент документов. В Search Console аналогичный инструмент — отчет «Покрытие».
Помимо простого анализа страниц в индексе, оба сервиса предоставляют много полезной статистики. Эта информация поможет сделать правильные выводы при проблемах с индексацией.
Например, посмотрите, совпадает ли количество проиндексированных страниц с количеством страниц вашего сайта. Если у вас 240 страниц, а в индексе только 100, это означает, что есть проблемы с индексацией, ведь поисковая система не знает о большей части контента.
Управление индексацией сайта
Вы можете сами задать параметры индексирования для роботов поисковых систем. Например, настройка канонического адреса необходима, если есть страницы с одинаковым содержанием. Она позволяет указать, какая из них приоритетна для индексации.
Текстовый файл robots.txt также позволяет управлять поисковыми роботами с помощью директив.
- Директива Disallow закрывает сайт или конкретные страницы от индексации роботами.
- User-Agent указывает поисковую систему для индексации по написанной инструкции.
- Crawl-delay задает частоту обращения роботов к ресурсу. Работает для Яндекса.
- Clean-param закрывает индексирование с конкретными динамическими параметрами.
- Директива Allow разрешает роботам индексирование отдельных страниц.
Что делать, если сайт не индексируется
Есть множество причин, почему сайт не индексируется. Эксперт Сергей Шабуров условно разделяет причины на технические и контентные. Ниже рассмотрим основные из них с примерами из опыта специалистов.
Технические причины
Сайт может быть случайно закрыт от сканирования роботами или из-за ошибки разработчиков. Это можно определить, если проверить:
- Директиву Disallow в файле robots.txt. Как мы писали выше, эта директива закрывает конкретные страницы от индексации.
- Мета-теги в разделе <head> HTML-документа, например, <meta name=»robots» content=»noindex» />. Они определяют отношение к сканированию контента в документе.
- HTTP-заголовок X-Robot-Tag — информация о запрете или разрешении индексации сайта в HTTP-заголовках ответа сервера.
- Код ответа сервера. В индекс попадают только доступные страницы с кодом ответа сервера 200 Ок, а ресурсы с другими кодами ответа удаляются. Изменение кода ответа — один из способов управления индексацией.
- Настройки сервера. Для разных IP адресов, User-agent и других параметров серверная часть ресурса может регулировать как скорость, так и саму отдачу информации о странице и ее содержимом.
- Наличие входящих внутренних или внешних ссылок. Индекс может исключать такие страницы.
- Низкий трафик. Это может быть следствием малополезной страницы или отсутствием семантического спроса со стороны пользователей по данному контенту.
Николай Полушкин, директор веб-студии DIUS, делится недавним случаем из практики. «Пришел сайт на бесплатный аудит. Клиент жаловался на резкую просадку трафика. SEO-специалист сразу открыл файл robots.txt и нашел строчку Disallow. Мы сообщили об этом клиенту и объяснили, что сайт закрыт от индексации, и страницы постепенно удаляются из поиска. Заказчик был удивлен и попросил выяснить, кто и когда это сделал. Недавно компания делала редизайн и наш специалист предположил, что страницы на время работ закрыли от индексации, а потом забыли убрать запрещающую директиву».
Контентные причины
Важно помнить, что индексация занимает некоторое время. Поэтому, если страницы нет в индексе, иногда это может значить, что роботы поисковых систем не успели до нее дойти. Либо есть ошибки в контентном наполнении страниц:
- Отсутствие индексируемого контента. Контент может быть реализован на технологии, которую поисковые системы не умеют считывать или плохо воспринимают к индексации.
Так векторная графика, например Flash, не индексируется.
- Контент без пользы или вредный для пользователей. Сюда относят: спам, малый по объему контент, устаревшая информация, которая никогда не будет востребована, наличие вирусов, фишинга.
- Дублирующийся контент. Поисковые системы стараются не индексировать или удалять из выдачи страницы, которые содержат повторяющуюся информацию.
«У нас была такая ситуация с кулинарной онлайн-школой. В Google сайт показал хорошие результаты уже в первый месяц работы и вышел в ТОП-3 по прямым запросам. Но в Яндексе страницы вообще отсутствовали.
Чтобы узнать причину, мы зарегистрировали сайт в Яндекс.Вебмастере и отправили на проверку. Результаты показали критическую ошибку. Дело было в том, что на ресурсе дублировались страницы. Владельцы школы публиковали для разных таргетологов страницы с одинаковым контентом, но разными ссылками. Яндекс видел в этом неуникальный контент и не индексировал страницы.
Мы удалили дублирующиеся страницы, перейдя на utm-метки, и отправили сайт на переиндексацию. Через несколько дней проблема решилась, сайт стал отображаться в Яндексе», — Дарья Каблаш, основатель маркетингового агентства Dvizh.
Иные причины
Более редкие случаи неиндексации могут быть связаны, например, с фильтром «для взрослых».
Сергей Шабуров, руководитель группы оптимизации сайтов Kokoc Group, приводит свежий пример из практики. «Сайт одного из российских операторов мобильной связи перестал ранжироваться по навигационному запросу: «<Название оператора> тарифы» в Яндексе. В выдаче присутствовали побочные сайты, а ресурс оператора отсутствовал. Это неслыханная вещь, при учете, что целевая страница и все остальные были в индексе по данным Яндекс.Вебмастера. По данному запросу сайт должен был занимать как минимум несколько строчек поисковой выдачи. Проблема выявилась при переключении настроек поиска с умеренного фильтра на фильтр без ограничений.
Это значит, что страница перешла из основного индекса в специальный “Фильтр для взрослых” или «Adult-фильтр». После обращения в службу поддержки Яндекса обнаружилось, что это ошибка на стороне поисковой системы, так как на странице не было какой-либо специфичной информации».
Также возможен редкий случай неиндексации — «плохая история» домена. В этом случае был куплен домен, на котором ранее был поисковый спам или adult-ресурс, поэтому сайт сразу может быть под фильтром.
«В нашей практике был пример сайта на домене, на котором ранее был размещен белый каталог сайтов. Ресурс индексировался нормально и потом резко пропадал из индекса поисковых систем. Помогли письма в техподдержку Яндекса и отправка страниц на принудительную переиндексацию. Но даже после этого периодически сайт продолжал полностью вылетать из индекса, за этим приходилось отдельно следить. Чтобы таких моментов не было, перед покупкой домена лучше всего проверять его историю», — Анастасия Шестова, руководитель направления поискового продвижения в ИнтерЛабс.
Заключение
Без индексации пользователи не увидят ваш сайт даже при прямом поисковом запросе. Поэтому индексация — обязательный процесс для ресурсов, которым важен органический трафик.
Во время индексации роботы сканируют и обрабатывают информацию на страницах, заносят ее в специальную базу данных — поисковый индекс. Можно легко проверить, есть ли ваши страницы в поисковой выдаче, например, в Google. Самый надежный способ — использование сервисов для веб-мастеров: Яндекс.Вебмастер и Google Search Console.
Часто сайты, которые должны быть проиндексированы, все равно не попадают в поиск. В таком случае нужно проанализировать возможные технические и контентные причины. В редких случаях работы могут убрать ресурс из выдачи из-за ошибки на стороне поисковой системы или плохой истории домена.
Источник
Предыдущий пост Назад Следующий пост Вперед
Почему сайт не индексируется Яндексом? Почему не индексируются страницы моего сайта?
Игорь:
Здравствуйте Дмитрий, помогите разобраться, почему сайт не хочет индексироваться Яндексом? Домен: metalloiskateli. su.
Прошло уже больше полгода как он создан, только одна страница находится в индексе (главная), был период, что она выпадала вообще из индексации, когда копировали тексты с других сайтов, потом убрали, главная вернулась, а остальные страницы никак не могут попасть в индексацию.
Как быть? Спасибо.
Здравствуйте, Игорь.
Давайте рассмотрим чуть более общий вопрос: «Почему сайты вообще могут не индексироваться поисковыми системами и Яндексом в частности?». И в качестве частного ответа на данный вопрос поймем, почему не индексируется именно ваш сайт.
Пожалуй, наиболее частой причиной отсутствия страниц сайта в индексе является запрет на индексацию сайта.
Запрет на индексацию посредством файла robots.txt (директива Disallow).
Скрытие страниц от индексации с помощью meta-тега name=»robots» (noindex).
Санкции по отношению к сайту
Поисковые системы обладают целым рядом санкций, которые могут помешать полной и даже частичной индексации вашего сайта. Среди них:
Полное исключение сайта из индекса поисковой системы — бан.
Частичное исключение сайта из индекса — ряд версий АГС в Яндексе, поисковый спам (большое число разновидностей, скажем, автоматически формирующиеся каталоги или списки выложенных поисковых запросов).
Сайт — неглавное зеркало
Часто, сайт не включается в индекс, если является неглавным зеркалом другого сайта.
Если у вашего сайта несколько доменных имен, то в индексе Яндекса будут находиться страницы лишь с одного из них — главного зеркала. При желании, вы можете инициировать процедуру смены главного зеркала.
Неверный код ответа сервера или блокировка робота
Встречаются случаи, когда хостинг провайдер блокирует робота поисковой системы (паука) в результате чего, поисковая система не может скачать содержимое документов на сайте. Также, документы на сайте могут отдавать неверный код ответа сервера (отличный от 200 OK) — это приводит к невключению страниц сайта в основной индекс. Отсюда мы приходим к ещё двум возможным причинам:
Блокировка робота поисковой системы хостингом.
Неверный код ответа сервера для ряда документов на сайте (не 200 OK).
Недостаточная ценность
Для оценки необходимости включения страниц сайта в индекс Яндекса или Google, поисковая система измеряет целый ряд параметров. В частности — опираясь на статические факторы ранжирования, поисковая система понимает, есть ли вероятность у страницы сайта присутствовать в ТОП выдачи по хотя бы какому-то поисковому запросу. Если такая вероятность отсутствует, значит, включение данного документа в базу — нецелесообразно.
Если документ оценивается поисковой системой как неценный, то включение его в индекс — маловероятно.
Документ является полной или частичной копией уже существующего в индексе документа, в данном случае, Яндекс и Google могут не включать его в индекс по причине отсутствия уникальности (дополнительной полезной для пользователя информации).
Диагностика проблемы
Теперь вернемся к вашему частному случаю, а именно сайту metalloiskateli.su. Оценка всех изложенных выше пунктов говорит, что мы столкнулись с одним из следующих случаев — 4, 6, 8.
Чтобы исключить вариант 4 — требуется составить аргументированное письмо в службу поддержки поисковой системы посредством панели Вебмастера Яндекса и запросить возможную причину. Вероятно, санкции могли быть наложены на предыдущую версию сайта, если вы не являетесь первым владельцем домена. В данном случае, может потребоваться и смена доменного имени.
Чтобы исключить вариант 6 — требуется, как изучить логи сервера, так и направить письмо в службу поддержки поисковой системы, можно объединить данные два вопроса в одно письмо. На сайте имеются и документы с отличным от кода 200 OK ответом (см. ниже).
Чтобы исключить вариант 8 — требуется:
Повысить объем и число уникальных (авторских) текстов на сайте (в том числе и на уже существующих страницах).
Повысить цитируемость ресурса (получить внешние ссылки с других сайтов).
Повысить общий трафик на сайте (расширить аудиторию проекта).
Улучшить распределение статического веса на сайте за счёт перелинковки (повысить PR документов).
Удачи в работе с сайтом, выяснением причин отсутствия документов в индексе и самостоятельном продвижении ресурса!
p.s. Существуют и другие, более экзотические причины исключения сайта из основного индекса, скажем — плохое окружение на хостинге или используемая CMS (в Google), но вероятность встретить их оценивается как менее 1%.
Дата ответа:Автор ответа: Дмитрий Севальнев
Почему страницы не индексируются: исправление ошибок Search Console
↓ Перейти к распространенным ошибкам Search Console + как их исправить
Любой эксперт по поисковой оптимизации скажет вам, что индексация ваших страниц Google имеет решающее значение. Но это утверждение несколько упрощено. Что вам действительно нужно знать, так это то, что существует множество причин, по которым страницы не индексируются, и это не является автоматически поводом для беспокойства.
Хотя такие вещи, как плохое качество контента, дублирование контента и заблокированные страницы из-за технических проблем, потребуют немедленного внимания, также может случиться так, что страница была заблокирована от индексации по уважительной причине, и вам вообще ничего не нужно делать.
Первым шагом к пониманию того, почему ваша страница не индексируется, является изучение отчета Google Search Console. Предупреждения консоли поиска могут помочь вам понять, почему определенные страницы не отображаются в результатах поиска, и какие шаги, если таковые имеются, вы должны предпринять, чтобы решить эту проблему.
Итак, давайте углубимся в то, почему страницы не индексируются и что означают распространенные предупреждения поисковой консоли. Затем мы рассмотрим шаги, которые вам необходимо предпринять, чтобы убедиться, что ваши страницы проиндексированы должным образом, и какие предупреждения могут вообще не требовать каких-либо действий.
Как поисковые системы индексируют веб-страницы
Давайте начнем с краткого обзора основ. Прежде чем Google сможет проиндексировать ваши страницы, он использует автоматизированное программное обеспечение, широко известное как Googlebot, для сканирования ваших веб-страниц и сбора информации о них.
Сканер читает содержимое страницы и переходит по всем найденным ссылкам. Процесс повторяется для каждой ссылки, по которой она следует, а также для любой страницы, отправленной для индексации, что позволяет Google создать индекс веб-страниц в Интернете.
При принятии решения о том, как индексировать страницу, алгоритмы Google анализируют релевантность и качество каждой страницы, принимая во внимание такие факторы, как качество контента, популярность страницы, разметка схемы и ценность любых внутренних, исходящих или входящих ссылок.
Когда пользователь выполняет поиск, алгоритм Google использует этот индекс для возврата результатов в зависимости от того, насколько страница соответствует поисковому запросу пользователя. Страницы, которые считаются наиболее релевантными, перечислены первыми в поисковой выдаче, за ними следуют менее релевантные страницы в порядке убывания.
Почему некоторые страницы не должны быть проиндексированы
Столкнувшись с длинным списком предупреждений в поисковой консоли, легко растеряться. Но важно помнить, что некоторые страницы не должны быть проиндексированы, и наличие некоторых из этих предупреждений может быть нормальным.
Например, повторяющиеся или альтернативные страницы не должны индексироваться. Непроиндексированная страница, помеченная как дубликат, вероятно, означает, что Google нашел и проиндексировал правильную каноническую страницу и добавил ее в индекс.
Если вас это беспокоит, вы можете использовать инструмент проверки URL, чтобы убедиться, что был проиндексирован правильный канонический. Если все выглядит хорошо, эти предупреждения могут появиться, и никаких действий не требуется.
Другой пример: страница требует входа в систему, поскольку она не предназначена для публичного просмотра, например, страницы корзины покупок или учетных записей, которые содержат конфиденциальную информацию. В некоторых случаях страница была намеренно заблокирована от индексации с помощью тега «noindex» по определенной причине, например, для максимизации краулингового бюджета на очень больших веб-сайтах.
Когда страница заблокирована от индексации по уважительной причине, это нормально, что предупреждение остается в отчете об индексировании, и никаких дальнейших действий не требуется.
Распространенные причины проблем с индексированием
Некоторые из наиболее распространенных причин проблем с индексированием — это дублирование контента без надлежащего канонического тега, блокировка доступа к странице, неправильный файл robots.txt, плохо реализованные перенаправления и проблемы с отображением, связанные с Javascript.
В некоторых случаях Google просто не знает, что страница существует. Это может быть связано с тем, что он новый, не был добавлен в карту сайта или робот Googlebot просто не нашел ссылку на страницу. Имейте в виду, что сканирование новых страниц может занять несколько недель, даже если вы отправляете запрос на сканирование.
Google также может не индексировать плохо оптимизированный контент или некачественный контент, который не содержит достаточно полезной информации. Обеспечение того, чтобы ваши страницы полностью освещали тему, были должным образом оптимизированы, правильно загружались и были доступны, является ключом к предотвращению проблем с индексацией.
Мы рассмотрим все это более подробно ниже, но сначала давайте углубимся в основы навигации по панели инструментов Search Console и понимаем отчет об индексировании.
Навигация по панели инструментов Google Search Console
Поначалу ваша панель инструментов Google Search Console может показаться немного перегруженной, поэтому вот краткое описание того, что означают различные разделы и как их использовать.
- Обзорный отчет: Обзор дает общее представление о производительности вашего веб-сайта. Здесь вы найдете данные об общем количестве кликов, показов, рейтинге кликов и средней позиции.
Используйте этот отчет, если хотите понять, как часто ваш сайт появляется в результатах поиска, какие страницы получают больше всего трафика и какие запросы приносят больше всего кликов.
- Отчет о запросах : В этом отчете показаны точные запросы, которые пользователи используют для поиска вашего веб-сайта, и рейтинг вашего сайта по каждому запросу. Он расскажет вам, какие запросы приносят больше всего показов и кликов, а какие запросы имеют самый высокий рейтинг кликов. Вы можете использовать этот отчет, чтобы определить, на какие ключевые слова следует ориентироваться в своих усилиях по SEO.
- Отчет о страницах: В этом отчете содержится подробная информация об отдельных веб-страницах и их эффективности с точки зрения количества кликов, показов и рейтинга кликов, а также ранжирования по ключевым словам и запросам. Используйте этот отчет, чтобы определить, какие страницы работают хорошо и на чем сосредоточить усилия по оптимизации.
- Отчет о ссылках: Отчет о ссылках показывает, сколько внешних и внутренних ссылок ведут на различные страницы вашего сайта и откуда они приходят. Используйте его, чтобы найти неработающие ссылки, которые могут нанести ущерб поисковой оптимизации и хорошему пользовательскому опыту.
Понимание отчета об индексации страниц в Google Search Console
Использование отчета об индексации страниц — это самый быстрый способ получить обзор того, какие страницы вашего веб-сайта проиндексированы и не проиндексированы Google. Чтобы найти его, найдите раскрывающееся меню «Индексирование» на боковой панели и нажмите на вкладку «Страницы».
После открытия вы увидите сводную страницу верхнего уровня, которая включает в себя график и текущее количество, показывающее, сколько страниц было проиндексировано и не проиндексировано.
То, что вам нужно, — это постепенное увеличение количества проиндексированных страниц в зависимости от того, как часто вы публикуете новый контент. Резкие падения или всплески могут указывать на проблему, требующую дальнейшего изучения.
В конце концов, вы будете надеяться, что каноническая версия каждой важной группы страниц на вашем сайте будет проиндексирована. Страницы, отправленные на индексацию, будут иметь один из следующих статусов:
- Сканирование: Статус сканирования означает, что робот Googlebot сканирует страницу, чтобы собрать информацию и определить, достойна ли страница быть проиндексирована.
- Индексирование: Статус индексирования говорит о том, что страница была проанализирована роботом Googlebot и сохранена на серверах индексирования. Это указывает на то, что страница имеет право на ранжирование в поисковой выдаче, но не обязательно означает, что страница в настоящее время находится в рейтинге.
- Количество порций: Статус обслуживания означает, что страница проиндексирована и отображается в результатах поиска Google.
Обратите внимание, что в отчете о покрытии индекса есть четыре вкладки: «Ошибки», «Действительно с предупреждениями», «Действительно» и «Исключено». Поскольку наша цель — найти и устранить ошибки индексации, мы сосредоточимся на вкладке «Ошибка».
Выделите вкладку «Ошибка» и прокрутите вниз до раздела «Подробности». Вы увидите, что ошибки были сгруппированы в следующие подробные представления:
- Почему страницы не проиндексированы. Таблица: В этой таблице показаны различные коды состояния, которые объясняют, почему URL-адреса не были проиндексированы. Нажмите на каждую строку, чтобы открыть подробное представление URL-адресов, затронутых этой проблемой, а также историю этой проблемы на вашем сайте.
- Таблица улучшения качества страницы: В этой таблице показаны страницы, которые были проиндексированы, но Google рекомендует некоторые изменения, которые улучшат способность поисковой системы понимать контент.
- Просмотр данных об проиндексированных страницах: Щелкните эту ссылку, чтобы просмотреть список проиндексированных страниц, а также исторические данные о том, сколько страниц на вашем сайте было проиндексировано с течением времени.
Мы сосредоточимся на таблице «Почему страницы не индексируются» в целях выявления и исправления ошибок индексации Search Console.
Использование инструмента проверки URL для выявления ошибок индексирования
Инструмент проверки URL можно использовать для более глубокого понимания того, как Google видит определенные страницы на вашем веб-сайте. Используйте его в любое время, когда вам нужна подробная информация о текущем статусе индексации конкретной страницы и любых ошибках, препятствующих индексации страницы.
Пошаговое руководство по использованию инструмента проверки URL-адресов:
- Найдите и выберите инструмент проверки URL-адресов в главном заголовке GSC.
- Введите URL-адрес веб-страницы, которую вы хотите проверить, и нажмите Enter.
- Инструмент сообщит вам, была ли страница проиндексирована, находится ли она в состоянии ожидания или она не проиндексирована.
- Если страница не проиндексирована, вам сообщат причины. Используйте приведенный ниже список, чтобы определить, что означают распространенные ошибки индексации поиска и какие действия предпринять дальше.
Распространенные ошибки консоли поиска + как их исправить
Теперь давайте углубимся в то, что означают распространенные ошибки консоли поиска, как их исправить и какие предупреждения могут вообще не требовать никаких действий.
Ошибка сервера (5xx) Это предупреждение означает, что робот Googlebot обнаружил ошибку сервера при попытке просканировать вашу страницу для индексации. Если вы можете загрузить страницу в своем браузере сейчас, есть большая вероятность, что проблема с сервером решена сама собой. Если нет, обратитесь к своему разработчику или хостинг-провайдеру, чтобы определить, какие дальнейшие действия необходимы.
Это предупреждение означает, что робот Googlebot обнаружил ошибку перенаправления при попытке просканировать и проиндексировать вашу страницу. Эта ошибка возникает, когда цепочка перенаправления слишком длинная, перенаправление зацикливается на ту же страницу, URL-адрес перенаправления в конечном итоге превысил максимальную длину или в цепочке перенаправления был неверный или пустой URL-адрес.
Чтобы устранить эту проблему, следует исследовать перенаправление, чтобы выявить и исправить ошибку. Старайтесь избегать цепочек перенаправлений с несколькими шагами и убедитесь, что все страницы, ведущие к конечному пункту назначения, загружаются правильно.
URL-адрес с пометкой «noindex» Этот URL-адрес помечен тегом «noindex», что означает, что Google не будет включать эту страницу в результаты поиска. Если вас это беспокоит, спросите себя, хотите ли вы, чтобы посетители находили эту страницу через поиск. Если нет, никаких дальнейших действий не требуется.
Это предупреждение означает, что страница была отправлена на индексирование, но при попытке сканирования страницы робот Googlebot столкнулся с проблемой сканирования. Используйте Инструмент проверки URL, чтобы выяснить, в чем именно заключается проблема.
Много раз Google не мог загрузить страницу из-за проблем с определенными элементами страницы, такими как JavaScript, CSS или определенные изображения. Попробуйте посетить страницу, чтобы проверить, нормально ли она сейчас загружается. Если это так, повторно отправьте страницу на индексацию. Если нет, вам нужно исправить ошибку перед повторной отправкой.
Просканировано – в настоящее время не проиндексировано Страница просканирована, но не проиндексирована, но конкретная причина не указана. Вам следует подумать о добавлении полезного контента и улучшении оптимизации, чтобы увеличить шансы на индексацию при следующем сканировании страницы. Нет необходимости повторно отправлять запрос на сканирование.
Эта страница была заблокирована для индексации кем-то из вашей команды с помощью инструмента удаления страниц. Вы должны убедиться, что страница была заблокирована намеренно. Обратите внимание, что запросы на удаление остаются в силе только в течение 90 дней. После этого страница, скорее всего, будет повторно проиндексирована, если вы не установите правильный тег «noindex», не перенаправите или не удалите страницу.
ОбнаруженоСтраница обнаружена, но не проиндексирована. Обычно это означает, что Google намеревался просканировать страницу, но перепланировал сканирование по неустановленной причине. Позднее он повторно попытается просканировать страницу.
Если вы часто замечаете эту ошибку и у вас большой веб-сайт (более 10 000 страниц), это может означать, что сервер был перегружен, когда Google пытался просканировать страницу. Поговорите со своим хостинг-провайдером, чтобы узнать, так ли это, и какие шаги следует предпринять.
Это также может означать, что ваш сайт превысил свой краулинговый бюджет. Это может произойти, если ваша CMS автоматически генерирует контент или у вас слишком много пользовательского контента или отфильтрованных страниц категорий продуктов. Рассмотрите возможность удаления повторяющегося контента или блокировки ненужных страниц от индексации.
Заблокировано robots.txtСтраница заблокирована для сканирования файлом robots.txt вашего сайта. Google по-прежнему может проиндексировать страницу, если сможет найти информацию о ней, не загружая ее. Вы должны убедиться, что страница намеренно заблокирована от индексации, и реализовать правильную директиву «noindex», чтобы гарантировать, что страница не будет проиндексирована в будущем.
Заблокирован из-за несанкционированного запроса (401) Это распространенная проблема, когда страница требует авторизации, например, пароль для доступа. Вы должны убедиться, что требования авторизации были реализованы правильно и никаких дальнейших действий не требуется.
Также стоит отметить, что эта ошибка может возникать, когда разработчик ссылается на страницы тестового сайта, пока сайт находится в стадии разработки, но забывает обновить ссылки после запуска сайта. Чтобы решить эту проблему, вам нужно обновить ссылки.
Заблокировано из-за запрета доступа (403)Эта ошибка аналогична 401. Страница не будет проиндексирована, поскольку робот Googlebot не может предоставить надлежащие учетные данные. Если вы хотите, чтобы эта страница была проиндексирована, вам нужно разрешить доступ для не вошедших в систему пользователей или явно разрешить роботу Googlebot загружать страницу без аутентификации.
Аномалия сканирования Неизвестная аномалия препятствует сканированию и индексированию страницы. Одной из наиболее распространенных причин является то, что страница больше не существует или страница перенаправляется на страницу, которая возвращает ошибку 404. Убедитесь, что во всех цепочках переадресации, ведущих с этой страницы, есть только один шаг, и что страница, на которую вы направляетесь, загружается правильно.
Это указывает на то, что страница является дублирующим содержимым и в настоящее время указывает на правильную каноническую страницу. Здесь ничего не поделаешь, если только вы не хотите искать способ объединить обе страницы в один URL.
Дублировать без выбранной пользователем каноническойЭто предупреждение указывает на наличие дубликатов страниц, но ни одна из них не отмечена как каноническая. Google выбрал другую страницу и проиндексировал ее как каноническую. Если вы считаете, что Google пометил неправильный URL-адрес, вам следует выбрать и пометить правильную каноническую страницу соответствующим каноническим тегом.
Дубликат не-HTML-страницы Google обнаружил на вашем веб-сайте PDF-файл или какой-либо другой не-HTML-ресурс, который является дубликатом другой страницы, помеченной как каноническая. Эти страницы не должны быть проиндексированы, поэтому здесь не требуется никаких дополнительных действий.
URL-адрес этой страницы помечен как канонический, но Google считает, что другая страница будет лучше канонической для этого набора страниц. Это может произойти, когда вы указываете одну версию страницы как каноническую, но затем перенаправляете на другую версию. Вам следует проверить свой канонический тег для этого набора страниц и убедиться, что он указан правильный.
Страница не найдена (404)Google обнаружил URL без какого-либо запроса на сканирование, но страница больше не существует, и перенаправление не реализовано. Если возможно, вы должны реализовать редирект 301 на соответствующую страницу. Если подходящей страницы не существует, вы можете оставить 404 как есть, но лучше по возможности избегать ошибок 404.
Страница с перенаправлением Эта страница не была проиндексирована, так как была перенаправлена. Если страница была перенаправлена преднамеренно, никаких дополнительных действий не требуется.
Эта страница добавлена в очередь на сканирование. Вам нужно будет проверить наличие обновлений позже.
Soft 404Эта страница не была проиндексирована, так как больше не содержит полезной информации. Это часто происходит, когда было добавлено удобное для пользователя сообщение о том, что не найдено, без надлежащего кода ответа 404 HTTP. Вы должны реализовать перенаправление 301 на соответствующую страницу, повторно заполнить страницу полезным контентом или преобразовать ее в правильный 404.
Отправленный URL-адрес удален Это указывает на URL-адрес, который был отправлен для индексации, но был удален из индекса без указанной причины. Вам следует подумать о добавлении свежего информационного контента и улучшении оптимизации, чтобы повысить шансы на повторную индексацию или реализовать перенаправление 301 на соответствующую страницу.
Как сообщить Google, что вы устранили проблему с индексированием
Вот как сообщить Google, что вы устранили проблему и страница готова к повторному сканированию для индексации:
- Откройте отчет об индексации страниц и щелкните URL-адрес, который вы готовы отправить повторно.
- Просмотрите список сведений о странице, чтобы убедиться, что вы устранили все перечисленные проблемы. Когда вы будете удовлетворены, нажмите «Подтвердить исправление».
- Google отправит вам электронное письмо, чтобы указать, что процесс проверки начался. Этот процесс может занять несколько недель. Как только Google решит проблемы, есть большая вероятность, что ваша страница, наконец, будет проиндексирована и начнет ранжироваться в поисковой выдаче по релевантным поисковым запросам.
Вывод
Когда Google не индексирует страницы, это может показаться разочаровывающей и загадочной проблемой. К счастью, устранение распространенных предупреждений поисковой консоли на самом деле довольно простой процесс. Есть также несколько вполне логичных причин, по которым некоторые страницы вообще не должны индексироваться.
Понимание того, что означают распространенные предупреждения консоли поиска и как их решать, является важным первым шагом в решении проблем с индексацией вашей страницы. Нетрудно убедиться, что нужные страницы проиндексированы и что вы получите желаемые результаты, имея лишь небольшие базовые знания.
Почему получить индексацию в Google так сложно
Взгляды авторов являются полностью их собственными (за исключением маловероятного случая гипноза) и могут не всегда отражать взгляды Моза.
Каждый веб-сайт в той или иной степени зависит от Google. Все просто: ваши страницы индексируются Google, что позволяет людям найти вас. Так и должно быть.
Однако так бывает не всегда. Многие страницы никогда не индексируются Google .
Если вы работаете с веб-сайтом, особенно с крупным, вы, вероятно, замечали, что не каждая страница вашего сайта индексируется, и многие страницы ждут неделями, прежде чем их обнаружит Google.
Этой проблеме способствуют различные факторы, и многие из них являются теми же факторами, которые упоминаются в отношении ранжирования — два примера — качество контента и ссылки. Иногда эти факторы также являются очень сложными и техническими. Современные веб-сайты, которые в значительной степени зависят от новых веб-технологий, в прошлом, как известно, страдали от проблем с индексацией, а некоторые до сих пор страдают.
Многие SEO-специалисты до сих пор считают, что именно технические проблемы мешают Google индексировать контент, но это миф. Хотя это правда, что Google может не индексировать ваши страницы, если вы не отправляете согласованные технические сигналы о том, какие страницы вы хотите проиндексировать, или если у вас недостаточно бюджета сканирования, не менее важно, чтобы вы соответствовали качеству своего контента.
Большинство веб-сайтов, больших или малых, содержат большое количество контента, который должен быть проиндексирован, но не индексируется. И хотя такие вещи, как JavaScript, действительно усложняют индексацию, ваш сайт может страдать от серьезных проблем с индексацией, даже если он написан на чистом HTML. В этом посте давайте рассмотрим некоторые из наиболее распространенных проблем и способы их устранения.
Причины, по которым Google не индексирует ваши страницы
С помощью специального инструмента проверки индексации я проверил большую выборку самых популярных интернет-магазинов в США на наличие проблем с индексацией. Я обнаружил, что в среднем 15% их индексируемых страниц продуктов невозможно найти в Google.
Этот результат был крайне неожиданным. Далее мне нужно было узнать «почему»: каковы наиболее распространенные причины, по которым Google решает не индексировать то, что технически должно быть проиндексировано?
Консоль поиска Google сообщает о нескольких статусах для непроиндексированных страниц, таких как «Просканировано — в настоящее время не проиндексировано» или «Обнаружено — в настоящее время не проиндексировано». Хотя эта информация явно не помогает решить проблему, с нее можно начать диагностику.
Основные проблемы с индексацией
На основании большой выборки веб-сайтов, которые я собрал, самые популярные проблемы с индексацией, о которых сообщает Google Search Console, следующие:
1. «Просканировано — в настоящее время не проиндексировано»
В этом случае Google посетил страницу, но не проиндексировал ее.
Судя по моему опыту, обычно это проблема качества контента. Учитывая бум электронной коммерции, который происходит в настоящее время, мы можем ожидать, что Google станет более разборчивым, когда дело доходит до качества. Поэтому, если вы заметили, что ваши страницы «Просканированы — в настоящее время не проиндексированы», убедитесь, что контент на этих страницах уникален:
Используйте уникальные заголовки, описания и копии на всех индексируемых страницах.
Избегайте копирования описаний продуктов из внешних источников.
Используйте канонические теги для объединения повторяющегося контента.
Заблокируйте Google от сканирования или индексации некачественных разделов вашего веб-сайта с помощью файла robots.txt или тега noindex.
Если вам интересна эта тема, я рекомендую прочитать Криса Лонга Просканировано — в настоящее время не проиндексировано: руководство по статусу покрытия.
2. «Обнаружено — в настоящее время не проиндексировано»
Это моя любимая проблема, поскольку она может охватывать все: от проблем со сканированием до недостаточного качества контента. Это серьезная проблема, особенно в случае крупных интернет-магазинов, и я видел, как это относится к десяткам миллионов URL-адресов на одном веб-сайте.
Google может сообщить, что страницы продуктов электронной коммерции имеют статус «Обнаружены — в настоящее время не проиндексированы» из-за:
Проблемы с бюджетом сканирования : в очереди на сканирование может быть слишком много URL-адресов, которые могут быть просканированы и проиндексированы позже.
Проблема качества : Google может решить, что некоторые страницы в этом домене не стоит сканировать, и решить не посещать их, ища шаблон в их URL.
Решение этой проблемы требует определенного опыта. Если вы узнали, что ваши страницы «Обнаружены — в настоящее время не проиндексированы», сделайте следующее:
Определите, есть ли шаблоны страниц, попадающих в эту категорию. Может быть, проблема связана с определенной категорией продуктов, а вся категория не связана внутри? Или, может быть, огромная часть страниц продуктов ожидает своей очереди на индексацию?
Оптимизируйте краулинговый бюджет. Сосредоточьтесь на выявлении некачественных страниц, на сканирование которых Google тратит много времени. Обычные подозреваемые включают отфильтрованные страницы категорий и страницы внутреннего поиска — эти страницы могут легко достигать десятков миллионов на типичном сайте электронной коммерции.
Если робот Googlebot может свободно сканировать их, у него может не хватить ресурсов для доступа к ценным материалам на вашем веб-сайте, проиндексированным в Google.
Во время вебинара «Визуализация SEO» Мартин Сплитт из Google дал нам несколько советов по устранению проблемы «Обнаруженные не проиндексированные». Проверьте это, если вы хотите узнать больше.
3. «Дублирующийся контент»
Эта проблема широко освещается в Moz SEO Learning Center. Я просто хочу отметить, что дублирование контента может быть вызвано различными причинами, такими как:
Языковые варианты (например, английский язык в Великобритании, США или Канаде). Если у вас есть несколько версий одной и той же страницы, ориентированных на разные страны, некоторые из этих страниц могут оказаться непроиндексированными.
Дублированный контент, используемый вашими конкурентами. Это часто происходит в индустрии электронной коммерции, когда несколько веб-сайтов используют одно и то же описание продукта, предоставленное производителем.
Помимо использования rel=canonical, переадресации 301 или создания уникального контента, я бы сосредоточился на обеспечении уникальной ценности для пользователей. Например, сайт Fast-growing-trees.com. Вместо скучных описаний и советов по посадке и поливу на сайте можно посмотреть подробный FAQ по многим товарам.
Также вы можете легко сравнить похожие товары.
Для многих продуктов предусмотрен FAQ. Также каждый покупатель может задать развернутый вопрос о растении и получить ответ от сообщества.
Как проверить индексирование вашего веб-сайта
Вы можете легко проверить, сколько страниц вашего веб-сайта не проиндексировано, открыв отчет Индексирование в Google Search Console.
Первое, на что следует обратить внимание, это количество исключенных страниц. Затем попытайтесь найти закономерность — какие типы страниц не индексируются?
Если у вас есть интернет-магазин, вы, скорее всего, увидите непроиндексированные страницы продуктов. Хотя это всегда должно быть предупреждающим знаком, вы не можете ожидать, что все страницы вашего продукта будут проиндексированы, особенно на большом веб-сайте. Например, в большом интернет-магазине обязательно будут дубликаты страниц и просроченные товары или товары, которых нет в наличии. Этим страницам может не хватать качества, которое поставило бы их в начало очереди индексации Google (и это если Google вообще решит просканировать эти страницы).
Кроме того, у крупных веб-сайтов электронной коммерции часто возникают проблемы с краулинговым бюджетом. Я видел случаи, когда в магазинах электронной коммерции было более миллиона товаров, при этом 90% из них были классифицированы как «Обнаруженные — в настоящее время не проиндексированные». Но если вы видите, что важные страницы исключаются из индекса Google, вы должны быть глубоко обеспокоены.
Как повысить вероятность того, что Google проиндексирует ваши страницы
Каждый веб-сайт уникален и может страдать от различных проблем с индексацией. Тем не менее, вот некоторые из лучших практик, которые помогут проиндексировать ваши страницы:
1. Избегайте сигналов «мягкой ошибки 404». Это включает в себя все, от использования «Не найдено» или «Недоступно» в копии до наличия номера «404» в URL-адресе.
2. Используйте внутренние ссылки
Внутренние ссылки являются одним из ключевых сигналов для Google о том, что данная страница является важной частью веб-сайта и заслуживает индексации. Не оставляйте потерянных страниц в структуре вашего веб-сайта и не забудьте включить все индексируемые страницы в свои карты сайта.
3. Внедрите надежную стратегию сканирования
Не позволяйте Google сканировать ваш веб-сайт. Если слишком много ресурсов тратится на сканирование менее ценных частей вашего домена, Google может занять слишком много времени, чтобы добраться до хороших вещей. Анализ журнала сервера может дать вам полную картину того, что сканирует робот Googlebot, и как это оптимизировать.
4. Устранение некачественного и дублированного контента
На каждом крупном веб-сайте рано или поздно появляются страницы, которые не следует индексировать. Убедитесь, что эти страницы не попали в ваши карты сайта, и используйте тег noindex и файл robots.txt, когда это уместно. Если вы позволите Google тратить слишком много времени на худшие части вашего сайта, он может недооценить общее качество вашего домена.
5. Посылайте последовательные сигналы SEO.
Одним из распространенных примеров отправки противоречивых сигналов SEO в Google является изменение канонических тегов с помощью JavaScript. Как отметил Мартин Сплитт из Google во время JavaScript SEO Office Hours, вы никогда не можете быть уверены, что сделает Google, если у вас есть один канонический тег в исходном HTML и другой после рендеринга JavaScript.
Сеть становится слишком большой
За последние пару лет Google совершил гигантский скачок в обработке JavaScript, облегчив работу SEO-специалистов.