Как проверить 100 тысяч страниц на вхождение в индекс Google — инструкция — Маркетинг на vc.ru
О скрипте, который проверяет, проиндексировал ли бот Google нужные страницы огромного сайта, рассказывает SEO-специалист новостного проекта info-kurs.com Андрей Верстаков в своем материале для ppc.world.
1400 просмотров
Для специалиста по поисковой оптимизации понимание того, как Google и другие поисковые системы сканируют и индексируют веб-сайт, является одним из главных приоритетов. Однако получить необходимые данные для анализа сотен тысяч страниц не так просто, как хотелось бы.
Первое, о чем подумает опытный SEO-гуру, — это автоматическая обработка лог-файла визитов сайта, чтобы отследить посещения робота Google. Но само посещение еще не гарантирует добавление страницы в индекс. У нас сотни тысяч страниц находятся в индексе, поэтому мы задумались о разработке надежного способа получения данных о статусе индексации Google.
В этом материале мы поговорим:
- почему важно знать статус индексации сайта;
- о решении этой задачи с помощью кастомного инструмента проверки индексации;
- как проверить индексацию сайта самостоятельно.
Почему важно знать статус индексации сайта
Если вы крупный издатель, то наверняка хотите привлечь потенциальных пользователей или клиентов на сайт из поиска Google. Если веб-сайт (или его часть) не проиндексирован, вы не будете отображаться в результатах поиска и потеряете любой потенциальный органический трафик, конверсии или рекламный инвентарь останется невостребованным.
Но может быть и обратная проблема. Если веб-сайт создает URL-адреса в геометрической прогрессии (обычная проблема на сайтах электронной торговли) или допускает неконтролируемый пользовательский контент, то Google может сканировать и индексировать больше, чем следовало бы. Это может быстро привести к огромной неэффективности в ущерб основной архитектуре сайта. В этом случае страницы, которые представляют пользу для издателя будут отдаваться сервером медленнее, именно потому что сервер тратит много времени на отработку запросов бота Google. Поэтому реальный человек, когда зайдет на сайт, получит контент медленнее или вообще не получит, так как сервер сбросит его соединение по таймауту.
Распространенные проблемы при сборе данных об индексации Google
Скорее всего, для сбора данных индексации вы используете Google Search Console или стороннее решение. Однако оба варианта имеют свой набор недостатков, когда дело доходит до проверки индексирования сотен тысяч страниц. Обычно они связаны с доступностью данных и точностью результатов. Это те проблемы, с которыми столкнулись мы.
Ограничения Google Search Console
Google Search Console (GSC) — достоверный и точный источник данных о статусе индексации, ведь он подключен к системе индексирования Google. В GSC есть три суперполезных отчета, которые предоставляют данные о статусе индексации: инструмент URL Inspector, отчет о покрытии и отчет о файлах Sitemap.
Однако ни один из этих отчетов не подходит для крупномасштабных веб-сайтов, поскольку GSC ограничивает количество URL-адресов, которые вы можете проверять в день (50 URL для инспектора, и по 1000 URL в остальных отчетах).
Мы хорошо знаем об этом, потому что нам приходилось автоматизировать работу браузера для работы с URL Inspector Tool. Возможно, мы поделимся этим драгоценным опытом в новой статье.
Теоретически отчет о покрытии и отчет о файлах Sitemap могут помочь, но, к сожалению, Google Search Console ограничивает отчет об экспорте до 1000 строк данных, и сейчас нет доступа к API для извлечения большего количества.
GSC ограничивает экспорт до 1000 URL, но у нас сотни тысяч страниц… Спасибо Google 🙂
Наверное, единственный способ обойти это ограничение — разделить всю архитектуру сайта на XML-карты объемом не более 1000 URL-адресов. Следовательно, если на сайте есть 100 000 (известных / важных) URL-адресов, потребуется создать 100 XML-файлов Sitemap. Но этим было бы очень сложно управлять, и поэтому не вариант.
Кроме того, это не даст вам необходимых данных для индексации неконтролируемых URL-адресов, созданных с помощью фасетной навигации или пользовательского контента.
Ограничения URL Profiler
В некоторых случаях профилировщик URL был подходящим вариантом для сбора данных индексации. Хотя нам нравится этот инструмент для решения других задач, мы поняли, что у него много проблем с получением точных данных для «нечистых» URL.
Некоторые примеры включают параметризованные URL-адреса, URL-адреса с закодированными символами, URL-адреса с различным регистром букв и URL-адреса с небезопасными символами.
Решение: кастомный инструмент проверки индексации
Чтобы обойти ограничения, с которыми сталкиваются большинство SEO-специалистов, работающих с крупными проектами, мы разработали специальный скрипт для проверки индексации.
Он может проверять неограниченное количество URL-адресов с любыми типами проблемных символов: параметры, кодировка, зарезервированные символы, небезопасные символы, разные алфавиты — если Google проиндексировал страницу, наш скрипт подтвердит это.
Как настроить скрипт
Вам понадобятся начальные знания о командной строке и немного о node. js. Скорее всего, этого будет достаточно.
Сначала установите последнюю версию Node.js на свой компьютер. Затем загрузите или клонируйте наш репозиторий с GitHub.
Откройте командную строку и перейдите в папку, которую вы только что скачали. Затем установите необходимые зависимости, используя следующую команду:
npm install
Раньше, если бы вам приходилось парсить результаты поиска Google, понадобилось бы много прокси-серверов, но благодаря ребятам из ScraperAPI это больше не проблема. У них есть тысячи прокси по всему миру, поэтому всё, что вам нужно сделать, — это отправить запрос, используя вызов через их API, они будут выполнять ротацию прокси в фоновом режиме. Как это сделать, читайте дальше.
Перейдите на сайт ScraperAPI и создайте учетную запись. Первые 1000 запросов в месяц бесплатны, этого более чем достаточно для тестирования нашего скрипта, а за $29 можно проверить 250 000 страниц.
Зайдите в свой аккаунт и получите свой API-ключ.
Добавьте свой ключ API в файл APIKEY. js, который находится в папке, которую вы скачали с нашего репозитория.
Пора запускать скрипт
Теперь добавьте список URL-адресов, которые вы хотите проверить на индексирование Google и сохраните его без заголовков в виде CSV с именем urls.csv в папке, которую скачали. Обязательно используйте полные URL-адреса с протоколом.
Если у вас нет списка, вы можете использовать наш список сложных URL. Мы подготовили его, когда разрабатывали скрипт, и он включает почти все проблемные типы URL-адресов, а также несколько поддельных URL-адресов, чтобы проверить, не было ли ложных срабатываний.
Перейдите в обратно в командную строку и запустите скрипт с помощью следующей команды:
npm run start
Работа скрипта началась. Теперь вы должны увидеть URL-адреса из вашего CSV, появляющиеся в командной строке с кодом ответа сервера.
Поскольку скрипт использует прокси, иногда вы будете получать код состояния 500. Ничего страшного:, скрипт повторно обработает эти ошибки и повторно запустит список, пока не будут проверены все URL-адреса.
По завершении сценария вы получите сообщение об успешном выполнении и новый файл с именем results.csv. Внутри вы найдете список URL-адресов с указанием статуса индексации.
В среднем проверка 2500 URL-адресов занимает около часа, поэтому если вы планируете использовать этот скрипт для тысяч URL-адресов, имейте это в виду.
Больше материалов по digital-маркетингу читайте на ppc.world.
Как проверить индексацию сайта в Google: простые способы и инструменты
Проверка индексации сайта в Google очень важна, потому что она помогает определить, насколько хорошо сайт проиндексирован и виден в результатах поиска. Отсутствие индексации полностью перекрывает продвижение сайта в Google. Рассмотрим несколько способов быстрой проверки индексации сайта в Google.
Использование команды «site:»
Один из самых простых способов проверки индексации вашего сайта – это использование команды «site:» в Google. Для этого нужно ввести в поиске Google «site:» и затем адрес сайта без пробелов. Например, если сайт называется example.com, то команда будет выглядеть так: «site:example.com».
Как работает команда «site:»
Команда «site:» помогает проверить, сколько страниц сайта проиндексировано в Google. Результаты показываются в виде списка URL-адресов, которые проиндексированы Google. Если вы видите не все страницы сайта, это означает, что некоторые страницы не проиндексированы, например, из-за недостаточной оптимизации страницы для поисковых систем или отсутствия внутренних ссылок.
Использование Google Search Console
Google Search Console – инструмент, который предоставляет владельцам сайтов множество полезной информации о проиндексированных страницах, посетителях, ссылках на сайт и т.д.
Для быстрой проверки индексации сайта в Google Search Console нужно выбрать свой сайт в списке и перейти на вкладку «Охват». Здесь вы можете увидеть, сколько страниц вашего сайта проиндексировано Google, а также получить информацию о том, какие страницы не проиндексированы и почему.
Инструменты Google Search Console
Google Search Console предоставляет ряд инструментов для проверки индексации сайта. Например, инструмент «Проверка URL-адресов» позволяет проверить индексацию конкретных страниц сайта и получить подробную информацию о том, как Google индексирует эти страницы.
Использование онлайн-сервисов
Еще один способ быстрой проверки индексации сайта – использование онлайн-сервисов. Существует множество таких сервисов, которые позволяют быстро проверить, сколько страниц вашего сайта проиндексировано в Google. Некоторые из них также предоставляют подробную информацию о том, какие страницы не проиндексированы и почему.
Наиболее популярные онлайн-сервисы для проверки индексации в Google: «Sitechecker», «SEMrush», «Ahrefs» и «Moz».
Использование онлайн-сервиса «Sitechecker»
Для использования сервиса нужно ввести адрес сайта в соответствующее поле и нажать кнопку «Проверить». Результаты покажутся на экране в течение нескольких секунд.
Использование онлайн-сервиса «SEMrush»
Введите адрес сайта в соответствующее поле и выберите вкладку «Органический поиск». Здесь вы можете увидеть, сколько страниц сайта проиндексировано Google, а также получить подробную информацию о том, какие страницы не проиндексированы и почему.
Вы можете выбрать любой из этих способов для быстрой проверки индексации сайта и получения ценной информации о проиндексированных страницах.
Начать продвижение
Имя Телефон
Сайт (если есть)Нажимая на кнопку «Отправить», я даю согласие на обработку персональных данных
Как проверить, какие страницы проиндексированы Google [Обновление]
В Интернете существуют миллионы веб-сайтов и миллиарды веб-страниц.
Поисковый робот Google сканирует большинство из них, чтобы предоставить наиболее точные и актуальные результаты поиска по любому ключевому слову.
Тысячи веб-страниц соревнуются друг с другом за ранжирование по каждому ключевому слову.
В такой ситуации, если Google не организует просканированные веб-страницы в различные корзины ключевых слов, прежде чем ранжировать их на основе их качества, он не сможет предоставить качественные результаты поиска.
Итак, если вы хотите извлечь выгоду из результатов поиска Google и привлечь трафик на свой веб-сайт, прежде чем вы сможете ранжироваться, вам необходимо убедиться, что большинство ваших страниц проиндексировано в его базе данных.
Но что означает индексация Google?
Что еще более важно, как проверить, какие страницы проиндексированы Google, а какие нет?
На эти вопросы мы собираемся ответить в этой статье. Начнем:
- Часто задаваемые вопросы
- Что такое проиндексированные страницы веб-сайта?
- Как узнать, проиндексирована ли моя статья Google?
- Как найти неиндексированные страницы?
- Ничего страшного, если страница не проиндексирована?
- Что делать, если страница моего сайта не проиндексирована?
- Что вам понадобится для проверки страниц, проиндексированных Google?
- Как проверить, какие страницы проиндексированы Google: пошаговые инструкции
- Способ №1: Google Site Query
- Способ №2: Использование Google Search Console
- Метод № 3: Использование средств проверки проиндексированных страниц Google
- Что делать, если страница веб-сайта не проиндексирована
- Аналогичные руководства для проверки
- Подведение итогов
Как только поисковый робот Google (Googlebot) находит ваш веб-сайт, он просматривает все страницы вашего сайта.
Затем эти страницы становятся частью базы данных Google, содержащей миллиарды записей, и этот процесс называется индексированием.
Страницы, которые включаются в базу данных Google для ранжирования в результатах поиска, называются проиндексированными страницами.
Как узнать, проиндексирована ли моя статья Google?Инструмент проверки URL в Google Search Console помогает выявить проблемы со страницей, которые блокируют ее сканирование, индексирование и отображение в результатах поиска.
Вы можете узнать больше о том, как использовать этот инструмент ниже.
Как найти неиндексированные страницы?Вы можете найти все свои неиндексированные страницы с помощью функции покрытия Google Search Console.
Подробнее о том, как использовать эту функцию, читайте ниже.
Ничего страшного, если страница не проиндексирована? Если вы не хотите, чтобы он был общедоступным или приносил вам какой-либо доход, тогда да, Google не должен его индексировать.
Но если вы хотите, чтобы страница привлекала трафик и приносила вам некоторый доход, эта страница должна быть проиндексирована Google.
Что делать, если страница моего сайта не проиндексирована?Вы можете отправить все свои страницы в Google, отправив обновленную карту сайта со ссылкой на неиндексированные страницы.
Также подождите пару часов после отправки страницы в Google — она не сразу начнет отображаться в результатах поиска.
Что нужно для проверки страниц, проиндексированных Google?Ответ зависит от того, какой метод вы хотите использовать для этого.
Однако было бы хорошо, если бы у вас была настроена учетная запись Google Search Console и добавлен ваш веб-сайт.
Кроме того, если вы используете какие-либо пакеты SEO и цифрового маркетинга (например, SEMRush, Moz, Ahrefs, SimilarWeb и т. д.), может быть хорошей идеей войти в них, прежде чем вы начнете проверять статус индексации своих страниц в Google. .
Наконец, вам нужен документ Word или лист Excel, чтобы записать все ссылки на все те страницы, которые не проиндексированы Google.
Это может помочь вам устранить проблемы, которые могут повлиять на правильную индексацию вашего сайта.
Как проверить, какие страницы индексируются Google: пошаговые инструкции
Способ № 1: запрос сайта GoogleЭто самый простой способ проверить, какие страницы индексируются Google.
Он также не требует каких-либо специальных инструментов или каких-либо настроек — просто перейдите к строке поиска Google, и все готово.
Это работает путем включения оператора Сайта в ваш поиск.
Когда вы ищете в Google свое доменное имя, за которым следует «сайт:» , результаты поиска включают все ссылки, которые есть в базе данных Google для вашего доменного имени.
Ниже показано, как должен выглядеть ваш поисковый запрос:
И вот как будут выглядеть результаты вашего поиска:
Теперь, если вы ищете конкретную страницу, вы также можете включить ее заголовок в свой поисковый запрос. вместе с доменным именем и оператором сайта.
Для наглядности посмотрите на скриншот ниже:
Если страница проиндексирована, она будет отображаться в результатах поиска.
Если он не отображается, значит, скорее всего, он не проиндексирован.
Однако у этого метода есть некоторые ограничения — он не дает информации, необходимой для действий.
Не сообщает, почему ваша страница не проиндексирована. Чтобы узнать это, следуйте другим методам, приведенным ниже.
Способ № 2: Использование консоли поиска GoogleКонсоль поиска Google предоставляет два разных метода проверки того, проиндексирована ли страница Google или нет.
Вот они:
Использование функции покрытияФункция покрытия позволяет сразу увидеть, какие страницы проиндексированы, какие нет и почему они не проиндексированы.
Чтобы получить доступ к инструменту покрытия, перейдите на левую панель навигации и щелкните параметр «Покрытие» в разделе «Индекс» .
Вы попадете на страницу, которая показывает, сколько ваших страниц проиндексировано (действительно) и исключено (не проиндексировано). Вот как это выглядит:
Функция покрытия также показывает причину, по которой определенные страницы не индексируются.
Например, он показывает тег N/A для страницы, которая может быть проиндексирована, но не проиндексирована, потому что она не включена в вашу карту сайта.
Точно так же в этом разделе помечаются страницы, заблокированные файлом Robots.txt, и проблемы с каноническими ссылками. Это говорит вам, почему Google не индексирует страницу.
Использование проверки URLЭтот инструмент может быть очень полезен, если вы недавно опубликовали статью или страницу любого типа и хотите проверить, проиндексирована она или нет.
Введите свой URL-адрес в строку поиска инструмента проверки URL-адресов и нажмите кнопку «Поиск ».
Если ваша страница проиндексирована, вы получите это сообщение:
Если страница не проиндексирована, вы получите сообщение, показанное ниже:
Инструмент также показывает, была ли ваша страница обнаружена поисковым роботом Google, но до сих пор не проиндексирован или вообще не обнаружен.
Эта информация может пригодиться, когда вы попытаетесь устранить проблему, из-за которой страница не индексируется.
Наконец, если на ваших проиндексированных страницах есть проблемы, которые могут повлиять на их рейтинг, вы получите следующее сообщение:
Когда вы нажмете на проблемы, отмеченные на ваших страницах, вы также получите предложения о том, что можно сделать, чтобы исправить Проблемы.
Метод № 3: Использование Google Indexed Page CheckersПомимо методов, описанных выше, существует множество сторонних инструментов, которые могут помочь вам проверить проиндексированные страницы в Google.
В тройку самых популярных среди них входят:
- Малые SEO-инструменты : Это набор различных SEO-инструментов, в который также входит инструмент проверки индекса. Хорошая вещь в том, что он позволяет вам проверять до 5 URL-адресов одновременно.
- Duplichecker : Хотя это инструмент проверки на плагиат, они также предлагают проверку индекса, которая может проверять до 10 URL-адресов одновременно.
- Веб-сайт SEO Checker : Опять же, это не отдельная программа проверки индекса, а полный SEO-аудит, который также включает проверку индекса. Вам нужно перейти на их страницу, ввести свой URL-адрес в строку поиска, подтвердить свою личность с помощью капчи и нажать 9.0125 «Проверить» кнопка.
Помимо этих автономных инструментов, функция проверки индекса также является функцией многих инструментов SEO .
Все популярные пакеты SEO (например, Ahrefs, Moz, SEMRush и т. д.) поставляются со встроенными в них средствами проверки индекса.
Если вы используете какой-либо из этих наборов, вы также можете попробовать их средства проверки индекса.
Что делать, если страница веб-сайта не проиндексирована
Вы можете отправить все свои страницы в Google, отправив обновленную карту сайта со ссылкой на непроиндексированные страницы.
Кроме того, подождите пару часов после отправки страницы в Google – она не сразу начнет отображаться в результатах поиска
Аналогичные руководства для проверки
- Как добавить метатеги в WordPress : В этом руководстве объясняется, как добавить метатеги к сообщениям блога и другим страницам, созданным с помощью WordPress.
Мета-теги важны для правильной индексации и ранжирования ваших веб-страниц. Они также считаются одними из лучших советов по SEO для WordPress, поэтому обязательно пролистайте это руководство.
- Как улучшить SEO : Попадание в индекс — это первый шаг к появлению в результатах поиска — ваша работа на этом не заканчивается. Вам также нужно поработать над своим SEO, если вы хотите начать появляться по нужным ключевым словам в поисковой выдаче Google, и в этом руководстве объясняется, как это сделать.
- Как получить рейтинг в Google : В этом руководстве содержится еще больше информации о том, как получить рейтинг в поисковой выдаче Google по вашим предпочтительным ключевым словам.
Подведение итогов
Знание того, какие из ваших веб-страниц проиндексированы Google, а какие нет, является основной частью поисковой оптимизации и первым шагом к привлечению органического трафика.
Поэтому важно знать методы, описанные выше, для проверки того, все ли ваши страницы (или любая конкретная страница) проиндексированы или нет.
Мы надеемся, что вы изучили все три метода и теперь умеете определять все веб-страницы, требующие вашего внимания.
Что вы думаете об этих методах поиска непроиндексированных страниц в Google?
Какой метод вы бы предпочли использовать для этой цели?
Поделитесь своими мыслями в комментариях и дайте нам знать. Удачного ведения блога!
Проиндексировал ли Google мой сайт?
Обновлено: 3 апреля 2023 г.
В этом кратком видеоролике с часто задаваемыми вопросами по SEO я покажу вам самый быстрый способ проверить, проиндексировал ли Google ваш сайт.
Как узнать, проиндексировал ли Google мои сайты? Как узнать, сколько страниц моего сайта находится в индексе Google?
Посмотрите мое видео ниже и прочитайте мои заметки, чтобы узнать, как проверить, проиндексирован ли ваш сайт или сайт вашего конкурента Google.
Как узнать, проиндексировал ли Google мой сайт? [Видео]
Ключевые моменты о сайтах, индексируемых Google
Проверьте мои другие статьи с общими вопросами SEO
Как узнать, проиндексировал ли Google мой сайт? [Видео]
Вот мое видео, в котором я объясняю и показываю, как проверить статус индекса Google любого веб-сайта.
Ключевые моменты об индексации сайтов Google
- Самый быстрый способ проверить, индексируется ли данный веб-сайт Google, — использовать команду
site:
. Например, чтобы проверить статус индекса моего сайта, я набираюsite:seosly.com
. - Если ваш сайт проиндексирован Google, команда вернет приблизительное количество проиндексированных страниц.
- Имейте в виду, что это не самый надежный метод проверки того, КАК много страниц проиндексировано.
сайт:
— лучший способ быстро найти один URL-адрес. - Чтобы узнать наиболее точное и точное количество проиндексированных страниц, перейдите к отчету о покрытии индекса в Google Search Console. Все, что ниже Действительный , является страницей, проиндексированной Google.
- Вы можете проверить любой понравившийся веб-сайт с помощью команды site:. Чтобы иметь возможность просматривать отчет об индексировании в Google Search Console, вы должны быть подтвержденным владельцем/пользователем.
- Вы также можете использовать сайт
: 9Команда 0305 для внутренней оптимизации ссылок. Например, чтобы проверить, какие страницы вашего сайта Google считает наиболее релевантными для определенного запроса, просто введите запрос site:domain.com. Чтобы проверить мои лучшие страницы на фразу «SEO-аудит», я набираю
SEO-аудит site:seosly.
.com
- В дополнение к сайту есть много суперполезных операторов поиска Google: оператор. Проверьте весь мой список операторов поиска Google , чтобы узнать больше.
Проверьте мои другие статьи с общими вопросами SEO
У меня есть много других интересных статей и видео с часто задаваемыми вопросами о SEO. Обязательно проверьте их все.
Ознакомьтесь со следующими статьями:
- Как провести SEO-аудит (190+ шагов)
- Сколько времени нужно, чтобы занять первое место в Google?
- Как я могу практиковать свои навыки SEO?
- 99+ SEO-ошибок
- Могу ли я научиться SEO самостоятельно?
- Могу ли я научиться SEO за два месяца?
- Могу ли я заплатить Google, чтобы получить более высокий рейтинг?
