Как проверить сколько страниц в индексе яндекса – Как оценить качество индексирования сайта — Онлайн-курсы Яндекса

Содержание

Как проверить количество страниц в индексе: 4 способа

Хотите узнать, сколько страниц вашего сайта есть в индексе поисковых систем? В этой статье вы не только познакомитесь с 4 работающими способами, как проверить количество страниц в индексе поисковых систем, но и поймете, когда и зачем это нужно.

1. Самый быстрый способ

Оператор «site» для Google. Чтобы получить информацию по Google, введите в поиск «site:» и ваш домен. Например:

site:site4business.net

Поисковая система Google покажет все страницы вашего сайта, которые есть в ее индексе. Общее их количество вы можете увидеть в самом верху:

Здесь их количество равняется 62. В вашем случае цифра скорее всего будет иной.

Внимание! Оператор site чувствителен к регистру. Если написать его с большой буквы, он не сработает.

Оператор «host» для Яндекса. Если вы хотите узнать, сколько у вашего сайта страниц в индексе Яндекса, воспользуйтесь оператором «host». Также, как и в предыдущем примере, напишите «host:» и интересующий вас домен:

host:site4business.net

В индексе Яндекса уже не 62, а 63 единицы контента. Такая разница не критична. Другое дело, если разница составляет десятки процентов. В этом случае нужно проводить технический аудит.

2. Яндекс Вебмастер и Google Search Console

Если на вашем сайте установлены сервисы для вебмастеров, вы сможете не только посмотреть количество страниц в индексе, но и динамику индексирования вашего веб-ресурса.

Динамика индексации – это график добавления новых разделов вашего сайта в индекс поисковых систем. Дело в том, что поисковики могут очень быстро сканировать ваш сайт, но добавляют в индекс не все сразу, а делают это постепенно и планомерно.

Как проверить, сколько страниц в индексе Яндекса. Перейдите в Яндекс Вебмастер и авторизуйтесь, войдя в почту, к которой вы привязывали свой веб-ресурс.

Затем, перейдите в раздел «Индексирование -> Страницы в поиске». Чтобы посмотреть их все перейдите во вкладку «Все страницы»:

Яндекс Вебмастер

Если вы перейдете в соседнюю вкладку, вы увидите те, которые оттуда выпали:

Исключенные из индекса

В графе «Статус» можно узнать причину выпадения.

Google Search Console. Перейдите по этой ссылке. Недавно этот сервис обновился и возможно вам придется снова подтверждать права на свой сайт.

После авторизации перейдите в раздел «Покрытие». Здесь вы увидите 4 вкладки:

  • Ошибка – не попавшие в индекс;
  • Без ошибок, но с предупреждениями – попавшие в индекс, возможно, вразрез вашим желаниям, например, даже если они закрыты в robots.txt;
  • Без ошибок – находящиеся в индексе;
  • Исключено – которым запрещено индексирование.

В каждой вкладке можно найти тонну полезной информации. Например, почему какая-то важная для SEO страница не попала в индекс, и наоборот, почему другая, закрытая в роботс туда попала.

Исследуйте и исправляйте ошибки.

А вы знали, что в целях содействия малому бизнесу мы делаем бесплатные аудиты сайтов? Чтобы принять участие в акции и получить бесплатную проверку своего ресурса от профессионала (с рекомендациями), оставьте заявку.

3. Расширения и букмарклеты

Минус этого способа в том, что вам придется устанавливать в свой браузер дополнения. Но жирный плюс в том, что если вам нужно постоянно проверять, сколько страниц есть в индексе Яндекса и Гугла, то делается это быстрее, чем с помощью операторов.

Один клик мыши и вы уже видите все данные у себя на экране.

Самое популярное дополнение – это RDS Bar. Ее можно установить и в Chrome, и в Firefox. Однако, у меня это расширение работает корректно только в браузере Firefox. Это мой незаменимый инструмент в работе над продвижением клиентских сайтов, так как часто приходится проверять размер сайтов конкурентов.

Чтобы посмотреть, какие именно страницы есть в индексе Яндекса, нажмите на соответствующую цифру:

Информация из RDS бара

4. Сервисы

Еще один способ проверить индексацию сайта – воспользоваться специальными сервисами. Один из них – pr-cy.ru. С помощью этого сервиса вы узнаете количество страниц в индексе Яндекс и Google в рамках стандартного (бесплатного) аудита сайта.

Просто введите домен сайта и в отчете обратите внимание на раздел «Индексация»:

Информация из pr-cy.ru

Есть и другие сервисы проверки индексации страниц. Например, платформа sitechecker. Но в отличие от pr-cy этот и другие сервисы берут деньги или требуют регистрацию.

Почему важно делать проверку

Для правильной и своевременной индексации сайта вы можете сделать карту сайта, корректно настроить файл robots.txt и многое другое. Но все это не дает абсолютных гарантий.

Поэтому, периодически проверяйте количество страниц вашего сайта индексе поисковых систем.

Чем это может помочь:

Во-первых, вы можете заметить резкий рост этого показателя, что может говорить о том, что в нее попали мусорные страницы. Это может привести к падению трафика.

Во-вторых, вы можете наоборот, заметить резкое падение этих значений. Если среди «пропавших» страниц есть важные с точки зрения SEO, вы также можете потерять много трафика.

В-третьих, вы можете заметить диспропорцию в показателях Яндекса и Google, что является тревожным звоночком и сигнализирует о возможных санкциях в одной из них.

Если вы заметили что-то из вышеперечисленного у своего сайта, пишите об этом в комментариях. Возможно, общими усилиями мы сможем найти причину или даже решение ситуации.

Видеоурок:

Поделитесь с друзьями:

seovelvet.com

Как узнать, сколько страниц в индексе Яндекса или Google?

Чтобы продвигаемые страницы могли выводиться в поиске, они должны находиться в индексе поисковых систем. Давайте разберемся, как проверить, какие страницы сайта находятся в индексе Яндекса или Google, узнать количество документов в базе поисковой системы. Какие инструменты существуют для отслеживания индексации страниц. Но вначале немного ликбеза.

Что такое индекс поисковой системы?

Индекс поисковой системы – это база данных, в которой находится информация обо всех документах (страницах с сайтов, файлов), которые могут участвовать в поиске.

Не все страницы включаются в индекс. Например, если страница вашего сайта признается роботом поисковой системы как низкокачественная, она может не включаться в индекс и не принимать участие в поиске. Аналогичная судьба часто ожидает страницы-дубли или документы, содержащие скопированные с других сайтов тексты.

В Google имеется основной индекс и дополнительный (supplemental index).

В дополнительный индекс попадают документы, которые имеют более низкое качество, чем документы из основного индекса. Они не участвуют в основном поиске, их редко посещает робот Google, они практически не приносят трафик на сайт.

В дополнительный индекс Google обычно попадают:

  • страницы с неуникальным контентом,
  • страницы, на которых практически отсутствует контент и страницы с текстом менее 500 символов,
  • дубли,
  • иногда в дополнительный индекс могут попадать страницы с низким весом.

Почему важно проверять количество страниц в индексе?

Очень важно отслеживать индексацию страниц, потому что от этого зависит трафик из поисковых систем. Если страница не проиндексирована, она не сможет появиться в выдаче по какому-либо запросу.

Также важна скорость индексации сайта. Если она низкая, в индексе будут устаревшие версии страниц, а новые документы будут попадать в поиск с большой задержкой. Чтобы решить эту проблему, посмотрите статью, как ускорить индексацию сайта.

Как узнать, сколько страниц в индексе Яндекса или Google?

Есть несколько способов проверить количество страниц в индексе поисковых систем:

1. Введите в поисковую строку запрос: site:site.com (где site.com – это URL или адрес главной страницы сайта), как на скриншоте ниже:

Под строкой поиска вы увидите примерное количество страниц в индексе поисковой системы. В примере выше указано число страниц в индексе Google. Этот способ позволяет узнать число страниц в базе поисковой системы у любого сайта, в том числе конкурента.

2. Проверить количество страниц в индексе Google, можно в сервисе Google для вебмастеров. Аналогичный сервис в Яндексе – это Яндекс.Вебмастер. В нем можно посмотреть число страниц в индексе данной поисковой системы. Для просмотра данных потребуется подтвердить права на сайт в сервисах. Поэтому данный способ не подходит для анализа сайтов конкурентов.

Сервис

Раздел, в котором находится информация о числе проиндексированных страниц

Google для вебмастеров

Индекс Google -> Статус индексирования

Яндекс.Вебмастер

Индексирование -> Структура сайта

Если у вас есть доступ в Яндекс.Вебмастер, зайдите на вкладку «Индексирование» -> «Страницы в поиске» и над графиком выберите отображение «История». Здесь вы сможете посмотреть не только число страниц в индексе, но и историю индексирования сайта.

3. При помощи онлайн-сервисов, например, многие бесплатные сервисы для проведения аудитов сайтов выводят информацию о количестве страниц в индексе.

Как проверить страницу в индексе Яндекса или Google?

Часто вебмастеру требуется узнать, находится в индексе конкретная страница сайта или нет. Самый простой способ узнать это – ввести поисковый запрос, состоящий из адреса страницы. Если в результатах поиска вы увидите искомую страницу, значит, она находится в индексе:

В Яндекс.Вебмастер есть функция, которая позволяет не только проверять, в индексе страница или нет, но и следить, чтобы важные страницы не выпадали из поиска. Чтобы добавить страницу в список отслеживаемых, зайдите в раздел «Индексирование» -> «Важные страниц» и в открывшейся форме добавьте нужные страницы:

Можно настроить отслеживание до 100 страниц, что достаточно для многих проектов. Если вам нужно отслеживать больше документов на сайте, то можно воспользоваться сервисом Топвизор. Он позволяет проверять, в индексе страницы сайта или нет, без ограничения по числу документов. Помимо проверки индексации сайта, сервис позволяет снимать позиции по запросам, группировать запросы и многое другое.

Как вернуть или добавить страницу в индекс?

В панелях для вебмастеров имеются специальные сервисы, позволяющие отправить страницу на переиндексацию или добавить новую страницу с сайта в поисковую систему:

Второй способ отправить страницу на переиндексацию – это добавить ссылки на страницу в социальные сети, новостные ресурсы и другие интернет-ресурсы, которые часто посещают роботы поисковых систем.

Если вы отправили страницу на индексацию, но она не появилась в поиске, скорее всего, робот посчитал документ малополезным. Нужно доработать страницу, чтобы она попала в индекс.

Как ускорить индексацию сайта?

Индексацию сайта можно ускорить на разных этапах продвижения сайта:

  1. Добавьте сайт в панели для вебмастеров. Это позволит ускорить попадание нового сайта в индекс.
  2. Чаще обновляйте контент. Тогда поисковые роботы будут чаще заходить на сайт и новые страницы будут быстрее добавляться в индекс.
  3. Следите за качеством контента. На сайты с низким качеством контента роботы могут заходить реже или совсем перестать индексировать такие проекты.
  4. Периодически проводите технический аудит сайта, чтобы исключать технические причины выпадения страниц из индекса. Например, иногда при редактировании файла robots.txt вебмастера по ошибке закрывают некоторые документы от индексации.
  5. Если вы подавали заявку на удаление страницы из индекса через панели для вебмастеров, но затем передумали и решили снова включить страницу в поиск, то с ее индексацией могут возникнуть проблемы. Она не будет добавляться в индекс, несмотря на все ваши действия. Иногда решить проблему помогает только обращение в службу поддержки поисковой системы.
  6. Если страницы стали вылетать из индекса, проверьте сайт на наличие фильтров, уникальность текстов и техническую сторону работы сайта.
  7. Если сайт слишком большой, вы можете достигнуть лимита по числу документов в индексе поисковой системы (такой лимит есть для каждого сайта). В этом случае можно закрыть от индексации второстепенные страницы, чтобы основные присутствовали в поиске.

В этой статье мы рассмотрели, как проверить индекс сайта в Яндексе или Google, узнать количество страниц в базе поисковой системы, настроить автоматическое отслеживание индексации проекта. Если у вас остались вопросы, добавьте их в комментариях под статьей.

Читайте также:

adblogger.ru

Как определить количество проиндексированных страниц в Яндексе и Google

Определяем количество проиндексированных страниц сайта с помощью специального запроса (документный оператор)

Для Яндекса: site:o-es.ru

Проверка индексации сайта в Яндексе

 

Аналогично и для Google: site:o-es.ru

Проверка индексации страниц в Google

 

Видно, что в Google проиндексировано больше страниц. Это связано с тем, что поисковая система Google индексирует сайты и добавляет страницы в основной индекс быстрее Яндекса.

 

При помощи Яндекс.Вебмастер (Google Вебмастер)

Данные по сайту o-es.ru в панели Яндекс.Вебмастер.

Проверка индексации страниц в Яндекс.Вебмастер

 

Страниц в поиске – 126. Данное значение отличается от значений полученных оператором (site).

Официальный ответ поддержки Яндекса:

Я бы рекомендовал Вам ориентироваться на результаты поиска.
Данная ситуация может быть связана с тем, что в зависимости от типа устройства, типа браузера и операционной системы, у нас применяются разные настройки поиска. Из-за этого значение найденных ответов может отличаться от того, каким оно окажется на последней странице. Также на отображение числа ответов могут влиять проводимые на нашей стороне эксперименты.

Соответственно ориентируемся на значения, полученные запросом site:o-es.ru.

 

Почему Загруженных страниц в Яндекс.Вебмастере больше чем Страниц в поиске?

В разделе Загруженные страницы (Яндекс.Вебмастер) отображается информация обо всех страницах, которые известны нашему роботу, а в разделе Страницы в поиске (Яндекс.Вебмастер) показываются только те из них, которые реально участвуют в поиске.

Причин, по которым загруженные страницы могут не участвовать в поиске, много:

  1. Они могут быть дубликатами уже показанных страниц.
  2. Содержать поисковый спам.
  3. Содержать ненужный пользователям контент.
  4. Либо при их загрузке произошла ошибка. Те страницы, при загрузке которых произошли ошибки, можно посмотреть в разделе Исключенные страницы.

Необходимо добиться, чтобы количество проиндексированных страниц в Яндексе и Google были одинаковыми, допускается погрешность в 10-15%. Разница может означать дублирование проиндексированных страниц или наоборот, что какие-то из них еще не проиндексированы поисковой системой. Поэтому количество страниц в индексе должно быть одинаковым и сопоставляться с реальным на сайте.

 

Как проверить индексацию конкретной страницы сайта в Яндексе и Google?

Для Яндекса.

Используем оператор Url
Синтаксис: url:полный URL

Пример:

Проверка индексации страницы в Яндексе

 

О документарных операторах Яндекса: https://yandex.ru/support/search/query-language/search-operators.xml

 

Для Google.

Используем оператор Site
Синтаксис: site:полный URL

Пример:

Проверка индексации страницы в Google

 

5 простых приемов для ускорения индексации новых страниц (сайта) в Яндексе:

  1. Используем сервис Переобходчик страниц (Яндекс.Вебмастер).
    Переобход страниц, Яндекс.Вебмастер
  2. Используем сервис Сообщить о новом сайте https://webmaster.yandex.ru/addurl.xml.
  3. В рамках структуры сайта, должны быть ссылки на все страницы.
  4. Внешние ссылки на новые страницы.
  5. Устраняем технические ошибки (SEO-аудит сайта: дубли, битые ссылки, ошибка 404 и др.).

Необходимо дождаться индексации изменений и обновление поисковой базы (апдейт). За апдейтами можно следить тут — http://tools.promosite.ru/

Если, скажем, через месяц после исправления всех ошибок и недочетов ситуация не изменилась, можно попробовать написать в техподдержку Яндекса о проблемах индексации сайта, чтобы выявить причины. Делать это нужно обязательно, так как напрямую влияет на продвижение сайта по трафику.

 

Как написать в тех. поддержку Яндекса?

  1. Добавляем сайт в Яндекс.Вебмастер (подтверждаем права на сайт).
  2. Переходим в панель управления вашим сайтом.
  3. В нижней части страницы (footer), находим ссылку Обратная связь.
  4. Открывается страница службы поддержки, выбираем Индексирование сайта.
  5. Выбираем Мой сайт плохо индексируется.
  6. Выбираем Новые страницы сайта долго не попадают в поиск.
  7. Ставим чекбокс Рекомендации не помогли.
  8. Заполняем поля и отправляем форму.
Написать в поддержку Яндекса

 

Какие поля заполнять:

  • Из списка сайтов, выбираете соответствующий сайт.
  • Указываете 2-3 примера страниц, которые не проиндексированы поисковой системой.
  • В поле Сообщение укажите проблему и действия, которые были сделаны для устранения проблемы. Как долго не решается вопрос.
  • Указываете ваше имя и email.

 

Переобход страниц – новый инструмент Яндекс.Вебмастер
Контролируйте процесс индексации вашего сайта, добивайтесь успеха в продвижении!

o-es.ru

Как узнать сколько страниц в индексе. Зачем индекс поисковым системам. Проверка индексации страницы

Индекс поисковой системы — база данных, которая хранит информацию о веб-документах. Назначение этого «хранилища» очевидно — используя базу данных, поисковик может быстро и точно вычислять значения факторов ранжирования, численное значение релевантности URL по запросу пользователя и формировать результаты выдачи.

Для SEO-специалистов и владельцев сайтов это означает одно — сколько страниц проиндексировано, столько документов и может быть найдено в результатах выдачи по целевым запросам и столько же URL может привлекать трафик.

Как быстро проверить индексацию в Яндексе и Google?

Способов и сервисов проверки индексации страниц достаточно много и у нас есть три инструмента, которые показывают количество документов в индексе по домену:

Просто укажите домен в любом из них. Инструмент поможет проверить сайт на индексацию и подскажет сколько документов в базе данных Google и Яндекс, с учётом поддоменов или без них:

Поисковые операторы для проверки индексации

Узнать индексацию сайта можно, используя операторы поиска. Для Яндекса это операторы «site:» , «host:» и «url:» .

Для Google — «site:» , «inurl:» и «info:» .

В обеих поисковых системах указываются приблизительные результаты, но можно использовать дополнительные параметры, чтобы узнать, сколько страниц было проиндексировано, например, за неделю:

Для того, чтобы проверить индексацию определённой страницы сайта используйте оператор «url:» для Яндекса и «info:» для Google.

Вебмастер и Search Console

В Вебмастере переходим на вкладку «индексирование» — «страницы в поиске». Здесь расположилась статистика по добавленным и удалённым из поиска документам. Также можно посмотреть историю изменений для всего сайта за определённый интервал дат:

Проверить индексацию сайта в Google можно с помощью Search Console. В новой версии консоли переходим на вкладку «статус» — «индексирование отправленных URL» и получаем картину изменений, ошибок, исключенных страниц и график показов:

Возможный контроль индексации

Важно понимать, что сканирование или обход страницы сайта не означает её попадание в индекс. Иногда необходимо запретить индексирование страниц, которые не нужны в поиске, например: URL с техническими GET-параметрами, служебные или пользовательские документы (корзина, личный кабинет и прочие), документы с UTM-метками. Поэтому каждому сайту желательно иметь:

    Sitemap.xml — файл, который помогает поисковым роботам сканировать сайт, с учётом заданных приоритетов.

    Robots.txt — файл, задающий правила и параметры обхода для всех роботов поисковых систем или индивидуально для каждой:

  • С помощью команды Disallow можно запрещать индексирование отдельных URL или разделов сайта.

    Crawl delay — задаёт минимальное время обращения робота к серверу для избежания нагрузок на сайт.

    Clean param — позволяет указать неважные для индексации CGI-параметры в URL-адресах, то есть различные идентификаторы пользователей, сессий и так далее. Используется только в Яндексе.

Открытые страницы должны быть в поиске, только тогда можно думать о ранжировании. Не забывайте проверять сайт на индексацию , отслеживайте изменения и удачных позиций в выдаче!


Большинство онлайн сервисов по проверке индексации дают возможность проверить небольшое количество страниц — от 10 до 100. А что делать, если нужно проверить на индексацию большой интернет-магазин или портал размером 100 000 или несколько миллионов страниц? Для з

offlink.ru

Индекс и индексация сайта: что это такое?

Индекс поисковых систем – специальная база данных, в которую заносится информация, собираемая поисковыми роботами со страниц сайтов. При этом учитывается текстовое наполнение, внутренние и внешние ссылки, графические и некоторые другие объекты. Когда пользователь задает запрос поисковой системе, происходит обращение к базе данных. После этого выполняется ранжирование по релевантности – формирование списка сайтов по мере убывания их значимости.

Что такое индексация

Процесс добавления роботами собранной информации в базу называется индексацией. Затем данные определенным образом обрабатываются и создается индекс – выжимка из документов. Процесс заполнения индекса осуществляется одним из двух способов: вручную или автоматически. В первом случае владелец ресурса должен самостоятельно добавить URL веб-ресурса в специальную форму, которая есть у «Яндекса», Google и других поисковых систем. Во втором робот сам находит сайт, планомерно переходя по внешним ссылкам с других площадок или сканируя файл-карту sitemap.xml.

Первые попытки индексировать веб-ресурсы были сделаны еще в середине 90-х годов прошлого столетия. Тогда база данных была похожа на обычный предметный указатель, в котором содержались ключевые слова, найденные роботами на посещенных ими сайтах. Почти за 30 лет этот алгоритм был значительно усовершенствован и усложнен. Например, сегодня информация перед попаданием в индекс обрабатывается по сложнейшим вычислительным алгоритмам с привлечением искусственного интеллекта.

Зачем индекс поисковым системам

Индексация страниц сайта – неотъемлемая часть работы поисковых систем (не только Google и «Яндекса», но и всех остальных). База, полученная в процессе сканирования веб-ресурсов, используется для формирования релевантной выдачи. Основные роботы поисковых систем:

  • основной – сканирует весь контент на сайте и его отдельных страницах;
  • быстрый – индексирует только новую информацию, которая была добавлена после очередного обновления.

Также существуют роботы для индексации rss-ленты, картинок и др.

При первом посещении в базу попадают все новые сайты, если они подходят под требования поисковой системы. Во время повторного визита информация лишь дополняется деталями.

Скорость индексации страниц

Чем быстрее происходит добавление страницы в индекс, тем лучше для веб-ресурса. Однако поисковые роботы не могут выполнять такой большой объем работы так же часто, как обновляется наполнение сайтов. Индексация в «Яндекс» в среднем занимает одну-две недели, а в Google – несколько дней. С целью ускорения индексации ресурсов, для которых очень важно быстрое попадание информации в базу (новостные порталы и т. д.), применяется специальный робот, посещающий такие сайты от одного до нескольких раз в день.

Как проверить индексацию в «Яндексе» и Google

Воспользоваться информацией из панели веб-мастеров. В списке сервисов Google откройте Search Console, а затем перейдите в раздел «Индекс Google». Нужная информация будет находиться в блоке «Статус индексирования». В «Яндекс.Вебмастер» необходимо перейти по следующей цепочке: «Индексирование сайта» — «Страницы в поиске». Еще один вариант: «Индексирование сайта» — «История» — «Страницы в поиске».

Задать поиск по сайту с использованием специальных операторов. Для этого используйте запрос с конструкцией «site:», указав далее адрес вашего ресурса в полном формате. Так вы узнаете количество проиндексированных страниц. Серьезные расхождения в значениях (до 80 %), полученных в разных поисковых системах, говорят о наличии проблем (например, веб-ресурс может находиться под фильтром).

Установить специальные плагины и букмарклеты. Это небольшие дополнения для браузера, которые позволяют выполнить проверку индексации страниц сайта. Одним из самых популярных среди них является RDS Bar.

Как ускорить индексацию

На скорость индексации сайта прямо влияют несколько факторов:

  • отсутствие ошибок, замедляющих процесс сбора информации поисковым роботом;
  • авторитетность ресурса;
  • частота обновления контента на сайте;
  • частота добавления нового контента на сайт;
  • уровень вложенности страниц;
  • корректно заполненный файл sitemap.xml;
  • ограничения в robots.txt.

Чтобы ускорить индексацию сайта, выполните ряд правил:

  • выберите быстрый и надежный хостинг;
  • настройте robots.txt, установив правила индексации и сняв ненужные запреты;
  • избавьтесь от дублей и ошибок в коде страниц;
  • создайте карту сайта sitemap.xml и сохраните файл в корневой папке;
  • по возможности организуйте навигацию таким образом, чтобы все страницы были в 3 кликах от главной;
  • добавьте ресурс в панели веб-мастеров «Яндекса» и Google;
  • сделайте внутреннюю перелинковку страниц;
  • зарегистрируйте сайт в авторитетных рейтингах;
  • регулярно обновляйте контент.

Дополнительно рекомендуем оценить объем flash-элементов с точки зрения их влияния на продвижение. Наличие визуальных объектов этого типа значительно снижает долю поискового трафика, так как не дает роботам выполнить индексацию в полной мере. Также не желательно размещения ключевой информации в PDF-файлах, сохраненных определенным образом (сканироваться может только текстовое содержимое документа).

wiki.rookee.ru

Проверка большого количества страниц в индексе Яндекса / Гугла | Массовая проверка списка страниц на индексацию в поисковых системах с помощью KeyCollector

Доброго времени суток, дорогие читатели. Хочу вам рассказать очень полезный кейс (способ — называйте как хотите) сбора страниц в индексе яндекса и гугла, который мы с коллегами придумали на днях. Скажете вы — «А почему мне не зайти, например, в Яндекс вебмастер или спарсить выдачу?!» — все просто, в данном случае наш пациент — интернет магазин атрибутики для телефонов с огромным количеством страниц (реальных страниц товаров — около 10000 штук). Необходимо было на данном сайте проверить какие страницы товаров в данный момент находятся в индексе, а какие нет.

Почему же нам не подходят стандартные способы проверки страниц в индексе:

  • Яндекс вебмастер: там показывается лишь 1000 URL в индексе, сколько бы у вас страниц не было, он покажет лишь первую тысячу.
  • Скрипт с XML-лимитами Яндекса: честно говоря не сталкивался, но знаю, что этот способ наверняка будет более затратным, чем тот, который я вам покажу, к тому же, с Гугла вы таким образом не сможете собрать страницы с индекса
  • Проверить вручную каждую ссылку: думаю очевидно, почему нам этот метод не подходит =)

Что нам нужно для проверки индексации страниц в индексе Яндекса и Гугла

Для того, чтобы им воспользоваться нам необходим KeyCollector, думаю он есть практически у каждого СЕО-оптимизатора, а также немного денег на антикапчу. Результатом нашей проверки будет екселевский документ, в котором будет список всех URL-ов сайта отсортированных по «в индексе / не в индексе» (в случае с двумя поисковыми системами, можно будет сделать и две колонки — Индекс Яндекса и Индекс Google).

Итак, сам способ массовой проверки индексации большого количество страниц в Яндексе и Гугле

Нам нужно добыть список всех URL вашего сайта, каким образом это сделать, я думаю вы и сами знаете. В большинстве случаев у нас есть sitemap.xml в котором присутствует необходимый список ссылок. Давайте в пример возьмем сайтмап данного блога. Показывать я буду на примере 50-ти страниц, но этого будет достаточно, чтобы понять что к чему =)

1) Заходим на сайтмап -> правая кнопка мыши -> сохранить как -> sitemap.xmlВытаскиваем список урлов для проверки индексации

 

2) Далее открываем наш сохраненный файл с помощью екселя. Вылетают какие-то предупреждения — жмем везде «ОК». Видим примерно следующее:

Вытаскиваем все ссылки в ексель для проверки индексации в яндексе и гугле

Вот в принципе-то тот самый перечень страниц, которые мы и будем проверять на индексацию в Яндексе/Гугле

3) Теперь заходим в КейКоллектор и сразу создадим новый проект и зайдем в настройки -> парсинг -> общие и там где у нас написано «фильтрация символов» стираем оба поля и жмем сохранить.

заходим в кейколлектор для проверки индексации страниц

Мы это сделали для следующего нашего шага

4) Добавления наших URL-ов. Жмем добавить фразы, копируем столбик со всеми ссылками из excel — не пугайтесь, даже если их 10 000 — коллектор добавил их мгновенно. Как скопировали нажимаем «добавить в таблицу».

добавляем наши URL для проверки на индексацию

 

5) После того, как страницы были успешно добавлены — в правом верхнем углу пишем URL нашего пациента и нажимаем кнопочку «Сбор позиций сайта с ПС яндекс» (или/и гугл соответственно вашим целям) и ждем пока он закончит. Для сравнения: операция на проверок 10000 страниц заняла около 6 часов, но в данном случае это малая жертва, т.к. ваши трудо- и временные затраты практически нулевые (коллектор вам не будет грузить компьютер или еще каким-либо образом мешать, он просто тихо сделает свою работу).

Осталось только выгрузить наш документ: не забудьте в настройках -> интерфейс -> экспорт -> поставить галочки на «фраза» и «позиция с ПС яндекс» (ну и гугл, если необходимо). Сохраняем. Давайте наконец выгрузим то, что у нас получилось! (кнопочка excel в верхнем левом углу)

Готовый файл со списком ссылок проиндексированных / непроиндексированных в Google и Яндекс

 

И что мы видим в итоге: Экселевский файлик с урлами сайта и цифру напротив либо «1» либо «-1».
«1» — страница в индексе
«-1» — страница не в индексе
indexa7

Что же именно мы сделали? По сути, мы заставили КейКоллектор заходить в яндекс/гугл вбивать в поисковую строку каждый урл и собирать позицию нашего сайта в выдаче. От туда и цифра, если «1» — то это первая (и единственная) позиция, а «-1» — это значит, что страницы в выдаче нет. Хочу напомнить, что вам понадобится антикапча — иначе коллектор будет останавливаться каждые 5 минут. Спасибо за внимание.

nz4.ru

Отправить ответ

avatar
  Подписаться  
Уведомление о