Индексация сайта яндекс: Юзабилити сайта — Вебмастер. Справка

Содержание

Как ускорить индексацию сайта в Яндексе и Google одновременно?

1. Карта сайта

Карта сайта – файл, в котором содержатся адреса всех страниц ресурса, он находится в корне файловой системы и носит имя Sitemap. Перед началом индексирования, поисковый робот обращается к этому файлу, после проходит все (если не позволяет краулинговый бюджет, то часть) указанные в нем страницы. Такая карта создается в формате XML, как вручную, так и с помощью специальных сервисов или плагинов для CMS. Кроме XML карты, можно создать отдельную HTML страницу, содержащую в себе ссылки на все страницы сайта.

После создания карты, ее нужно загрузить в Вебмастере Яндекса и в Google Search Console в соответствующие разделы.


Загрузка карты сайта в Яндекс Вебмастер


Загрузка карты сайта в Google Search Console

Нужно понимать, что карта сайта должна либо обновляться автоматически, либо вручную при добавлении нового материала.

2. Создание robots.txt

В данном файле указывают правила индексирования тех или иных страниц, разделов и сайта в целом. Не все страницы могут быть полезны для пользователя, поэтому их важно закрыть от индексации. Сделать это можно в файле robots.txt, прописав специальную директиву. 

Путь до карты сайта прописывается также в этом файле.

Синтаксис позволяет применять для определенных поисковиков уникальные правила.

Если robots.txt заполнен корректно и исключает из индекса все мусорные страницы, то это положительно влияет на скорость индексации (а в некоторых случаях и на ранжирование) ресурса. Подробнее про файл robots.txt можно прочитать в Яндекс Справке.

3. Сайт с правильной структурой

Один из основных факторов, влияющих на скорость индексации – логически правильная структура сайта. Желательно избегать таких структур, при которых страница может оказаться более чем на 5-ом уровне вложенности, что усложнит работу краулеру. Идеал до 3-х уровней вложенности. О том, как проверить и сократить уровень вложенности страниц мы писали в соответствующей статье блога.

4. Перелинковка внутренних страниц

Кроме ссылок в общем меню, рекомендуется продумать дополнительную перелинковку страниц. Дело в том, что краулер имеет возможность посещать только те страницы, на которые имеются ссылки. Наиболее действенным вариантом будет размещение URL-адресов на посещаемых страницах, например, главной.

К внутренней перелинковке также относятся блоки рекомендованных товаров, похожих или новых материалов, гиперссылки внутри статьи с анкорами, которые могут содержать ключевые слова.

Рекомендуется проставлять ссылки обдуманно, чтобы страница донора и акцептора были релевантными между собой. Также должен соблюдаться принцип, при котором на любую полезную для пользователя страницу, ведет внутренняя ссылка.

Хлебные крошки являются элементом навигации и улучшают внутреннюю перелинковку.

5. Качество текстов

Не допускается публикация дублей текстового контента с других ресурсов, с этим поисковики активно и успешно борются. Контент в первую очередь, должен быть уникальным и полезным для посетителя. Что касается уникальности, то она легко проверяется в одном из многочисленных сервисов, в том числе и на поверхностный рерайт.

К качеству текстов можно отнести и подход к их SEO оптимизации. Если на странице присутствует большое количество переспама и воды, то она скорее всего не проиндексируется краулером.

Помните, поисковые алгоритмы хорошо понимают структуру текста, и даже неправильные окончания или многочисленные орфографические ошибки, могут стать причиной плохой индексации сайта или даже попадания его под фильтры.

Объем текста может влиять на индексацию страницы в целом, поэтому рекомендуется публиковать статьи более 1500 символов.

6. Дубли страниц

Созданием дублей грешат многие CMS. Одна и та же страница может иметь разные URL-адреса, в зависимости от того, в каком месте она публикуется.

Примеры дублей страниц:

  • url.ru/str.html
  • url.ru/str
  • url.ru/str/

По факту, это одна страница, но для поисковика разные, точнее по разным адресам он видит одну и ту же. Если сайт небольшой, то робот отбросит 3 URL, оставив в индексе один, но если страниц много, то проблем с индексацией не избежать.

Чтобы закрыть вопрос создания дублей, следует установить и настроить плагин на свою CMS систему, благо под большинство они уже есть в готовом варианте. Плагин, как правило, не только удаляет дубли, но и создает 301 редиректы в файле .htaccess.

7. Регулярное наполнение сайта

Если ресурс наполняется нерегулярно, то робот может растянуть диапазон между своими визитами, что в свою очередь, значительно замедлит попадание новых страниц в индекс. 

Если говорить о публикации новых материалов, то рекомендуется делать это не реже раза в неделю, тогда сайт будет выглядеть «живым» в глазах поисковиков. А если же страницы будут появляться ежедневно, то через определенное время краулер будет посещать ресурс по несколько раз в сутки.

8. Панели вебмастеров

Новый сайт сразу после его создания, рекомендуется добавить в панели вебмастеров Яндекса и Гугла: Вебмастер и Search Console.


Добавление сайта в Яндекс Вебмастер


Добавление сайта в Google Search Console

Внутри этих панелей происходит добавление файлов карт сайта, отслеживание основных показателей, а также там можно увидеть многочисленные рекомендации по улучшению ресурса в целом.

При добавлении, будьте готовый к тому, что придется подтвердить права владельца ресурса. Делается это разными способами, например, с помощью специального файла, который необходимо будет разместить в корне сайта.

9. Переобход страниц

Чтобы сообщить Яндексу о новых страницах, следует в Вебмастере зайти в «Индексирование-Переобход страниц», и добавить список URL-адресов.


Добавление списка URL для переобхода

О статусе переобхода отправленных страниц можно узнать на этой же странице Яндекс Вебмастера.

10. Google Indexing API

Чтобы ускорить индексацию новых страниц в Google, имеется специальная технология – Google Indexing API. В официальной справке сказано, что она ориентирована лишь на сайты с видеоконтентом и вакансиями. Но по факту, поддерживаются ресурсы с другими типами контента.

После подключения Indexing API, в Google будут автоматически отправляться запросы с информацией о новых, обновленных или удаленных страницах.

11. Скорость загрузки страниц

Важнейший параметр, который влияет на качество индексации и ранжирования в целом. Для проверки скорости загрузки отдельно взятой страницы можно использовать сервис PageSpeed Insights, там же будут даны подробные рекомендации по оптимизации ресурсов (медиа, кода и т.д.).

Также эта информация доступна в Яндекс Метрике, в отчете «Время загрузки страниц». 


Отчет о времени загрузки страниц

12. Обратные ссылки с тематических ресурсов

Ссылочная масса – один из основных инструментов SEO продвижения. Но влияет она не только на ранжирование сайта, но и на скорость его индексации. К примеру, разместив ссылку на тематическом ресурсе (сайт схожей тематики), ведущую на новую страницу вашего сайта, вы поможете крайлеру быстрее о ней узнать.

13. Ссылки с социальных сетей

Получить ссылку на страницу сайта можно путем ведения своей группы в одной из ведущих социальных сетей (ВК, FB, Instagram, Твиттер). Особенное влияние это имеет на пауков Google, при такой публикации, новая страница может «залетать» в индекс буквально за считанные часы. Особенно это касается ссылок из Твиттера. Для Яндекса к Твиттеру стоит добавить «ВКонтакте». Правило простое – чем больше активности в соц. сетях, тем чаще вас посещают краулеры.

Если нет возможности полноценно вести соц. сети, то как вариант, стоит попробовать кросс-постинг. То есть после публикации материала на сайте, его вступительная часть копируется в пост социальной сети и делается ссылка на страницу. В таком случае первоисточником будет выступать сайт, но краулер гораздо быстрее доберется до опубликованной страницы.

14. Размещение сайта в различных рейтингах

Также увеличивает ссылочную массу ресурса и ускоряет его индексацию. В качестве таких рейтингов можно выделить:

  • Рейтинг Mail.ru.
  • Рамблер Топ 100.
  • LiveInternet.


Добавление сайта в рейтинг Mail.ru


Размещение сайта в рейтинге Рамблер Топ 100


Рейтинг LiveInternet

15. Ссылки в комментариях

Большинство блогов работают на системе WordPress, у которой имеется возможность комментирования с прикреплением ссылки на свой сайт. Первое, что нужно сделать – найти тематические блоги, в которых автор разбирает смежную тематику. После идем в комментарии, пишем осмысленный текст, но вместо ссылки на сайт, ставим ее на страницу.

Главное правило – блог должен быть схожей тематики, иначе такая ссылка может засчитаться за неестественную (поставленную для манипуляций факторами ранжирования). Если добавить ссылку в тело комментария, она, скорее всего, не пройдет модерацию.

16. Ссылки с форумов

На форумах можно (если допускается администрацией) вести диалоги, ссылаясь на свой ресурс. Кроме этого, в настройках профиля часто встречается поле «Сайт», которое рекомендуется заполнить. Однако этот метод довольно-таки сложен в исполнении, т.к. высокопосещаемые форумы активно модерируются, посторонние ссылки не допускаются.

Постинг на форумах с обратными ссылками имеет свои нюансы, и если нет опыта, то лучше доверить это специалистам. Услуга называется «Крауд-маркетинг».

17. Пингование

С помощью пингования, поисковые системы оповещаются при появлении нового контента. В WordPress эта функция реализована уже «из коробки», достаточно указать в админке ссылки на специальные сервисы.


Функция пингования в WordPress

Вот сервисы, которые используются для пингования:

  • Pingomatic;
  • Pingler;
  • Pingoat.

Помните, при частом пинговании, поисковики могут принять это за спам.

18. Ловец ботов

Схема актуальна для многостраничных проектов, достаточно сложна в исполнении. Ловец ботов – программный алгоритм, которые следит за процессом индексации краулером, указывая ему ссылки на нужные (непроиндексированные ранее) страницы. Работает он по принципу отслеживания посещенных роботом страниц в логах сервера. В рамках данной статьи не будем углубляться в эту тему, но при продвижении крупных сайтов стоит иметь ее в виду, обратившись при этом к компетентным командам (SEO, программисты).

Роскомнадзор попросил «Яндекс» объяснить инцидент с Google Docs

Роскомнадзор направил официальный запрос в «Яндекс» по поводу инцидента с индексацией документов Google Docs, рассказал «Ведомостям» представитель ведомства. Деталей он не раскрыл.

Представитель «Яндекса» отказался от комментариев.

В ночь на четверг, 5 июля, поисковик «Яндекс» начал индексировать в поиске документы Google Docs, обратили внимание несколько Telegram-каналов и убедились корреспонденты «Ведомостей». Действительно, если указать «Яндексу» область поиска docs.google.com, а затем заполнить строку поиска, то «Яндекс» выдавал искомые документы – например, в текстовом формате или формате электронной таблицы. Среди найденного были документы с информацией, похожей на персональные данные (включая имена, фамилии, номера телефонов и электронной почты), убедился корреспондент «Ведомостей». «Яндекс» выдавал результаты и по запросу «пароли».

Но функция поиска по документам Google Docs все же осталась – уже с помощью самого Google. Указав в строке поиска с помощью специальной команды все те же документы Google Docs, можно было найти искомое — например, Google снова выдавал результаты по запросу «пароли».

В четверг Google в своем блоге объяснил, что поисковые системы могут индексировать только те документы, которые намеренно были сделаны их владельцами публичными, или же если кто-то публикует ссылку на документ, владелец которого сделал его доступным для поиска и просмотра всем в интернете. Компания напомнила, что пользователь всегда может изменить настройки доступа к файлам.

«Яндекс» индексирует лишь открытую часть интернета – те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля, пояснил «Ведомостям» представитель компании Илья Грабовский. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, «Яндекс» не индексирует, даже если они находятся в открытой части интернета. По словам Грабовского, в среду вечером пользователи пожаловались в службу поддержки на доступность файлов doc.google.com и сейчас служба безопасности «Яндекса» связывается с коллегами из Google, «чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация». Какое количество поисковых запросов по Google Docs выполнили пользователи, Грабовский не раскрыл. Он также не прокомментировал то, отключал ли «Яндекс» индексирование Google Docs.

Индексация страниц и разделов сайта поисковыми роботами Яндекс

Количество ресурсов, проиндексированных поисковыми системами, постоянно растет. Чтобы ресурс мог попасть в базу поисковой системы, поисковику, как минимум, необходимо сообщить о существовании вашего ресурса. Узнать о нем поисковик может двумя способам:

  • если вы зарегистрируетесь в поисковой системе;
  • либо перейдя на ваши страницы по ссылке с ресурсов, уже проиндексированных системой.

После этого поисковый робот будет время от времени возвращаться на ваши страницы, обновляя информацию о них. Постоянная индексация ресурса – один из важнейших элементов в работе поисковых систем. От того, каким образом и в каких поисковых системах проиндексирован ваш сайт, будет зависеть конечный результат продвижения в той или иной поисковой системе.

Успешная индексация сайта роботами поисковых систем – это то, чего вы должны обязательно добиться на начальном этапе продвижения. О том, какими способами добиться корректной индексации сайта, какие сложности могут возникнуть при подготовительной работе, а также о том, как устроены поисковые системы, роботы которых будут обрабатывать ваши страницы, пойдет речь в данном мастер-классе.

Процесс индексации мы будем рассматривать на примере поисковой системы Яндекс. Это вполне логично, поскольку пользователей, владеющих русским языком, используют именно эту поисковую системы для поиска необходимой информации.

Говоря об индексации, прежде всего, следует рассказать о том, кто ее осуществляет непосредственно, то есть о роботах поисковых систем. На вопрос: “а что такое робот поисковой системы и что он делает?”. Яндекс отвечает следующим образом: «Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса».

Обладая знаниями о них, вы с легкостью сможете подготовить ваш сайт для успешной индексации. Индексация сайта происходит следующим образом: роботы-индексаторы посещают страницы и вносят их содержимое в базу документов, доступных для поиска.

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

  1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех SEO-специалистов важно отслеживать появление на своих сайтах в первую очередь этого робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.
  2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске Яндекс. Картинки (http://images.yandex.ru). Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на лотосы на странице (http://en.npftravel.ru/news/issue_117.html). Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg.
  3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс, скорее всего, покажет только один сайт, в этом собственно и заключается процесс зазеркаливания. То есть сайт-зеркало представляет собой ничто иное, как полную копию сайта.
  4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL».
  5. Yandex/1.03.000 (compatible; Win16; M) – робот, посещающий страницу при ее открытии по ссылке «Найденные слова», ниже сниппета.
  6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.
  7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Процесс индексации документа роботами поисковых систем, как правило, начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница https://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. В Рамблере, например, требуется указывать еще название сайта, дать краткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:

«Адрес http://example.com успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска».

Если сайт уже посещался роботом-индексатором, то появится сообщение:

«Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц)».

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является «русскоязычность» ресурса. Поэтому, как пример, может возникнуть такая ситуация:

«Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст».

Если же все хорошо, то в логах сайта можно будет обнаружить строку:

213.180.206.223 — [18/Jul/2006:10:22:08 +0400] «GET /robots.txt HTTP/1.1» 404 296 «-» «Yandex/1.03.003 (compatible; Win16; D)»
213.180.206.223 — [18/Jul/2006:10:22:08 +0400] «GET / HTTP/1.1» 200 2674 «-» «Yandex/1.03.003 (compatible; Win16; D)»

Видно, что сначала робот обратился к файлу robots.txt (его в данном случае просто не существует) чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице https://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

То что Ваш сайт проиндексировался – это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы вы хотели видеть страницы вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру.

Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-маагазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.

Файл robots.txt является самым популярным инструмент, посредством которого вы сможете эффективно управлять индексацией вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.

Файл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.
К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.

Основные требования:

  • все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр: robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно;
  • файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;
  • файл robots.txt должен быть размещен в корневом каталоге сайта.

Файл robots.txt обязательно включает в себя две директивы: «User-agent» и «Disallow». Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву «Host» для определения основного зеркала сайта.

Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.

Директива «User-agent»

Запись «User-agent» должна содержать название поискового робота. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:

Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Яндекс:

Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать эти названия:

  1. На сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру» (на Яндексе он тоже есть http://webmaster.yandex.ru/faq.xml), в котором часто указываются названия поисковых роботов.
  2. При просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.

Названия основных роботов популярных поисковых систем:

Google – «googlebot»;
Яндекса – «Yandex»;
Рамблера – «StackRambler»;
Yahoo! – «Yahoo! Slurp»;
MSN – «msnbot».

Директива «Disallow»

Директива «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.
Рассмотрим различные примеры записи «Disallow».

Пример1. Сайт полностью открыт для индексирования:

Пример 2. Для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»:

Disallow: /page.htm
Disallow: /dir/page2.htm

Пример 3. Для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории:

Disallow: /cgi-bin/
Disallow: /forum/

Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.

Пример 4. Для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д:

Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система Google поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов.

Пример 5. Запрет индексации файлов с расширением «htm»:

Директива «Host»

Директива «Host» необходима для определения основного зеркала сайта, то есть, если сайт имеет зеркало, то с помощью директивы «Host» можно выбрать url того сайта, под которым проиндексируется ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.

В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.

Пример 6. www.site.ru – основное зеркало:

Оформление комментариев в файле robots.txt

Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.

Пример 7. Комментарий находится на одной строке вместе с директивой:

Disallow: /cgi-bin/ #комментарий

Желательно размещать комментарий на отдельной строке.

С помощью мета-тегов тоже можно управлять индексацией страниц сайта. Мета-теги должны находиться в заголовке HTML-документа (между тегами и ).

Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы вашего сайта:

  1. управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он не индексировал все страницы.
  2. необходим для поисковых систем, чтобы определить релевантна ли страница данному запросу.
  3. повышает вероятность нахождения страницы поисковиком по выбранному запросу (ам).
  4. управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что ваш документ является динамичным и роботу следует индексировать его регулярно.

Есть теги, которые непосредственно к индексации не относятся, но выполняют также важную роль дл удобства работы пользователя с сайтом:

  1. контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.
  2. определение задержки в секундах, после которой браузер автоматически обновляет документ или происходит редирект.
  3. указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.

Есть еще один мета-тег revisit-after, по поводу использования, которого ходило раньше много слухов, что он может заставить роботы поисковых систем посещать сайт с определенной периодичностью, однако специалисты Яндекс официально опровергли это.

Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.
Для того, чтобы прописать их не нужно много времени, поэтому старайтесь ввести максимально полную мета-информацию о странице.

Работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров.

Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче поисковых систем. Далее будет рассмотрен список проблем, с которыми Вы можете столкнуться при индексации.

Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы. Тоже самое происходит и с динамическими страницами.
Описание. На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3.

Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати».

Схожая проблема возникает при использовании, по умолчанию, ссылок на директорию и на файл в директории, например /root/ и /root/index.htm. Для пользователей она решается использованием директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.

Один из видов динамических страниц – страницы с идентификаторами сессий. На сайтах, где принято использовать идентификаторы сессий, каждый посетитель при заходе на ресурс получает уникальный параметр &session_id=. Это парамет добавляется к адресу каждой посещаемой страницы сайта. Использование идентификатора сессии обеспечивает более удобный сбор статистики о поведении посетителей сайта. Механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в куки или добавляется как параметр в адрес страницы.

Однако, так как роботы поисковых систем не принимают куки, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.

Известно, что поисковые системы имеют алгоритмы «склейки» страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена. В некоторых случаях она может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.

Решение. Что касается динамических страниц, то нужно закрывать страницы «версия для печати» и другие дубликаты в файле robots.txt, либо с помощью атрибута мета-тега noindex. Другое решение — заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.

Что касается идентификаторов сессий, то решение данной проблемы простое — прописать с .htaccess следующие команды:

php_flag session.use_trans_sid Off
php_flag session.use_only_cookie On
php_flag session.auto_start On

Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.

Описание. Обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.

Решение. Выход из данной проблемы таков: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.
Описание. Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.
Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, хостеру сайта-плагиатора, предварительно предупредив, конечно, виновного в том, что он поступает незаконно.

Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:

  1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
  2. Текст расположен в скрипте, т.е между тегами
  3. Текст расположен в комментариях
  4. Очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
  5. Ресурс не содержит русский текст (опять же, это касательно Яндекса)

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать, как роботы поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основ индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

Поисковая система Яндекс: индексация страниц и разделов сайта поисковыми роботами

1. Введение
2. Роботы поисковой системы Яндекс
3. Процесс индексации документа
4. Управление индексацией
5. Проблемы при индексации страниц
6. Заключение
7. Полезные онлайн-ресурсы

1. Введение

Количество ресурсов, проиндексированных поисковыми системами, постоянно растет. Чтобы ресурс мог попасть в базу поисковой системы, поисковику, как минимум, необходимо сообщить о существовании вашего ресурса. Узнать о нем поисковик может двумя способам:
• если вы зарегистрируетесь в поисковой системе;
• либо перейдя на ваши страницы по ссылке с ресурсов, уже проиндексированных системой.

После этого поисковый робот будет время от времени возвращаться на ваши страницы, обновляя информацию о них. Постоянная индексация ресурса – один из важнейших элементов в работе поисковых систем. От того, каким образом и в каких поисковых системах проиндексирован ваш сайт, будет зависеть конечный результат продвижения в той или иной поисковой системе.

Успешная индексация сайта роботами поисковых систем – это то, чего вы должны обязательно добиться на начальном этапе продвижения. О том, какими способами добиться корректной индексации сайта, какие сложности могут возникнуть при подготовительной работе, а также о том, как устроены поисковые системы, роботы которых будут обрабатывать ваши страницы, пойдет речь в данном мастер-классе.

  Процесс индексации мы будем рассматривать на примере поисковой системы Яндекс. Это вполне логично, поскольку пользователей, владеющих русским языком, используют именно эту поисковую системы для поиска необходимой информации, поэтому их и интересует вопрос о том, как проверить индексацию сайта в Яндексе.

2. Роботы поисковой системы Яндекс

Говоря об индексации, прежде всего, следует рассказать о том, кто ее осуществляет непосредственно, то есть о роботах поисковых систем. На вопрос: “а что такое робот поисковой системы и что он делает?”. Яндекс отвечает следующим образом: «Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса».

Обладая знаниями о них, вы с легкостью сможете подготовить ваш сайт для успешной индексации. Индексация сайта происходит следующим образом: роботы-индексаторы посещают страницы и вносят их содержимое в базу документов, доступных для поиска.

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех SEO -специалистов важно отслеживать появление на своих сайтах в первую очередь этого робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.

2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске Яндекс. Картинки (http://images.yandex.ru). Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на лотосы на странице (http://en.npftravel.ru/news/issue_117.html). Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg.

3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс, скорее всего, покажет только один сайт, в этом собственно и заключается процесс зазеркаливания. То есть сайт-зеркало представляет собой ничто иное, как полную копию сайта.

4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL».

5. Yandex/1.03.000 (compatible; Win16; M) – робот, посещающий страницу при ее открытии по ссылке «Найденные слова», ниже сниппета.

6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.

7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

3. Процесс индексации документа

Процесс индексации сайта в Google и других поисковых системах, как правило, начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. В Рамблере, например, требуется указывать еще название сайта, дать краткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:
«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска».

Если сайт уже посещался роботом-индексатором, то появится сообщение:
«Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц)»
.

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является «русскоязычность» ресурса. Поэтому, как пример, может возникнуть такая ситуация:
«Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст».

Если же все хорошо, то в логах сайта можно будет обнаружить строку:
213.180.206.223 — [18/Jul/2006:10:22:08 0400] «GET /robots.txt HTTP/1.1» 404 296 «-» «Yandex/1.03.003 (compatible; Win16; D)»
213.180.206.223 — [18/Jul/2006:10:22:08 0400] «GET / HTTP/1.1» 200 2674 «-» «Yandex/1.03.003 (compatible; Win16; D)»

Видно, что сначала робот обратился к файлу robots.txt (его в данном случае просто не существует) чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

4. Управление индексацией

То что Ваш сайт проиндексировался – это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы вы хотели видеть страницы вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру. Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-маагазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.

1. Управление индексацией при помощи файла robots.txt
Файл robots.txt является самым популярным инструмент, посредством которого вы сможете эффективно управлять индексацией вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.

2.Основная информация по файлу robots.txt
Файл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.
К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.
Основные требования:
• все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр: robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно;
• файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;
• файл robots.txt должен быть размещен в корневом каталоге сайта.

2.1. Содержимое файла robots.txt
Файл robots.txt обязательно включает в себя две директивы: «User-agent» и «Disallow». Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву «Host» для определения основного зеркала сайта.
Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.
Директива «User-agent»
Запись «User-agent» должна содержать название поискового робота. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:
User-agent: *
Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Яндекс:
User-agent: Yandex
Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать эти названия:
1. На сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру» (на Яндексе он тоже есть http://webmaster.yandex.ru/faq.xml), в котором часто указываются названия поисковых роботов.
2. При просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.
Названия основных роботов популярных поисковых систем:
Google – «googlebot»;
Яндекса – «Yandex»;
Рамблера – «StackRambler»;
Yahoo! – «Yahoo! Slurp»;
MSN – «msnbot».
Директива «Disallow»
  Директива «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.  С её помощью можно закрыть сайт от индексации.
Рассмотрим различные примеры записи «Disallow».
Пример1.Сайт полностью открыт для индексирования:
Disallow:
Пример 2. Для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»:
Disallow: /page.htm
Disallow: /dir/page2.htm
Пример 3. Для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории:
Disallow: /cgi-bin/
Disallow: /forum/
Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.
Пример 4. Для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д:
Disallow: /dir
Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система Google поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов.
Пример 5. Запрет индексации файлов с расширением «htm»:
Disallow: *.htm$
Директива «Host»
Директива «Host» необходима для определения основного зеркала сайта, то есть, если сайт имеет зеркало, то с помощью директивы «Host» можно выбрать url того сайта, под которым проиндексируется ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.
В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.
Пример 6. www.site.ru – основное зеркало:
Host: www.site.ru
Оформление комментариев в файле robots.txt
Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.
Пример 7. Комментарий находится на одной строке вместе с директивой:
Disallow: /cgi-bin/ #комментарий
Желательно размещать комментарий на отдельной строке.

2.2 Управление индексацией с помощью мета-тегов
С помощью мета-тегов тоже можно управлять индексацией страниц сайта. Мета-теги должны находиться в заголовке HTML-документа (между тегами

и ).
< meta name=»имя» content=»содержимое»>
Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы вашего сайта:
1. < meta name=»«robots» CONTENT=»all»> или < meta name=»Robots» content=»NOINDEX,FOLLOW»> – управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он не индексировал все страницы.
2. < meta name=»«description» CONTENT=»Описание страницы или сайта»> – необходим для поисковых систем, чтобы определить релевантна ли страница данному запросу.
3. < meta name=»«keywords» CONTENT=»ключевые, слова, о, вашей, странице, через, запятую»> – повышает вероятность нахождения страницы поисковиком по выбранному запросу (ам).
4. < meta name=»«document-state»CONTENT=»dynamic»> – управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что ваш документ является динамичным и роботу следует индексировать его регулярно.
Есть теги, которые непосредственно к индексации не относятся, но выполняют также важную роль дл удобства работы пользователя с сайтом:
1. < meta http-equiv=»«pragma» CONTENT=»no-cache»> – контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.
2. < meta http-equiv=»«refresh» CONTENT=»7, URL=http:www.server.compage.html»> – определение задержки в секундах, после которой браузер автоматически обновляет документ или происходит редирект.
3. «expires» CONTENT=»Wed, 01 Aug 2006 08:21:57 GMT»> – указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.
Есть еще один мета-тег revisit-after, по поводу использования, которого ходило раньше много слухов, что он может заставить роботы поисковых систем посещать сайт с определенной периодичностью, однако специалисты Яндекс официально опровергли это.
Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.
Для того, чтобы прописать их не нужно много времени, поэтому старайтесь ввести максимально полную мета-информацию о странице.

5. Проблемы при индексации страниц

Работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче поисковых систем. Далее будет рассмотрен список проблем, с которыми Вы можете столкнуться при индексации в Яндексе.

3.1 Динамические страницы, идентификаторы сессий.
Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы. Тоже самое происходит и с динамическими страницами.
Описание. На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати».
Схожая проблема возникает при использовании, по умолчанию, ссылок на директорию и на файл в директории, например /root/ и /root/index.htm. Для пользователей она решается использованием директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.
Один из видов динамических страниц – страницы с идентификаторами сессий. На сайтах, где принято использовать идентификаторы сессий, каждый посетитель при заходе на ресурс получает уникальный параметр &session_id=. Это парамет добавляется к адресу каждой посещаемой страницы сайта. Использование идентификатора сессии обеспечивает более удобный сбор статистики о поведении посетителей сайта. Механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в куки или добавляется как параметр в адрес страницы.
Однако, так как роботы поисковых систем не принимают куки, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.
Известно, что поисковые системы имеют алгоритмы «склейки» страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена. В некоторых случаях она может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.
Решение.
Что касается динамических страниц, то нужно закрывать страницы «версия для печати» и другие дубликаты в файле robots.txt, либо с помощью атрибута мета-тега noindex. Другое решение — заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.
Что касается идентификаторов сессий, то решение данной проблемы простое — прописать с .htaccess следующие команды:
php_flag session.use_trans_sid Off
php_flag session.use_only_cookie On
php_flag session.auto_start On

3.2 Неверная обработка 404 статуса
Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.
Описание. Обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.
Решение. Выход из данной проблемы таков: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

3.3 Плагиат
Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.
Описание. Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.
Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, хостеру сайта-плагиатора, предварительно предупредив, конечно, виновного в том, что он поступает незаконно.

3.4 Другие проблемы
Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:
1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
2. Текст расположен в скрипте, т.е между тегами
3. Текст расположен в комментариях
4. Очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
5. Ресурс не содержит русский текст (опять же, это касательно Яндекса)

6. Заключение

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать, как роботы поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основ индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

7. Полезные онлайн-ресурсы

1. Илья Сегалович «Как работают поисковые системы»

2. Лицензия на использование поисковой системы «Яндекс»

3. Часто задаваемые вопросы от веб-мастеров Яндексу

4. Кочев К. «Управление индексацией сайта (файл Robots.txt)»

5 . Титов А.П. Индексация поисковыми системами.

6 . Секреты индексации динамических страниц в поисковых системах автор неизвестен (автор администратор каталог товаров web-магазинов webshops.ru.)

7 . robotstxt.org.ru – русскоязычный сайт, полностью посвященный файлу robots.txt и написанию корректно себя ведущих веб-роботов.

Индексация страниц сайта в Яндексе и Google — Примеры

Пока поисковая система не проиндексирует страницу сайта [что такое индексация], та не будет участвовать в её результатах выдачи. Узнать о сайте поисковик может двумя способами:

  1. от вебмастера. Для чего URL-адрес веб-документа [что такое URL] нужно добавить в аддурилку Яндекса или Google (от английского add url).
  2. перейдя на страницы сайта по ссылке с других проиндексированных веб-документов.

На данном блоге я столкнулась с такой ситуацией, что без проблем Яндекс проиндексировал только Главную страницу, а вот внутренние не участвовали в поиске. У Google похожего невнимания не наблюдалось. Там практически молниеносно можно было заметить свою статью в выдаче.

Почему не индексируется сайт в Яндексе

  1. Google заносит в свою базу данных все страницы сайта: качественные и некачественные без разбора. Но участвуют в ранжировании [что такое ранжирование] только полезные веб-документы [не путать оригинальное содержание с уникальным]. Яндекс же сразу не включает веб-хлам. Можно заставить его проиндексировать любую страницу, но со временем поисковик удалит мусор. У обоих систем есть дополнительный индекс. У обоих систем низкокачественные страницы влияют на рейтинг сайта в целом. По последнему пункту есть как официальное заявление [см. блог Google], так и простая логика. Любимые сайты конкретного человека будут на более высоких позициях в его выдаче. Зато этот же человек с трудом найдёт сайт, который не смог его заинтересовать в прошлый раз. Поэтому вначале нужно закрыть от индексации дубликаты веб-документов [как это сделать], проверить есть ли страницы с отсутствующем содержанием и не пускать в выдачу никудышный контент.
  2. «Проверить URL» в Вебмастере.Яндекса напомнит, что документ закрыт для индексации или что сервер выдаёт 301 редирект или 404 ошибку.
  3. Если был приобретён поддержанный домен, на который наложены санкции, то нужно написать в службу поддержки что-то типа
    Здравствуйте.
    
    01.01.2000 года был приобретён домен сайт.ru.
    20.01.2000 года сайт был добавлен в Вебмастер и аддурилку. По прошествии трёх недель он не был проиндексирован.
    
    Подскажите, пожалуйста, может ли домен быть причиной плохой индексации?

Как ускорить индексацию в Яндексе

  1. Подтвердить права на управление сайтом в Яндекс.Вебмастере.
  2. Опубликовать ссылку на статью в twitter. С 2012 года у Яндекса с ним подписан договор.
  3. Установить на компьютер Яндекс.Браузер и «походить» по страницам сайта с его помощью.
  4. Добавить поиск для сайта от Yandex. Там в графе «Индексирование» можно указать свои URL-адреса вручную точно также как в аддурилке. [не актуально]
  5. Установить код Яндекс.Метрики без указания галочки «Запрет отправки страниц на индексацию».
  6. Создать файл Sitemap. Тогда по приходу на сайт робот в первую очередь будет проверять его. Этот файл существует только для него и не виден аудитории. Состоит он из списка URL-адресов страниц. Только что созданные или с обновлённым содержимым находятся сверху. Адрес Sitemap прописывается в robots.txt или в соответствующую форму в Вебмастере-«Настройка индексирования»-«Файлы Sitemap».

Дополнительные действия, когда Яндекс проиндексировал только 1 страницу

  1. Насколько часто обновляется страница, настолько часто поисковый робот будет её переиндексировать. В основном содержание периодически меняется на странице «карта сайта» и Главная. Чем чаще публиковать новые статьи, тем чаще будут обновляться вышеназванные страницы и по ссылкам внутри них индексироваться новый материал.
  2. Если на всех страницах сделать сквозной блок с последними написанными публикациями, то поисковый робот может перейти на новую запись с любой посещённой им страницы сайта. А это будет быстрее. Ссылки в сквозном блоке не должны быть реализованы скриптом, по ним не нужно запрещать переход с помощью rel=»nofollow».
  3. Сайты, имеющие RSS ленту, могут зарегистрироваться в каталоге Яндекс.блоги, а уже оттуда данные будут переданы основному роботу.
  4. Оставить ссылки на свои статьи на часто обновляемых ресурсах: «Живой Журнал», ВКонтакте», «Facebook» и др.

Обновление базы данных — апдейт (ап) выдачи — происходит в среднем раз в неделю. Если все вышеуказанные действия не помогли, чего у меня ни разу не было, то следует написать в службу поддержки письмо, где рассказать что было сделано, немного о сайте, о том, что он регулярно наполняется, что людям он интересен, дать пару ссылок на самые лучшие статьи в качестве примера. Если ресурс имеет низкую посещаемость по причине узкотематичности, нужно проговорить это. Например, сказать, что проект не планирует большую посещаемость, так как создан для общества лепидоптерологов, которые изучают бабочек семейства чешуекрылых. Если сайт коммерческий, то сообщите, что за ним стоит реальная организация.

Что нужно сделать пока веб-страница не проиндексирована Яндексом

  1. Чтобы отечественный поисковик считал сайт первоисточником, ещё до публикации статьи нужно обязательно её содержание добавить в форму «Оригинальных текстов». Иначе плагиаторы могут скопировать запись к себе на ресурс и именно они, если первыми попадут в базу данных, будут признаны авторами.

Индексация Google

Вот и всё, что нужно сделать для быстрой индексации Яндексом. Для Google подойдут те же рекомендации, только сервисы будут другими:

  1. Google Инструменты для веб-мастеров — «Сканирование» — «Посмотреть как Googlebot» — кнопка «Сканировать» — кнопка «Добавить в индекс»
  2. Google+ (вместо twitter)
  3. Google Chrome
  4. Поиск внутри сайта от Гугла
  5. Google Analytics (вместо Яндекс.Метрики)

Полезные ссылки

  1. Основные принципы индексирования

Что такое индексация в поисковых системах? | Синапс

Что такое индексация сайта?

Допустим, ваш сайт — это огромная книга, а поисковик — оглавление, позволяющая пользователю быстро найти нужную страницу с интересующей информацией. Для этого нужно проверить каждую страницу, посмотреть, какая там содержится информация. Только после таких работ можно расположить страницы в нужном порядке.

Это и есть индексация — добавление информации о сайте в базы данных поисковых систем.

Поисковые роботы просматривают весь контент сайта, и, если у вас все хорошо, информация фиксируется в поисковой базе. Там она ранжируется относительно других веб-ресурсов и попадает на определенное место в поисковой выдаче. Эта позиция зависит от множества факторов:

  • качества информации;
  • структуры сайта;
  • технической и внешней SEO-оптимизации;
  • прочих условий.

Поисковые системы нацелены на то, чтобы посетители сайтов получали нужные им результаты выдачи. Отсюда множество изменений, вводимых поисковиками за последние несколько лет. Если раньше разработчики делали все, чтобы роботы были довольны, и легко выводили сайт в ТОП, то сейчас качественный и полезный для пользователя контент стоит во главе угла.

Это значит, что для хорошей индексации в поисковиках недостаточно классической SEO-оптимизации. Системы лучше ранжируют сайты с хорошими поведенческими факторами, а для этого вам нужно разрабатывать свой веб-ресурс, прежде всего, для людей.

Переоптимизация контента может повлечь за собой определенные санкции: сайт не только упадет в выдаче, но и получит запрет индексации от Яндекса и Google. В такой ситуации материалы веб-ресурса удаляются из баз поисковиков. Вернуть сайт в нормальное состояние вам поможет обращение в техподдержку с просьбой о повторной проверке сайта.

Особенности индексации сайта в Яндексе и Google

Итак, вы создали сайт, но как же поисковые системы узнают о нем? Сделать это можно одним из способов:

  1. Поместите ссылку на сайт на сторонних ресурсах, что позволит добиться максимально быстрой индексации сайта. Поисковик сразу отправит роботов, чтобы проанализировать содержимое
  2. Используйте сервисы для веб-разработчиков. Так вы будете контролировать состояние сайта: видеть реальную статистику посещений, количество кликов, загруженные/удаленные страницы и другую информацию.

Добавляя сайт такими способами, вы говорите поисковым системам о существовании своего проекта. И он быстро попадет в выдачу при отсутствии каких-либо запретов (например, через мета-теги или файл Robots.txt). Это может произойти через 1 день или неделю — у всех этот показатель разный.

Учтите: добавление в базу данных не дает гарантии, что все материалы сразу же будут открыты по конкретным запросам. Поисковым роботам может потребоваться больше времени на изучения содержимого, чтобы сделать ваши материалы доступными к поиску по запросам.

Как проверить индексацию сайта?

Убедиться в том, что каждая страница сайта проиндексирована и воспринята нужным образом, вы можете через Яндекс.Вебмастер. Там вы получите точные данные, когда робот заходил на конкретную страницу и каким статусом ее обозначил.

Проверить индексацию сайта можно и через поисковую строку. В этом вам помогут специальные операторы: они находятся в документации Яндекса и Google. Для массовой проверки используйте Raskruty, SEOGadget и другие.

Как ускорить индексацию страниц?

  • Используйте специальный сервис для разработчиков, добавляя сайт в поисковую систему. После этого вы будете получать полезные советы, которые помогут вам добиться ускорения индексации страниц.
  • Регулярно добавляйте интересный пользователям контент. Так вы можете надеяться, что с вашим сайтом будут «дружить» быстрые боты, индексирующие статьи в течение суток.
  • Сжимайте картинки, оптимизируйте HTML, CSS – и вы сможете ускорить загрузку вашего сайта.
  • Создайте грамотную структуру сайта с удобной навигацией для пользователей. Поисковики это оценят.
  • Используйте межстраничную перелинковку. При индексации определенной страницы со ссылками робот просмотрит и те материалы, на которые ссылаются источник.
  • Подкорректируйте файл Robots.txt. Для этого закройте неиспользуемые технические страницы, оставив исключительно содержимое. Таким образом, в ранжирование не попадет мусор, а поисковые системы будут чаще заходить на ваш сайт.
  • Добавьте XML-карту сайта в Яндекс.Вебмастер и Search Console. Она поможет поисковикам лучше и быстрее просматривать материалы.
  • Создайте группы/страницы в соцсетях и размещайте там ссылки на статьи с определенной периодичностью. Такой элемент крауд-маркетинга поисковики воспринимают на ура.
  • Проверяйте сайт на технические ошибки и вовремя их исправляйте.

Итак, чтобы ваш сайт хорошо индексировался, учитывайте эти несложные требования. Все это гарантирует, что вы будете на хорошем счету у поисковых роботов. А это напрямую повлияет на расположение веб-ресурса в выдаче и, соответственно, на ваш доход.

Как проверить индексацию сайта в Яндексе и ускорить ее

Привет, Друзья! Сегодня Вы узнаете как проверить индексацию сайта в Яндексе и зачем вообще нужно знать проиндексировали роботы ваш ресурс или нет. Также подробно разберём вопрос о том, как ускорить индексацию сайта. Итак, поехали!

Как проверить индексацию сайта в Яндексе через Yandex вебмастер

Для того чтобы узнать проиндексирован ваш сайт яндекс-ботами или нет нужно зарегистрироваться в Вебмастере Yandex. Весь процесс регистрации описывать не вижу смысла, он достаточно простой. Единственное, что вас в этом процессе может озадачить, это подтверждение прав на регистрируемый сайт. Нужно скопировать файл предложенный Яндексом и вставить его в корневую папку сайта и нажать кнопку подтвердить. После этого вам станут доступны все функции системы и можно перейти во вкладку – индексирование:

Если прокрутить страницу ниже будут видны страницы которые проиндексировал робот и дата индексации. Все мои статьи Яндекс-боты “кушают” просто мгновенно, прямо в день выхода. И это очень круто, так как моя проиндексированная статья сразу попадает в ТОП 10 выдачи Яши и начинает работать, привлекая трафик на сайт. Вот даты индексации моих последних опубликованных статей:

Многие начинающие хозяева сайтов недооценивают важность индексации. Я встречал интернет магазины публикующие карточки товаров по 1000 штук в день, которые попадали в индекс сайта только спустя месяцы. Представьте себе, что 1000 товаров не были видны в поиске Яндекс столько времени и значит они не работали. Товары соответственно из-за этого не покупали. Как следствие компания недополучила прибыль из-за того, что её SEO-оптимизаторы не удосужились ускорить индексацию страниц своего сайта.

Думаю с тем, как проверить индексацию сайта в Яндексе всё понятно. Давайте теперь разберёмся как индексацию сайта ускорить.

Как ускорить индексацию сайта

Для того чтобы опубликованные статьи на вашем сайте мгновенно индексировались, необходимо приручить Яндекс-бота как можно чаще посещать ваш сайт. В первую очередь необходимо установить на сайте файл Sitemap (карту сайта), благодаря которой роботы будут быстрее понимать, что и где на вашем сайте поменялось. Следующим важным моментом будет закрытие тех папок и документов на сайте, которые роботам смотреть не обязательно и тратить на их просмотр время. Такие действия выполняются с помощью файла Robots.txt. Грамотно составленный robots облегчит работу скролеров и уменьшит нагрузку на сервер.

Следующим этапом до публикации статьи на сайте необходимо добавить её в блог Вебмастера “оригинальные тексты“, чтобы исключить возможность воровства контента и обозначиться перед Яндексом, как первоисточник информации.

Затем переходим в раздел “переобход страниц” в Яндекс Вебмастере:

Вставляем URL добавленной на сайт страницы в графу и нажимаем кнопку отправить. Таким образом мы информируем роботов, что на нашем сайте появилась новая страница, которую необходимо проиндексировать. Тоже самое нужно сделать со всеми страницами на сайте, которые не попали в индекс.

Как установить расписание для индексирующего сайт робота:

Такая функция тоже есть в вебмастере в разделе скорость обхода:

С помощью ползунка вы можете задать скорость обода и индексации вашего WEB проекта вручную. Лично я этого не делал и оставил галочку в строке “доверять Яндексу”. То что Яндекс-бот приходит на мой сайт ежедневно это меня более чем устраивает.

Как я приручил робота Яндекс часто индексировать мой сайт

Поделюсь с вами ещё одной фишкой которая максимально ускоряет процесс индексации сайта. Для этого нужно публиковать свои тексты туда где Яндекс-ботов и Google-ботов очень много. Это социальные сети и новостные порталы. В них роботы скролеры просто живут и не выходят от туда. Как только у меня выходит на сайте статья, я сразу же её разпощиваю по социальным сетям, таким как Вконтакте, Одноклассники, Твитер, Фэйсбук, и так далее. Роботы видят новый контент, переходят на мой сайт и индексируют страницу. В дальнейшем они понимают частоту появления контента на сайте и приходят также часто, как появляются статьи. Как видите всё очень просто!

Процесс индексации – это первое с чего начинается SEO продвижение сайта. Но этого не достаточно, чтобы увидеть ваш интернет проект на первой странице Яндекса. Проиндексированная страница может занять к примеру 100-е место в выдаче и дальше хозяину сайта необходимо приложить все знания и усилия, чтобы загнать её в ТОП 10 выдачи. Как это сделать я подробно рассказываю на своих онлайн курсах по SEO обучению.

Обучение продвижению сайтов


Если вы хотите научиться выводить сайты в ТОП 10 поисковых систем Яндекс и Google, посетите мои онлайн-уроки по SEO-оптимизации (коротко о себе я рассказал в видео ниже). Все свои интернет-проекты я вывел на посещаемость более 1000 человек в сутки и могу научить этому Вас. В отличие от коллег я не продаю видео курсы, так как они не информативны, и просматривая их некому задавать вопросы. Я провожу обучение по скайпу индивидуально и во время урока отвечаю на все возникающие вопросы моих учеников. По времени SEO обучение длиться около 4 – 6 часов в зависимости от начальной подготовки ученика. Кому интересно обращайтесь!

На этом сегодня всё, всем удачи и до новых встреч!

Статистика сканирования — Вебмастер. Справка

Робот-индексатор Яндекса регулярно сканирует страницы сайта и загружает их в поисковую базу. Робот может не загрузить страницу, если она недоступна.

Яндекс.Вебмастер позволяет узнать, какие страницы вашего сайта сканирует робот. Вы можете просмотреть URL-адреса страниц, которые робот не смог загрузить из-за недоступности сервера хостинга или из-за ошибок в содержании страницы.

Информация о страницах доступна на странице в Яндекс.Веб-мастер. Информация обновляется ежедневно в течение шести часов после посещения страницы роботом.

По умолчанию сервис предоставляет данные по сайту в целом. Чтобы просмотреть информацию об определенном разделе, выберите его из списка в поле URL сайта. Доступные разделы отражают структуру сайта, известную Яндексу (кроме разделов, добавленных вручную).

Если в списке нет страниц, которые должны быть включены в результаты поиска, воспользуйтесь инструментом «Переиндексировать страницы», чтобы сообщить о них Яндексу.

Вы можете скачать информацию о страницах в формате XLS или CSV с помощью фильтров.

Примечание. Данные доступны с 20 февраля 2017 года.

  1. Динамика состояния страниц
  2. Изменения страниц в базе данных поиска
  3. Список страниц, просканированных роботом
  4. Фильтрация данных

Информация о странице представлена ​​следующим образом:

  • Новые и измененные — количество страниц, которые робот просканировал в первый раз, и страниц, которые изменили свой статус после того, как они были просканированы роботом.

  • Статистика сканирования — количество страниц, просканированных роботом, с кодом ответа сервера.

Изменения отображаются, если код ответа HTTP изменился, когда робот снова обратился к странице. Например, 200 OK превращается в 404 Not Found. Если изменилось только содержание страницы, в Яндекс.Вебмастере это не отобразится.

Чтобы просмотреть изменения, установите параметр «Последние изменения». Может отображаться до 50 000 изменений.

Яндекс.Вебмастер показывает следующую информацию о страницах:

  • Дата последнего посещения страницы роботом (дата сканирования).

  • Путь к странице из корневого каталога сайта.

  • Код ответа сервера, полученный при сканировании.

На основании этой информации вы можете узнать, как часто робот просматривает страницы сайта. Вы также можете увидеть, какие страницы были только что добавлены в базу данных, а какие были повторно просканированы.

Страницы, добавленные в базу поиска

Если страница просматривается в первый раз, в столбце «Была» отображается статус «Н / д», а в столбце «Текущий» отображается ответ сервера (например, 200 OK).

После успешной загрузки страницы в базу данных поиска ее можно отобразить в результатах поиска после обновления базы данных поиска. Информация о нем отображается на страницах поиска.

Страницы, переиндексированные роботом

Если робот просканировал страницу раньше, статус страницы может измениться при повторном сканировании: в столбце Was отображается ответ сервера, полученный во время предыдущего посещения, в столбце Current отображается ответ сервера получено во время последнего сканирования.

Предположим, что страница, включенная в поиск, стала недоступна для робота. В этом случае он исключается из поиска. Через некоторое время вы можете найти его в списке исключенных страниц на странице Страницы в поиске.

Страница, исключенная из поиска, может оставаться в базе данных поиска, чтобы робот мог проверить ее доступность. Обычно робот запрашивает страницу до тех пор, пока на нее есть ссылки, и это не запрещено в файле robots.txt.

Чтобы просмотреть список страниц, установите для параметра значение Все страницы.Список может содержать до 50 000 страниц.

Вы можете просмотреть список страниц сайта, просканированных роботом, и следующую информацию о них:

  • Дата последнего посещения страницы роботом (дата сканирования).

  • Путь к странице из корневого каталога сайта.

  • Код ответа сервера, полученный при последней загрузке страницы роботом.

Наконечник. Если в списке показаны страницы, которые уже удалены с сайта или не существуют, вероятно, робот находит ссылки на них при посещении других ресурсов.Чтобы запретить роботу доступ к ненужным страницам, запретите индексацию с помощью директивы Disallow в файле robots.txt.

Вы можете фильтровать информацию о страницах и изменениях в поисковой базе по всем параметрам (дате сканирования, URL страницы, коду ответа сервера) с помощью значка. Вот несколько примеров:

По ответу сервера

Вы можете создать список страниц, которые робот просканировал, но не смог загрузить из-за ответа сервера 404 Not Found.

Вы можете фильтровать только новые страницы, которые были недоступны для робота.Для этого установите переключатель в положение «Последние изменения».

Также вы можете получить полный список страниц, которые были недоступны для робота. Для этого установите переключатель в положение Все страницы.

По фрагменту URL

Вы можете создать список страниц с URL, содержащим определенный фрагмент. Для этого выберите из списка Содержит и введите фрагмент в поле.

По URL-адресу с использованием специальных символов

Вы можете использовать специальные символы для соответствия началу строки или подстроки и устанавливать более сложные условия с помощью регулярных выражений.Для этого выберите совпадения URL-адресов из списка и введите условие в поле. Вы можете добавить несколько условий, поместив каждое из них в новую строку.

Для условий доступны следующие правила:

Символы, используемые для фильтрации
Символ Описание Пример
* Любое количество символов Соответствует любому количеству символов

Показать данные для всех страниц, начинающихся с https: // example.com / тариф /, включая указанную страницу: / тариф / *

Использование символа *

Символ * может быть полезен при поиске URL-адресов, содержащих два или более определенных элемента.

Например, вы можете найти новости или объявления за определенный год: / news / * / 2017/.

@ Отфильтрованные результаты содержат указанную строку (но не обязательно строго соответствуют ей) Отображение информации для всех страниц с URL-адресами, содержащими указанную строку: @tariff
~ Условие — это регулярное выражение Отображение данных для страниц с URL-адресами, соответствующими регулярному выражению.Например, вы можете отфильтровать все страницы с адресом, содержащим фрагмент ~ таблица | диван | кровать , повторяющийся один или несколько раз.
! Отрицательное условие Исключить страницы с URL-адресами, начинающимися с https://example.com/tariff/: ! / Тарифа / *

Использование символов не чувствительно к регистру.

Символы @,!, ~ Можно использовать только в начале строки. Доступны следующие комбинации:

9012 страницы с URL-адресами, соответствующими регулярному выражению
Оператор Пример
! @ Исключить страницы с URL-адресами, содержащими тариф: ! @Tariff

Получение истории индексации сайта.Руководство разработчика

200 OK
403

INVALID_USER_ID

Идентификатор пользователя, выпустившего токен, отличается от указанного в запросе. В приведенных ниже примерах {user_id} показывает правильный uid владельца токена OAuth.

  {
  "": "INVALID_USER_ID",
  "": 1,
  "": "Недействительный идентификатор пользователя. Следует использовать {user_id}."
}  
  <Данные>
    <> INVALID_USER_ID 
    <> 1 
    <> Недействительный идентификатор пользователя.Следует использовать {user_id}. 
  
404 HOST_NOT_VERIFIED Права на управление сайтом не проверены.
  {
  "": "HOST_NOT_VERIFIED",
  "": "http: ya.ru: 80",
  "": "какая-то строка"
}  
  <Данные>
  <> HOST_NOT_VERIFIED 
  <> http: ya.ru: 80 
  <> некоторая строка 
  
HOST_NOT_INDEXED Сайт еще не проиндексирован.
  {
  "": "HOST_NOT_INDEXED", // errorCode.
  "": "http: ya.ru: 80", // id хоста. идентификатор хоста.
  "": "какая-то строка" // Сообщение об ошибке.
}  
  <Данные>
  <> HOST_NOT_INDEXED 
  <> http: ya.ru: 80 
  <> некоторая строка 
  
HOST_NOT_LOADED Данные сайта еще не загружены в Яндекс.Вебмастер.
  {
  "": "HOST_NOT_LOADED",
  "": "http: ya.ru: 80 ",
  "": "какая-то строка"
}  
  <Данные>
  <> HOST_NOT_LOADED 
  <> http: ya.ru: 80 
  <> некоторая строка 
  

Страницы в результатах поиска — Webmaster. Справка

Малоценная страница или страница с низким спросом LOW_DEMAND

Алгоритм решил не включать страницу в результаты поиска, поскольку спрос на страницу, вероятно, низкий.Например, это может произойти, если на странице нет содержимого, если страница является копией страниц, уже известных роботу, или если ее содержимое не полностью соответствует интересам пользователя.

Алгоритм автоматически проверяет страницы на регулярной основе, поэтому решение может измениться позже. Чтобы узнать больше, см. Малоценные или малопотребляемые страницы.

Дополнительные сведения см. На страницах с низкой стоимостью или низким спросом.
Исключено параметром очистки CLEAN_PARAMS Страница была исключена из поиска после того, как робот обработал директиву параметра очистки. Чтобы страница проиндексировалась, отредактируйте файл robots.txt.
Дубликат ДУПЛИКАТ Страница дублирует страницу сайта, которая уже находится в поиске.

Укажите предпочтительный URL-адрес для робота, используя перенаправление 301 или атрибут rel = «canonical».

Если содержимое страниц отличается, отправьте их на переиндексацию, чтобы ускорить обновление поисковой базы.

Ошибка подключения к серверу HOST_ERROR При попытке доступа к сайту робот не смог подключиться к серверу.

Проверьте ответ сервера, убедитесь, что робот Яндекс не заблокирован хостинг-провайдером.

Сайт автоматически индексируется, когда становится доступным для робота.

Ошибка HTTP HTTP_ERROR Произошла ошибка при доступе к странице.

Проверьте ответ сервера.

Если проблема не исчезнет, ​​обратитесь к администратору сайта или администратору сервера. Если страница в данный момент доступна, отправьте ее на переиндексацию.

Запрещено элементом noindex. META_NO_INDEX Страница была исключена из поиска, поскольку ей запрещено индексировать (с помощью метатега robots, содержащего директиву content = «noindex» или content = «none»). Чтобы страница отображалась в поиске, снимите бан и отправьте на переиндексацию.
Неканонический NOT_CANONICAL Страница индексируется каноническим URL, указанным в атрибуте rel = «canonical» в ее исходном коде.

Исправьте или удалите атрибут rel = «canonical», если он указан неправильно. Робот автоматически отслеживает изменения.

Для ускорения обновления информации о странице отправьте страницу на переиндексацию.

Вторичное зеркало NOT_MAIN_MIRROR Страница принадлежит вторичному зеркалу сайта, поэтому была исключена из поиска.
Неизвестный статус ДРУГОЕ У робота нет актуальных данных на странице.

Проверить ответ сервера или запрещающие элементы HTML.

Если робот не может получить доступ к странице, обратитесь к администратору вашего сайта или сервера. Если страница в данный момент доступна, отправьте ее на переиндексацию.

Не удалось загрузить страницу PARSER_ERROR При попытке доступа к странице робот не смог получить ее содержимое.

Проверить ответ сервера или запрещающие элементы HTML.

Если проблема не исчезнет, ​​обратитесь к администратору сайта или администратору сервера.Если страница в данный момент доступна, отправьте ее на переиндексацию.

В поиске REDIRECT_SEARCHABLE Страница перенаправляется на другую страницу, но включается в поиск.
Перенаправление REDIRECT_NOTSEARCHABLE Страница перенаправляет на другую страницу. Целевая страница проиндексирована. Проверить индексацию целевой страницы.
Запрещено в robots.txt (весь сайт) ROBOTS_HOST_ERROR В robots запрещено индексирование сайта.txt файл. Робот автоматически начнет сканирование страницы, когда сайт станет доступен для индексации. При необходимости внесите изменения в файл robots.txt.
Disallowed robots.txt (page) ROBOTS_TXT_ERROR Индексирование сайта запрещено в файле robots.txt. Робот автоматически начнет сканирование страницы, когда сайт станет доступен для индексации. При необходимости внесите изменения в файл robots.txt.
В поиске В ПОИСКЕ Страница включена в поиск и может отображаться в результатах поиска по запросам.

Скорость сканирования сайта — Вебмастер. Помощь

Роботы Яндекса постоянно индексируют сайты, сканируя их и загружая страницы в поисковую базу.

Скорость сканирования сайта — это количество запросов в секунду, которые робот отправляет на ваш сайт.

Примечание. Вы должны настроить скорость сканирования для основного домена сайта и каждого субдомена отдельно.

  1. Настройка по умолчанию
  2. Изменение скорости сканирования

Оптимальная скорость сканирования рассчитывается с использованием алгоритмов, чтобы робот мог загрузить максимальное количество страниц без перегрузки сервера.Поэтому опция Доверять Яндексу по умолчанию включена на странице в Яндекс.Вебмастере.

Вам может потребоваться снизить скорость сканирования, если вы заметили большое количество запросов роботов к серверу, на котором расположен ваш сайт. Это может увеличить время отклика сервера и, как следствие, снизить скорость загрузки страниц сайта. Вы можете проверить эти показатели в отчете Яндекс.Метрики.

Перед изменением скорости сканирования вашего сайта узнайте, какие страницы робот запрашивает чаще.

  • Проанализируйте журналы сервера. Свяжитесь с лицом, ответственным за сайт, или с хостинг-провайдером.

  • Просмотр списка URL-адресов на странице в Яндекс.Вебмастере (установите для параметра Все страницы). Проверить, есть ли в списке служебные страницы или повторяющиеся страницы, например, с параметрами GET.

Если вы обнаружите, что робот обращается к служебным страницам или дублированным страницам, запретите их индексирование в файле robots.txt с помощью директивы Disallow.Это поможет уменьшить количество ненужных запросов роботов.

Чтобы проверить правильность правил, используйте инструмент анализа Robots.txt.

Вы можете увеличить скорость сканирования сайта. Установленное вами значение считается рекомендуемой ставкой для робота. Фактическая скорость сканирования может отличаться от заданной вами с учетом информации о сайте, которую имеет Яндекс.

  1. В Яндекс.Вебмастере перейдите на страницу.

  2. Включите параметр «Установить вручную».

  3. Переместите ползунок в желаемое положение. По умолчанию установлена ​​оптимальная скорость сканирования, рассчитанная для вашего сайта.

  4. Сохраните изменения.



Индексирование страниц сайта: как быстро проверить в поисковиках в Go

Просмотры: 2181 Соломоно

Если вы продвигаете сайт самостоятельно, будет интересно узнать, какие страницы проиндексированы поисковыми системами Google и Яндекс и проиндексированы ли они вообще.

Важно! Часто индексирование путают с обычным сканированием. Имейте в виду, что поисковая система может сканировать страницу сразу, но через некоторое время добавить ее в вашу базу данных (индексировать).

Если вы зарегистрировали свой сайт в веб-мастере, вы должны перейти в Search Console и выбрать вкладку «Индекс Google». На вкладке «Статус индексирования» вы увидите график, на котором вы можете определить количество проиндексированных страниц.

Как проверить индексацию страниц в Яндексе

В Яндекс.Вебмастеру необходимо выбрать вкладку «Индексирование сайта», а затем «Страницы в поиске».
Первый признак того, что все в порядке, — это когда количество проиндексированных страниц растет и кривая ползет вверх. Снижение кривой указывает на проблемы на сайте.

Как проверить индексацию сайта в поисковых системах через адресную строку

Есть несколько так называемых операторов, с помощью которых вы можете увидеть количество проиндексированных страниц. В адресной строке введите: site: адрес вашего сайта, например site: https: // solomono.нетто
Поэкспериментируйте с настройками, чтобы увидеть результаты по нескольким параметрам, например, по времени, для определенного языка или региона.

Индексация страниц сайта с помощью сервисов

Проверить изменения индексации страниц в Яндексе и Гугле можно с помощью специальных сервисов. Одна из таких услуг — PR-CY. Этот сервис показывает не только изменения в индексации страниц, но и много другой полезной информации, как с точки зрения seo-оптимизации, так и по техническим настройкам сайта.

Индексирование сайта в поисковых системах с помощью плагинов

Индексирование страниц сайта также можно проверить с помощью плагинов и расширений браузера. Например, Mozilla Firefox имеет в своем арсенале такое расширение, как RDS Bar. Открыв свой сайт в браузере с установленным плагином, вы можете наглядно увидеть всю информацию по: индексации в Яндексе, индексации в Google, ТИЦ и других показателей.

Желаем набраться сил и терпения в продвижении своего интернет-магазина и все будет хорошо!


Яндекс.ru Проблемы индексирующего роботаMSI :: State of Security

Сканер yandex.ru — это приложение для индексирования, которое размещает «пауки» и помещает результаты в поисковую систему yandex.ru. Подобно Google, Bing и другим поисковым системам, система постоянно ищет новое содержание в сети и добавляет это содержание в базу данных поисковой системы. Обычно эти виды деятельности не вызывают особых проблем у тех, чьи сайты индексируются, и, по сути, с годами система этикета основана на правилах, установленных в роботах.txt на веб-сайте.

Файлы

Robots.txt содержат набор правил поведения поисковых систем. Они указывают, какие области сайта может индексировать поисковый робот, а какие разделы сайта следует избегать. Обычно это используется для защиты чрезмерно динамичных областей сайта, где поисковый робот может столкнуться с различными проблемами или входными данными, которые могут иметь проблемы с пропускной способностью или приложением для поискового робота, веб-хоста или обоих.

К сожалению, многие поисковые роботы и индексные роботы не соблюдают правила роботов.текст. И злоумышленники, индексирующие ваш сайт по разным причинам, тоже. Учитывая влияние, которое некоторые из этих инструментов индексирования могут оказать на пропускную способность, использование ЦП или подключение к базе данных, иногда ищут другие варианты их блокировки. В частности, много претензий к yandex.ru и его агрессивному парсингу, взаимодействию с приложениями и методам глубокой проверки сайта. Они явно были идентифицированы как поисковая система, которая, похоже, не уважает систему чести роботов.текст. Поиск в Google по запросу «yandex.ru игнорирует robots.txt» покажет вам множество жалоб.

В ходе мониторинга трафика HITME мы наблюдали множество глубоких сканирований yandex.ru с различных диапазонов IP-адресов. В большинстве случаев они либо вообще не запрашивали файл robots.txt, либо просто игнорировали его содержимое. Фактически, некоторые из наших веб-приложений HITME столкнулись с теми же проблемами высокой стоимости трафика, на которые жаловались другие части веб-сообщества.В некоторых случаях затраты на поддержку сканирования yandex.ru составляют около 30 +% от общего веб-трафика, наблюдаемого конечной точкой HITME. С нашей точки зрения, постоянно анализировать их трафик оповещений на основе наших показателей — это боль в кармане и для нашего внимания.

Появились способы более жесткой блокировки yandex.ru, чем robots.txt. О некоторых из них можно узнать, выполнив поиск по запросу «блокировка yandex.ru». Самый простой и эффективный способ — это использовать.htaccess правила. У нас также был более скромный успех с принудительным возвратом перенаправлений на запросы с известными параметрами URL, связанными с yandex.ru, наряду с некоторым уровнем успеха путем блокировки определенных IP-адресов, связанных с ними, с помощью правила игнорирования в HoneyPoint.

Если вы боретесь со сканированием yandex.ru и хотите получить дополнительную помощь, напишите нам комментарий или свяжитесь с нами через Twitter (@lbhuston, @microsolved). Вы также можете позвонить представителю по работе с клиентами, чтобы обсудить технические вопросы.Мы надеемся, что этот пост поможет некоторым людям, которые страдают от повышенного использования полосы пропускания или проблем со своими сайтами / приложениями из-за этой и других проблем индексирующего робота. До следующего раза, берегись!

Правообладатели попросили «Русский Гугл» Яндекс деиндексировать ссылки на пиратские сайты

Производители и распространители контента призвали генерального директора Яндекса Аркадия Воложа деиндексировать URL-адреса веб-сайтов с нелегальным содержанием, то есть просили его не искать такие сайты в Интернете.Они прислали ему коллективное письмо, подписанное представителями музыкальной индустрии, интернет-индустрии, ассоциации кинопродюсеров и телепродюсеров и союза медиа-коммуникаций.

Авторы письма заявили, что пиратство «наносит ущерб национальной экономике, социальной и культурной сфере и препятствует реализации творческого потенциала», а также «подрывает многочисленные предприятия, связанные с производством и распространением контента». Подчеркивается, что, по данным SimilarWeb, 80% интернет-трафика поступает на нелегальные веб-ресурсы из поисковых систем.По данным SimilarWeb, 10 крупнейших пиратских ресурсов получают 78% трафика благодаря Яндекс. Похоже, что Google больше не играет ключевую роль в поиске пиратства в Интернете в России, но он также получит подобное письмо.

Авторы письма «вынуждены констатировать, что те средства, которые можно было бы реинвестировать в промышленность, если бы они были получены от легального распределения, текут к нелегальным распространителям, использовавшим все возможности Яндекса». Согласно письму, Яндекс продолжает индексировать игроков с заблокированных и нелегальных веб-ресурсов.«Мы призываем Яндекс использовать все доступные средства для обнаружения нелегального контента и исключения его из индексации и из сервисов Яндекса», — говорится в письме.

Яндекс не дождался ответа. Это означает справедливый Интернет, где качественный юридический контент доступен пользователю, а правообладатели зарабатывают свои деньги благодаря Интернету.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *