Crawl delay сколько ставить – Сколько желательно ставить секунд для роботов Robots.txt? — Поисковая оптимизация

что это такое, и сколько времени ставить

Есть проблемы с ранжированием, проект не растет, хотите проверить работу своих специалистов по продвижению? Закажите профессиональный аудит в Семантике

Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подпишись на рассылку и получи книгу в подарок!

Crawl-delay — директива файла robots.txt, позволяющая задать задержку сканирования страниц для снижения входящей пиковой нагрузки на сервер в момент обхода сайта поисковым роботом.


Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA

Представьте, что в роли сервера сайта выступает директор фирмы, на проверку которой пришла проверяющая служба — поисковый робот. Работа в компании кипит, директор выполняет свои задачи, отвечает подчиненным, но проверяющие внезапно начинают задавать ему самые разные вопросы. Снижается производительность всей компании.

Сотрудники не могут работать, пока не получат ответ от директора. А он не может им ответить, потому что занят разговором с инспекторами. Чем больше на вашем сайте страниц, тем дольше этот “инспектор” будет проводить допрос, и тем меньше свободного времени будет у сервера на ответы настоящим живым клиентам.

Директива Crawl-delay указывает роботу делать перерывы между “вопросами” к серверу, чтобы в это время он мог отвечать клиентам, не задерживая выполнение внутренних процессов. Поисковый робот после каждого запроса начинает выжидать определенное количество секунд перед следующей страницей по списку.

Как правильно задать директиву Crawl-delay

Правильная конфигурация Crawl-delay даёт возможность существенно разгрузить сервера сайта на время прихода поискового бота, увеличить максимальное количество соединений с живыми клиентами и предотвратить падение сайта при большом наплыве пользователей одновременно с ботами.

Особенность использования директивы

Роботы Google не читают и не учитывают эту директиву в своей работе — для поиска в Гугл время задержки сканирования задается в панели вебмастера поисковой системы

Яндекс активно пользуется Crawl-delay time и всегда учитывает его при обработке сайта. Для поискового бота время директивы является минимальным временем обхода — реальная задержка будет больше или равна ему.

Параметр Crawl-delay, как и все директивы robots.txt, указывается с новой строки через двоеточие. Формат записи — в секундах, допустимы десятичные дроби

Пример:

  • Crawl delay: 3 — задержка в три секунды.
  • Crawl delay: 0.5 — задержка в половину секунды.

Сколько секунд лучше ставить в Crawl-Delay

В случае, если в момент обхода поисковиками производительность вашего сайта падает, будет полезно попробовать поставить задержку обхода в две-три секунды. Если вам нужно поскорее выгнать бота с сайта, наоборот значение можно уменьшить до одной десятой секунды, что не гарантирует 600 страниц в минуту, но ускорит процесс обработки.

Полезным будет большое значение директивы на слабых тарифах хостингов, чтобы сайт не упал в неподходящий момент. Иногда сервера на небольших тарифах просто не в состоянии обрабатывать в секунду столько запросов, сколько от них требует бот поисковой системы.

После того, как вы внесли директиву в robots.txt. проверьте правильность файла. Воспользуйтесь панелью веб-мастера. В системе Google может возникнуть ошибка о том, что указано неизвестное свойство. Это нормально. На эту директиву смотрят, в основном, только роботы Яндекса.

Директива Crawl delay

Файл robots.txt для Word Press состоит из множества директив. Часто они разделяются на секции правил индексирования для Google и Яндекс, а иногда даже и для других поисковиков.

Сущность правил из robots.txt заключается в том, чтобы разрешить или запретить роботам из ПС индексирования тех или иных страниц и частей сайта. Но есть несколько директив для этого файла, которые отвечают за тонкую настройку правил индексирования.

В данной статье мы и обсудим одну из них – Crawl delay.

Что делает Crawl delay

Crawl delay переводится как задержка сканирования. То есть эта директива задаёт интервал времени, с которым робот поисковика будет загружать страницы сайта.

Параметр задаётся в секундах. Также есть возможность указывать десятичные величины. Например, если Crawl delay показывает 3, то робот будет посещать страницы не чаще, чем раз в 3 секунды. Если в директиве указанно 2.5, то, соответственно, сканирование страниц робот будет осуществлять не чаще, чем раз в 2,5 секунды.

Благодаря этому можно настроить точную минимальную величину говорящую роботу о том, как часто его готовы встречать на этом сайте.

Многие web-мастера считают, что Crawl delay равная, например, 1, означает то, что робот будет приходиться раз в секунду. Это не так. Повторимся – робот будет приходиться не чаще, чем раз в секунду.

Как писать Crawl delay

Данная директива необходима только для робота из Яндекса (это вакцина против их чрезмерно агрессивных роботов), и Google её не понимает. Поэтому и записывать её следует в ту секцию, где прописаны правила для Яндекса.

Прописывать директиву следует в самом конце правил для Яндекса, после всех разрешающих, запрещающих директив Allow и Disallow, а также после Sitemap.

Параметр следует писать после двоеточия. Например, Crawl delay: 3 или Crawl delay: 2.5.

Зачем нужно использовать Crawl delay

Использование директивы Crawl delay целесообразно на слабых хостингах. То есть, когда слишком частое посещение робота может привести к тому, что оборудование хостера не выдерживает и временно отключает сайт.

Также, если сайт загружается слишком медленно, то можно дать роботу с помощью директивы Crawl delay немного времени, чтобы улучшить процесс индексации. Прочитайте здесь о том, что ещё можно сделать при слишком долгой загрузке сайта.

После прописывания директивы и её параметра, следует проверить robots.txt в соответствующем сервисе Яндекс Вебмастера. В Google Вебмастере при проверке будет выводиться ошибка о том, что этот робот не знает такой директивы. Это нормально.

Советы по корректному использованию файла robots.txt — Devaka SEO Блог

В одном из своих твитов я упомянул, что robots.txt это зло и чем он больше, тем больше зла он приносит сайту. Встретив много непонимания, в том числе и на данный момент, когда мнения оптимизаторов четко разделяются по этому вопросу, когда некоторые вебмастера используют старые рекомендации, хочется внести некую ясность в использование этого файла в текущих условиях.

Понятно, что в robots.txt используются разные директивы. Среди них есть много полезных:

  • Host: для указания основного хоста для Яндекса
  • Sitemap: для указания адреса карты сайта
  • Crawl-Delay: для указания минимальной задержки между индексацией страниц (не для всех поисковиков).

Также есть директива Disallow (и Allow как противоположная). Именно о них и пойдет речь в данной статье.

С какими проблемами сталкиваются вебмастера, используя robots.txt?

Первая и основная проблема, с которой сталкиваются вебмастера, это наличие в индексе Google страниц, закрытых в robots.txt. Считается, что если закрыть страницу или раздел в robots.txt, то она не попадет в индекс или выпадет из него, если там была. Это пока что работает так для Яндекса, Google воспринимает robots.txt по-другому.

Пример индексации закрытых в robots.txt страниц

Если обратиться к справке Google, то можно видеть, что robots.txt — это не правило, а рекомендация. И она означает “не сканировать страницу”, а не “не добавлять её в индекс”. Страница по прежнему может попасть в индекс, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.

Вроде бы ничего страшного, но наличие подобных страниц в индексе, во-первых, плохо влияет на авторитет сайта (в связи с введением Пингвина, Яндекс пока работает по другому), и, во-вторых, подобный сниппет может снижать конверсию и ухудшать поведенческий фактор в поиске.

Для закрытия дублей страниц лучше использовать внутренние средства CMS, а не стараться упростить себе жизнь файлом robots.txt. Тем более, что файл может по каким-то причинам быть недоступен (перенесли на другой сервер, забыли, переименовали и так далее) и в таком случае все закрытое становится резко открытым (наверное как в случае с прошлой утечкой информации из wiki.yandex-team.ru).

Во-вторых, закрывая всё подряд, можно случайно закрыть важные вещи. Например, закрывая в WordPress всю папку /wp-content/, можно остаться без трафика по изображениям, которые хранятся в /wp-content/uploads/.

Пример robots.txt с закрытой папкой картинок

Тут хранятся изображения, но в поиске по картинкам их нет:

Здесь хранится много картинок, но их нет в поиске по изображениям

Так что, получается лучше совсем не использовать robots.txt? В некоторых случаях он всё же полезен (особенно, когда мы прописываем главное зеркало для Яндекса).

Для чего я рекомендую использовать robots.txt

  • Для закрытия всего сайта при его разработке
    Чтобы заранее в индекс не попало ничего лишнего.
  • Для закрытия сайта от левых поисковиков.
    Например, Рунетовским сайтам нет смысла показываться в Yahoo! Если в этом поисковике нет целевой аудитории, то можно смело закрывать сайт, дабы не нагружать дополнительно свои сервера.
  • Для закрытия приватных разделов сайта от глаз робота.
    Чтобы приватные данные (типа номера кредитных карт 🙂 пароли или смс-ки пользователей) не попадали в индекс. Хотя логично эти разделы вообще не иметь открытыми на сайте.
  • Для снятия нагрузки на сервер
    Если, к примеру, на вашем очень популярном сайте много функционала по сотрировке товара, или какие-то фильтры, которые требуют больших серверных ресурсов, можно не пускать робота к этим страницам, чтобы снять нагрузку. Хотя, опять же, логино было бы сделать функционал сортировки невидимым для робота в самой CMS, чем перекладывать ответственность на файл robots.txt.

Для чего я бы не рекомендовал использовать robots.txt

  • Для закрытия индексации страниц пейджинга, сортировки, поиска
    От дублей следует избавляться средствами CMS, например, 301 редиректом, тегом rel=canonical (который специально для этого был создан), 404 ошибкой или мета тегом robots noindex.
  • Для удаления уже существующих в индексе страниц
    Частая ошибка вебмастеров, когда пытаются удалить страницы из индекса роботсом. Поисковый робот не сможет переиндексировать страницу и удалить её, если вы закроете к ней доступ через роботс.
  • Для закрытия админ-панели
    Путь к админке виден в роботс. Так на конференции Optimization.by мы с коллегами злоумышленно получили доступ к одной админке сайта про курсовые работы, путь к которой узнали через robots.txt, а пароли были стандартные admin:admin.
  • Для закрытия других страниц, которые вы не хотите видеть в индексе
    Используйте для этого любые другие методы

Любые комментарии приветствуются. Как вы используете свой robots.txt и сталкивались ли раньше с описанными проблемами?

Дары Яндекса — директива Crawl-delay и поддержка GZIP

Логотип ЯндексЯндекс предоставил вебмастерам возможность управлять таймаутом, с которым поисковый робот закачивает страницы с сервера (Crawl-delay).
О необходимости этой директивы вебмастера говорили уже давно, сложности возникают, когда сервер сильно нагружен и не успевает отрабатывать запросы на закачку. А директива Crawl-delay позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.

В 2006 году особенно остро эта тема обсуждалась в связи с ныне почившей поисковой системой Вебальта, которая в стремлении быстро проиндексировать максимум информации повысила загрузку каналов хостинг-провайдеров и вызвала недовольство владельцев сайтов. Тогда же часть вебмастеров говорила об игнорировании роботом Вебальты файла robots.txt.

Директива Crawl-delay, поясняет аналитик-проектировщик компании Ingate Дмитрий Орлов, решает такую проблему: «Если сервер сильно загружен, а робот пытается утянуть все и сразу, возможны ошибки и, как следствие, проблемы с индексацией. С помощью новой директивы можно заставить работ многократно заходить на сайт с заданным интервалом, в результате чего вероятность корректной обработки сайта повышается».

Команда Яндекса поясняет, как именно нужно добавлять директиву. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, Crawl-delay необходимо добавлять в группе, начинающейся с записи «User-Agent», непосредственно после директив «Disallow» («Allow»).

Поисковый робот Яндекса поддерживает дробные значения Crawl-delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

Вы можете посмотреть примеры, которые приводятся на Я.Вебмастере:

User-agent: Yandex
Crawl-delay: 2 # задает таймут в 2 секунды

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймут в 4.5 секунды

Помимо директивы Crawl-delay, Яндекс сообщает о поддержке скачивания сжатого контента (GZIP). Это позволит уменьшить объем трафика. Как поясняет Сергей Стружков, руководитель отдела ресурсов компании Ingate, GZIP – это «полезная штука для сайтов на хорошем с сервере с большими объемами информации. Яндекс явно хочет «кушать» больше:)
Кроме того, вебмастера Украины, Белоруссии и других стран, куда «стучится» Яндекс, теперь смогут сэкономить на плате за трафик, поскольку его объем можно будет уменьшить
»

Теперь поисковый робот Яндекса при каждом запросе документа говорит: «Accept-Encoding: gzip,deflate».

Таким образом, если вебмастр настроил свой веб-сервер, он снизит объем передаваемого трафика между ним и роботом Яндекса.

Правда, команда поисковика предупреждает, что передача контента в сжатом виде увеличивает нагрузку на CPU сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5.

«Скорость обхода» или об изменениях в учёте директивы Crawl-delay

В Яндекс.Вебмастере появился новый инструмент — «Скорость обхода», который находится в разделе «Индексирование». Этот инструмент позволяет регулировать, как часто Яндекс может делать запросы к вашему сайту, то есть регулировать скорость обхода вашего сайта со стороны поисковых роботов. По умолчанию мы будем подбирать максимальную скорость для конкретного сайта, учитывая допустимые нагрузки для вашего сервера.

Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delayв robots.txt. Владельцы сайтов часто не задумываются о ней и её значении, и просто ставят такие же значения, как «у других», — как у старых сайтов, серверами которых служили еще «домашние» компьютеры, а не мощные стойки в дата-центрах. Так, порой встречались такие значения, как 20, 50, а порой и 100. И это при том, что если этот показатель был больше 2, скорость обхода сайта сильно снижалась — ведь именно эта директива отвечает за то, как часто робот может обращаться к сайту. В результате ошибочно установленной директивы страницы сайта длительное время не могли проиндексироваться роботом.

Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay. Если же вы все-таки хотите по какой-то причине ограничить скорость обхода сайта, вы можете воспользоваться новым инструментом — «Скорость обхода». Он заменит собой рекомендации из директивы, его настройки можно выставить уже сейчас: они начнут учитываться через неделю, с 22 февраля.

Если вы не знаете, какое именно значение Crawl-delay нужно было устанавливать для вашего сайта или какое теперь значение необходимо установить в настройках инструмента, — просто оставьте значение «Доверять Яндексу». Робот сам выберет наиболее оптимальную частоту индексирования вашего сайта.

Теперь сайты смогут индексироваться еще быстрее!

Источник: Блог Яндекса для вебмастеров

Похожее

Вопросы и Ответы (FAQ) — Индексация в заданном ритме (Crawl-delay)

Снизить нагрузку на сервер и устранить проблему отключения сайта при его индексации, а также повысить корректность индексации можно с помощью «Crawl-delay» – директивы в файле robots.txt. Она позволяет задавать промежуток времени между закачками страниц с сервера, что стабилизирует работу ресурса в ходе множественных запросов на индексацию. В первую очередь, это актуально для больших сайтов и ресурсов с недостаточно качественным хостингом.

Файл robots.txt специально предназначен для управления индексацией. Он находится в корне сайта (adres_vashego_saita.ru/robots.txt) и читается роботом в первую очередь. Файл содержит в себе правила, регулирующие работу поисковых машин, например, там указываются страницы, не предназначенные для индексации (содержащие служебную информацию, дублированный или неуникальный контент). Иногда файл robots.txt отсутствует, в таком случае настоятельно рекомендуем создать его.

Руководствуясь «правилами поведения», описанными в файле, робот начинает закачку страниц Вашего сайта себе в базу, их индексацию и ранжирование, после чего пользователи могут найти ресурс по поисковым запросам. В ряде случаев (большое количество страниц сайта, слабый хостинг) частое обращение робота к серверу создает сильную нагрузку, в результате чего сайт временно перестает работать. Данную проблему и призвана решить директива «Crawl-delay», в которой можно попросить Яндекс «сделать перекур» между концом закачки одной страницы и началом следующей. Причем учитываются как целые, так и дробные значения. Например, чтобы задать тайм-аут в 6.5 секунд, нужно прописать:

User-agent: Yandex
Crawl-delay: 6.5

Это не означает, что робот будет качать страницы именно с периодичностью в 6.5 секунд, но задает минимальный промежуток времени между обращениями к серверу.

Так как директиву «понимают» не все поисковые роботы, ставить ее нужно в конце файла robots.txt после правила Disallow (либо Allow):

User-agent: *
Disallow: /about
Crawl-delay: 6.5

Директива дает в руки вебмастерам дополнительный инструмент повышения эффективности работы сайтов и улучшения их видимости в поисковых сервисах.

Crawl-delay яндекса

support2support2   05.02.2014 14:45   2 189  

Народ кто на сайте у себя настроил Crawl-delay и какое указали значение в секундах? Как его вообще расчетать?


Легко, в 1 минуте 60 секунл, в одном часе 60 минут, ледовательно 3600 секунд, в сутках 24 часа следовательно 86400 секунд.

Фигню написал. В общем она задает параметр через которое время робот ПС может обращаться к сайту, у меня стоит 4, что означает, робот делает обращение к сайту не чаще чем раз в 4 секунды.

Все понятно до ужаса… И «настраивать» то нечего…
Обратите внимание на строку:
Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay,
например, 0.5. Это не гарантирует, что поисковый робот будет заходить
на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет
ускорить обход сайта.

Что дает понять, что это ограничитель для роботов. Если робот сильно шустрый и слишком грузит сайт, то стоит указать значение побольше.

Есть предположение что у яндексбота есть квота по времени (тк. есть квота и на размеры файлов). У меня сайт состоит из 20тыс страниц, в индексе 1тыс. и порядка 11тыс страниц лежат в исключённых страницах (смотрю вебмастер) в честь чего это произошло не понятно. Там же тыкаю на эту ссылку и страница открывается и при проверки на отдачу выдаётся код 200. Платон пишет подождите переиндексацию. Исключил мои страницы яша 14 декабря. Ждать помоему не принесёт эфекта. Сейчас у меня стоит Crawl-delay 10, посещаемость на сайте 30 в сутки (нагрузки нет на сервере) думаю уменьшить кол-во секунд т.к. думаю что яша зайдёт и сможет быстрее переиндексировать исключённые страницы и выплюнуть их в индекс а может даже и в поиск. Ваше мнение?

Мое мнение, что это значение нужно вообще снести. Оно Вам не нужно.
Оно никак не подсобит в том, чтобы робот быстрее бегал по сайту. Действует как лежачий полицейский — лишь ограничивает скорость робота, заставляет его притормозить. Пинка под зад роботу для ускорения оно не дает.

Вот, собственно, суть этого значения:
Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой «Crawl-delay».
Она позволяет задать поисковому роботу минимальный период времени (в
секундах) между концом закачки одной страницы и началом закачки
следующей.

пациент кстати мой http://yaport.su если думаете причина в другом прошу отписать мне. Спасибо.

Устаревший параметр, на который боты уже вообще не реагируют, заходят когда хотят сволочи, и глубоко им не интересны никакие намеки вроде Crawl-delay.

К «заходят когда хотят» данный параметр не относится. Crawl-delay это параметр влияющий на паузы между запросами, что бы при большом количестве страниц не создавалась избыточная нагрузка на сервер.

Да и это относится не к поисковому роботу а к серверам Apache, точнее к файлу настроек.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *