Google обновил инструмент проверки файлов robots.txt
Google сообщил об обновлении инструмента проверки файла robots.txt в сервисе Webmaster Tools. Усовершенствованную версию инструмента можно найти в разделе «Сканирование:«Файл robots.txt — один из ключевых компонентов поисковой оптимизации сайтов, однако иногда он приносит больше вреда, чем пользы. В частности, этот самый файл может блокировать для роботов поисковых систем обход (сканирование) важных страниц сайта. Кроме того, robots.txt может препятствовать индексированию сайта в целом», — пишет редактор издания Search Engine Journal Мэтт Саузерн (Matt Southern).
Целью обновления инструмента Google как раз таки и является упрощение обнаружения и исправления ошибок в файле robots.txt, а также облегчение поиска директив, блокирующих индивидуальные URL-адреса, внутри единого большого файла.
Возможности модернизированного инструмента
Новая версия инструмента тестирования файла robots.
Владельцы сайтов могут внести изменения в файл и тут же их протестировать: для этого надо всего-навсего загрузить обновлённую версию robots.txt на сервер.
Кроме того, модернизированная версия инструмента позволяет просматривать предыдущие версии файла robots.txt и проверять, когда и в связи с чем у сканирующих роботов Google возникли проблемы с доступом к определённым страницам сайта. По словам представителя команды Webmaster Tools Асафа Арнона (Asaph Arnon), Googlebot может взять паузу в сканировании сайта, если, к примеру, обнаружит внутреннюю ошибку сервера 500 для файла robots.txt.
Google советует дважды проверять файл robots.txt во избежание пропуска ошибок или важных предупреждений сервиса о нарушениях в сканировании и индексировании ресурса. Вебмастера также могут совмещать использование инструмента проверки файла robots.txt с другим функционалом Webmaster Tools: например, с обновлённым инструментом «Просмотреть как Googlebot», предоставляющим информацию об HTTP-ответе сервера, дате и времени сканирования, проблемах с доступом к картинкам, мобильному контенту, JavaScript и CSS файлам.
Как устранить проблему “Проиндексировано, несмотря на блокировку в файле robots.txt” в GSC
Предупреждение “Проиндексировано, несмотря на блокировку в файле robots.txt” отображается в Google Search Console (GSC), если Google проиндексировал URL-адрес, хотя его сканирование было заблокировано.
В большинстве случаев, если вы заблокировали сканирование в своем файле robots.txt, это является очевидной проблемой. Но есть несколько дополнительных условий, которые могут вызвать эту проблему, поэтому давайте рассмотрим следующий процесс устранения неполадок, который поможет выявлять и исправлять существующие проблемы как можно более эффективно.
Как видите, первым делом нужно спросить себя, хотите ли вы, чтобы Google индексировал URL-адрес.
Если вы не хотите, чтобы URL-адрес индексировался…
Просто добавьте атрибут noindex в метатег robots и убедитесь, что сканирование разрешено, если адрес каноничный.
Если вы заблокируете сканирование страницы, Google все равно сможет проиндексировать ее, потому что сканирование и индексирование — это разные процессы. Если Google не может сканировать страницу, они не увидят атрибут noindex в метатеге и все равно смогут проиндексировать страницу, если на ней есть ссылки.
Если URL-адрес каноникализируется на другую страницу, не добавляйте атрибут noindex в метатег robots. Просто убедитесь, что настроены правильные сигналы каноникализации, включая атрибут canonical на канонической странице, и разрешите сканирование, чтобы сигналы проходили и консолидировались правильно.
Если вы хотите, чтобы URL-адрес индексировался…
Вам нужно выяснить, почему Google не может просканировать URL-адрес и снять блокировку.
Наиболее вероятная причина — блокировка сканирования в robots.txt. Но есть несколько других сценариев, которые могут вызывать предупреждение о том, что вы заблокированы. Давайте рассмотрим их в том порядке, в котором вам, вероятно, стоит их искать.
- Проверьте наличие блокировки сканирования в robots.txt
- Проверьте наличие периодической блокировки
- Проверьте наличие блокировки по user-agent
- Проверьте наличие блокировки по IP-адресу
Проверьте наличие блокировки сканирования в robots.txt
Самый простой способ выявить эту проблему — использовать средство проверкиrobots.txt в GSC, которое покажет правило блокировки.
Если вы знаете, что ищете, или у вас нет доступа к GSC, вы можете перейти по адресу домен.com/robots.txt, чтобы найти файл. Дополнительную информацию вы можете найти в нашей статье о robots.txt, но вы, вероятно, ищете директиву disallow, например:
Disallow: /
Директива может блокировать какой-то конкретный или все user-agent. Если ваш сайт новый или был запущен недавно, вы можете поискать:
User-agent: *
Disallow: /
Не можете найти проблему?
Возможно, кто-то опередил вас и уже устранил блокировку robots.txt, чем и решил проблему. Это наилучший сценарий. Однако, если проблема выглядит исправленной, но появляется снова спустя какое-то время, возможно, вы испытываете проблемы из-за периодической блокировки.
Как это исправить
Вам нужно удалить директиву disallow, вызывающую блокировку. Способ исправления проблемы зависит от используемой вами технологии.
WordPress
Если проблема затрагивает весь ваш веб-сайт, наиболее вероятная причина в том, что вы включили параметр в WordPress, отвечающий за запрет индексации. Эта ошибка часто встречается на новых веб-сайтах и после проведения миграции. Выполните следующие действия, чтобы проверить это.
- Нажмите “Настройки” (Settings)
- Нажмите “Чтение” (Reading)
- Снимите флажок “Видимость в поисковых системах” (Search Engine Visibility).
WordPress с Yoast
Если вы используете плагинYoast SEO, вы можете напрямую отредактировать файл robots.txt, чтобы удалить директиву блокировки.
- Нажмите на Yoast SEO
- Нажмите “Инструменты” (Tools)
- Нажмите “Редактор файлов” (File editor)
WordPress с Rank Math
Как и Yoast, Rank Math позволяет напрямую редактировать файл robots.txt.
- Нажмите на Rank Math
- Нажмите “Общие настройки” (General Settings)
- Нажмите “Редактировать robots.txt” (Edit robots.txt)
FTP или хостинг
Если у вас есть FTP-доступ к сайту, вы можете напрямую отредактировать файл robots.txt, чтобы удалить директиву disallow, вызывающий проблему. Ваш хостинг-провайдер также может предоставлять вам доступ к файловому менеджеру, с помощью которого вы можете напрямую обращаться к файлу robots.txt.
Проверьте наличие периодической блокировки
Периодические проблемы труднее устранить, поскольку условия, вызывающие блокировку, могут не присутствовать в момент проверки.
Я рекомендую проверить историю вашего файла robots.txt. Например, в средстве проверки robots.txt в GSC хранятся предыдущие версии файлов. Вы можете нажать на раскрывающийся список, выбрать версию и посмотреть ее содержимое.
У The Wayback Machine на archive.org также хранится история файлов robots.txt для веб-сайтов, которые они сканируют. Вы можете щелкнуть любую дату, по которой у них есть данные, и посмотреть, как выглядел файл в этот конкретный день.
Вы также можете воспользоваться бета-версией отчета “Изменения” (Changes), который позволяет легко просматривать изменения содержимого между двумя разными версиями файлов.
Как это исправить
Процесс исправления периодической блокировки будет зависеть от того, что вызывает проблему. Например, одной из возможных причин может быть общий кэш между тестовой средой и действующей средой. Файл robots.txt может содержать директиву блокировки, когда кэш используется тестовой средой. А когда кэш используется действующей средой, сайт может разрешать сканирование. В таком случае вы захотите разделить кэш или, возможно, исключить из кэша файлы з разрешением .TXT в тестовой среде.
Проверьте наличие блокировки по user-agent
Блокировка по user-agent — это блокировка, при которой сайт блокирует определенный user-agent, такого как Googlebot или AhrefsBot. Другими словами, сайт определяет конкретного бота и блокирует соответствующий user-agent.
Если вы можете просматривать страницу в своем обычном браузере, но блокируетесь после смены user-agent, это означает, что используемый вами user-agent заблокирован.
Вы можете задать конкретный user-agent с помощью инструментов разработчика Chrome. Еще один вариант — использовать расширение браузера для смены user-agent, подобное этому.
Кроме того, вы можете проверить блокировку по user-agent с помощью команды cURL. Вот как это сделать в Windows.
- Нажмите клавиши Windows+R, чтобы открыть окно “Выполнить”.
- Введите “cmd” и нажмите “ОК”.
- Введите команду cURL, подобную этой:
curl -A “имя-user-agent -Lv [URL]
curl -A “Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)” -Lv https://ahrefs.com
Как это исправить
К сожалению, это еще один случай, когда процесс исправления будет зависеть от того, где вы найдете блокировку. Бота может блокировать множество разных систем, в том числе .htaccess, конфигурация сервера, брандмауэр, CDN или даже что-то, к чему вас нет доступа. Например то, что контролирует ваш хостинг-провайдер. Лучше всего будет обратиться к вашему хостинг-провайдеру или CDN и спросить их, откуда происходит блокировка и как вы можете устранить ее.
Например, вот два разных способа блокировки по user-agent в .htaccess, которые вам, возможно, придется искать.
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]
RewriteRule .* - [F,L]
или…
BrowserMatchNoCase "Googlebot" bots
Order Allow,Deny
Allow from ALL
Deny from env=bots
Проверьте наличие блокировки по IP-адресу
Если вы подтвердили, что не заблокированы файлом robots.txt, и исключили блокировку по user-agent, то, скорее всего, это блокировка по IP-адресу.
Как это исправить
Блокировку по IP-адресу сложно отследить. Как и в случае с блокировкой по user-agent, лучше всего будет обратиться к вашему хостинг-провайдеру или CDN и спросить их, откуда происходит блокировка и как вы можете устранить ее.
Вот один пример того, что вы можете искать в .htaccess:
deny from 123.123.123.123
Заключение
В большинстве случаев предупреждение “Проиндексировано, несмотря на блокировку в файле robots.txt” является результатом блокировки в файле robots.txt. Надеюсь, это руководство помогло вам найти и исправить проблему.
Остались вопросы? Дайте знать в Twitter.
Перевела Олеся Коробка, владелец Fajela.com
Инструменты проверки файла robots.txt | www.wordpress-abc.ru
Вступление
Если у вас есть желание закрыть некоторые материалы своего сайта от поисковых и других ботов, используется три метода:
Во-первых, создаётся файл robots.txt в котором специальными записями закрываются/открываются части контента. Важно, что файл robots.txt
запрещает роботам сканировать URL сайта;
Во-вторых, на HTML(XHTML) страницах или в HTTP заголовке прописывается мета–тег robots с атрибутами
(не показывает страницу в поиске) и/или nofollow
(не разрешает боту обходить ссылки страницы). Синтаксис мета тега robots:
<meta name="robots" content="noindex, nofollow" />
Важно, что мета–тег robots работает, если есть доступ ботов к сканированию страниц, где мета тег прописан. То есть они не закрыты файлом
robots.txt
.
В-третьих, можно создавать закрытые разделы сайта.
При составлении файла robots.txt полезно проверять правильность его составления. Для этого предлагаю посмотреть следующие инструменты проверки файла robots.txt.
Инструменты проверки файла robots.txt
Напомню, что в классическом варианте в файле robots.txt создаются отдельные директивы для агента пользователя Yandex (user-agent: yandex) и других поисковых ботов сети, включая Googleboot (user-agent: *).
Инструмент проверки №1
Google в возможностях Searh Console оставил инструмент проверки файла robots.txt. Вот ссылка на него: https://www.google.com/webmasters/tools/robots-testing-tool
Вот скрин:
Для использования инструмента вам нужно зарегистрироваться инструментах веб–мастеров Google и добавить в них свой ресурс (сайт). Если вы всё это сделали, просто выберете сайт для проверки.
После выбора сайту откроется инструмент проверки файла robots.txt
. Внизу читаем ошибки и предупреждения. Если их нет, то смотрим ещё ниже и видим сам инструмент проверки.
В форме проверки указываете проверяемый URL, выбираете бота Google (по умолчанию Googleboot) и жмёте кнопку «Проверить».
Результат проверки будет показан на этой же станице в виде зелёной надписи «Доступен» или красной надписи «Не доступен». Всё просто и понятно.
Инструмент проверки №2
По логике составления файла robots.txt
о которой я напомнил выше, такой же инструмент проверки должен быть в веб–инструментах Яндекс для ботов Yandex. Смотрим. Действительно, в вашем аккаунте Яндекс Веб–мастер выбираете заранее добавленный ресурс (свой сайт).
В меню «Инструменты» есть вкладка «Анализ robots.txt», где проверяется весь файл robots на ошибки и проверяются отдельные URL сайта на закрытие в файле robots.
Независимые инструменты проверки файла robots.txt
Встаёт логичный вопрос, можно ли проверить файл robots.txt и его работу независимо от инструментов веб мастеров? Наверняка можно.
Во-первых, чтобы просмотреть доступность своего файла robots впишите в браузер его адрес. Он должен открыться и нормально читаться. Проверку можно сделать в нескольких браузерах.
Адрес файла должен быть:
http(s)://ваш_домен/robots.txt
Во-вторых, используйте для проверки файла следующие инструменты:
Websiteplanet.com
https://www.websiteplanet.com/ru/webtools/robots-txt/
Дотошный инструмент, выявляет ошибки и предупреждения, которые не показывают сами боты.
Seositecheckup.com
https://seositecheckup.com/tools/robotstxt-test
Англоязычный инструмент проверки файла robots.txt
на ошибки. Регистрация не требуется. Хотя навязывается сервисом. Результаты в виде диаграммы.
Стоит отметить, что с июня сего года (2019) правила для составления файла robots.txt стали стандартом и распространяются на всех ботов. Так что выявленные ошибки для бота Google, будут ошибками и для бота Yandex.
Technicalseo.com
https://technicalseo.com/tools/robots-txt/
Протестируйте и подтвердите ваш robots.txt с помощью этого инструмента тестирования. Проверьте, заблокирован ли URL-адрес, какой оператор его блокирует и для какого агента пользователя. Вы также можете проверить, запрещены ли ресурсы для страницы (CSS, JavaScript, IMG).
en.ryte.com
https://en.ryte.com/free-tools/robots-txt/
Просто вписывает адрес своего файла и делаете проверку. Показывает предупреждения по синтаксису файла.
Вывод про инструменты проверки файла robots.txt
По-моему, лучшие инструменты проверки файла robots.txt
находятся в инструментах веб–мастеров. Они ближе к источнику и более чувствительны к изменениям правил.
Кстати, есть проверка файла robots.txt
в инструментах веб–мастеров Mail поисковика (https://webmaster.mail.ru/) и была у поисковика Bing.
Еще статьи
Похожие посты:
Похожееправила обработки директив, какие директивы не используются в Google и зачем нужны Disallow и Crawl-delay — Пиксель Тулс
1 сентября 2019 года Google прекратит поддержку нескольких директив в robots.txt. В список попали: noindex, crawl-delay и nofollow. Вместо них рекомендуется использовать:
-
Мета-тег noindex, как наиболее эффективный способ удалить страницу из индекса.
-
404 и 410 коды ответа сервера. В ряде случаев, 410 отрабатывает значительно быстрей для удаления URL из индекса.
-
Защита паролем. Страницы, требующие авторизации, также обычно удаляются из индекса (важно — именно страницы, полностью скрытые под логином, а не часть контента).
-
Временное удаление страницы из индекса с помощью инструмента в Search Console.
-
Disallow в robots.txt.
Тем не менее, robots.txt по-прежнему остаётся одним из главных файлов для SEO-специалиста. Давайте вспомним самые полезные директивы от простых, до менее очевидных.
robots.txt
Это простой текстовый файл, который содержит инструкции для поисковых краулеров — какие страницы сайта не следует посещать, где лежит наш Sitemap.xml и для каких поисковых роботов распространяются правила.
Файл размещается в корневой директории сайта. Например:
Прежде чем начать сканирование сайта, краулеры проверяют наличие robots.txt и находят правила специфичные для их User-Agent, например Googlebot. Если таких нет — следуют общим инструкциям.
Действующие правила robots.txt
User-Agent
У каждой поисковой системы есть свои «агенты пользователя». По сути, это имя краулера, которое помогает дать определённые указания конкретному ему.
Если брать шире, то User-Agent — клиентское приложение на стороне поисковой системы, в некотором смысле имитирующее браузер или, например, мобильное устройство.
Примеры:
-
User-agent: *
— символ астериск используются для обозначения сразу же всех краулеров. -
User-agent: Yandex
— основной краулер Яндекс-поиска. -
User-agent: Google-Image
— робот поиска Google по картинкам. -
User-agent: AhrefsBot
— краулер сервиса Ahrefs.
Важно: если в файле указаны правила для конкретных User-Agent, то роботы будут следовать только своим инструкциям, игнорируя общие правила.
В примере ниже краулер DuckDukcGo сможет сканировать папки сайта /api/
и /tmp/
User-agent: * Disallow: /tmp/ Disallow: /api/ User-agent: DuckDuckBot Disallow: /duckhunt/
Disallow
Директива, которая позволяет блокировать от индексации полностью весь сайт или определённые разделы.
Может быть полезно для закрытия от сканирования служебных, динамических или временных страниц (символ #
отвечает за комментарии в коде и игнорируется краулерами).
User-agent: * # Закрываем раздел /cms и все файлы внутри Disallow: /cms # Закрываем папку /images/resized/ (сами изображения разрешены к сканированию) Disallow: /api/resized/
Упростить инструкции помогают операторы:
-
*
— любая последовательность символов в URL. По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. -
$
— символ в конце URL-адреса, он используется чтобы отменить использование * на конце правила.
User-agent: * # Закрываем URL, начинающиеся с /photo после домена. Например: # /photos # /photo/overview Disallow: /photo # Закрываем все URL, начинающиеся с /blog/ после домена и заканчивающиеся /stats/ Disallow: /blog/*/stats$
Важно: в robots.txt не нужно закрывать JS и CSS-файлы, они понадобятся поисковым роботом для правильного отображения (рендеринга) контента.
Allow
С помощью этой директивы можно, напротив, разрешить каталог или конкретный адрес к индексации. В некоторых случаях проще запретить к сканированию весь сайт и с помощью Allow открыть нужные разделы.
User-agent: * # Блокируем весь раздел /admin Disallow: /admin # Кроме файла /admin/css/style.css Allow: /admin/css/style.css # Открываем все файлы в папке /admin/js. Например: # /admin/js/global.js # /admin/js/ajax/update.js Allow: /admin/js/
Также Allow можно использовать для отдельных User-Agent.
# Запрещаем доступ к сайту всем роботам User-agent: * Disallow: / # Кроме краулера Яндекса User-agent: Yandex Allow: /
Crawl-delay
Директива, теряющая актуальность в случае Goolge, но полезная для работы с другими поисковиками.
Позволяет замедлить сканирование, если сервер бывает перегружен. Устанавливает интервал времени для обхода страниц в секундах (для Яндекса). Чем выше значение, тем медленнее краулер ходит по сайту.
User-agent: * Crawl-delay: 5
Несмотря на то, что Googlebot игнорирует подобные правила, настроить скорость сканирования можно в Google Search Console проекта.
Интересно, что китайский Baidu также не обращает внимание на Crawl-delay в robots.txt, а Bing воспринимает команду как «временное окно», в рамках которого BingBot будет сканировать сайт только один раз.
Важно: если установлено высокое значение Crawl-delay, убедитесь, что ваш сайт своевременно индексируется. В сутках 86 400 секунд, при Crawl-delay: 30
будет просканировано не более 2880 страниц в день, что мало для крупных сайтов.
Sitemap
Одно из ключевых применений robots.txt в SEO — указание на расположение карты сайты. Обратите внимание, используется полный URL-адрес (их может быть несколько).
Sitemap: https://www.example.com/sitemap.xml Sitemap: https://www.example.com/blog-sitemap.xml
Нужно иметь в виду:
-
Директива Sitemap указывается с заглавной S.
-
Sitemap не зависит от инструкций User-Agent.
-
Нельзя использовать относительный адрес карты сайта, только полный URL.
-
Файл XML-карты сайта должен располагаться на том же домене.
Также убедитесь, что ссылка возвращает статус 200 OK
без редиректов. Проверить можно с помощью инструмента, определяющего ответ сервера или анализа XML-карты сайта.
Типичный robots.txt
Ниже представлены простые и распространенные шаблоны команд для поисковых роботов.
Разрешить полный доступ
Обратите внимание, правило для Disallow в этом случае не заполняется.
Полная блокировка доступа к хосту
User-agent: * Disallow: /
Запрет конкретного раздела сайта
User-agent: * Disallow: /admin/
Запрет сканирования определенного файла
User-agent: * Disallow: /admin/my-embarrassing-photo.png
Распространенная ошибка
Установка индивидуальных правил для User-Agent без дублирования инструкций Disallow.
Как мы уже выяснили, при указании директивы User-Agent, соответствующий краулер будет следовать только тем правилам, что установлены именно для него. Не забывайте дублировать общие директивы для всех User-Agent.
В примере ниже — слегка измененный robots.txt сайта IMDB. Общие правила Disallow не будут распространяться на бот ScoutJet. А вот Crawl-delay, напротив, установлена только для него.
# отредактированная версия robots.txt сайта IMDB # # Задержка интервала сканирования для ScouJet # User-agent:ScouJet Crawl-delay: 3 # # # # Все остальные # User-agent: * Disallow: /tvschedule Disallow: /ActorSearch Disallow: /ActressSearch Disallow: /AddRecommendation Disallow: /ads/ Disallow: /AlternateVersions Disallow: /AName Disallow: /Awards Disallow: /BAgent Disallow: /Ballot/ # # Sitemap: https://www.imdb.com/sitemap_US_index.xml.gz
Противоречия директив
Общее правило — если две директивы противоречат друг другу, приоритетом пользуется та, в которой большее количество символов.
User-agent: * # /admin/js/global.js разрешён к сканированию # /admin/js/update.js по-прежнему запрещён Disallow: /admin Allow: /admin/js/global.js
Может показаться, что файл /admin/js/global.js
попадает под правило блокировки содержащего его раздела Disallow: /admin/
. Тем не менее, он будет доступен для сканирования, в отличие от всех остальных файлов в каталоге.
Список распространенных User-Agent
User-Agent | # |
---|---|
Googlebot | Основной краулер Google |
Googlebot-Image | Робот поиска по картинкам |
Bing | |
Bingbot | Основной краулер Bing |
MSNBot | Старый, но всё ещё использующийся краулер Bing |
MSNBot-Media | Краулер Bing для изображений |
BingPreview | Отдельный краулер Bing для Snapshot-изображений |
Яндекс | |
YandexBot | Основной индексирующий бот Яндекса |
YandexImages | Бот Яндеса для поиска по изображениям |
Baidu | |
Baiduspider | Главный поисковый робот Baidu |
Baiduspider-image | Бот Baidu для картинок |
Applebot | Краулер для Apple. Используется для Siri поиска и Spotlight |
SEO-инструменты | |
AhrefsBot | Краулер сервиса Ahrefs |
MJ12Bot | Краулер сервиса Majestic |
rogerbot | Краулер сервиса MOZ |
PixelTools | Краулер «Пиксель Тулс» |
Другое | |
DuckDuckBot | Бот поисковой системы DuckDuckGo |
Советы по использованию операторов
Как упоминалось выше, широко применяются два оператора: *
и $
. С их помощью можно:
1. Заблокировать определённые типы файлов.
User-agent: * # Блокируем любые файлы с расширением .json Disallow: /*.json$
В примере выше астериск *
указывает на любые символы в названии файла, а оператор $
гарантирует, что расширение .json
находится точно в конце адреса, и правило не затрагивает страницы вроде /locations.json.html (вдруг есть и такие).
2. Заблокировать URL с параметром ?
, после которого следуют GET-запросы (метод передачи данных от клиента серверу).
Этот приём активно используется, если у проекта настроено ЧПУ для всех страниц и документы с GET-параметрами точно являются дублями.
User-agent: * # Блокируем любые URL, содержащие символ ? Disallow: /*?
Заблокировать результаты поиска, но не саму страницу поиска.
User-agent: * # Блокируем страницу результатов поиска Disallow: /search.php?query=*
Имеет ли значение регистр?
Определённо да. При указании правил Disallow / Allow, URL адреса могут быть относительными, но обязаны сохранять регистр.
User-agent: * # /users разрешены для сканирования, поскольку регистр разный Disallow: /Users
Но сами директивы могут объявляться как с заглавной, так и с прописной: Disallow:
или disallow:
— без разницы. Исключение — Sitemap:
всегда указывается с заглавной.
Как проверить robots.txt?
Есть множество сервисов проверки корректности файлов robots.txt, но, пожалуй, самые надёжные: Google Search Console и Яндекс.Вебмастер.
Для мониторинга изменений, как всегда, незаменим «Модуль ведения проектов»:
-
Контроль индексации на вкладке «Аудит» — динамика сканирования страниц сайта в Яндексе и Google.
-
Контроль изменений в файле robots.txt. Теперь точно не упустите, если кто-то из коллег закрыл сайт от индексации (или наоборот).
Держите свои robots.txt в порядке, и пусть в индекс попадает только необходимое!
Настройка robots.txt – как узнать, какие страницы необходимо закрывать от индексации
Файл robots.txt представляет собой набор директив (набор правил для роботов), с помощью которых можно запретить или разрешить поисковым роботам индексирование определенных разделов и файлов вашего сайта, а также сообщить дополнительные сведения. Изначально с помощью robots.txt реально было только запретить индексирование разделов, возможность разрешать к индексации появилась позднее, и была введена лидерами поиска Яндекс и Google.
Структура файла robots.txt
Сначала прописывается директива User-agent, которая показывает, к какому поисковому роботу относятся инструкции.
Небольшой список известных и частоиспользуемых User-agent:
- User-agent:*
- User-agent: Yandex
- User-agent: Googlebot
- User-agent: Bingbot
- User-agent: YandexImages
- User-agent: Mail.RU
Далее указываются директивы Disallow и Allow, которые запрещают или разрешают индексирование разделов, отдельных страниц сайта или файлов соответственно. Затем повторяем данные действия для следующего User-agent. В конце файла указывается директива Sitemap, где задается адрес карты вашего сайта.
Прописывая директивы Disallow и Allow, можно использовать специальные символы * и $. Здесь * означает «любой символ», а $ – «конец строки». Например, Disallow: /admin/*.php означает, что запрещается индексация индексацию всех файлов, которые находятся в папке admin и заканчиваются на .php, Disallow: /admin$ запрещает адрес /admin, но не запрещает /admin.php, или /admin/new/ , если таковой имеется.
Если для всех User-agent использует одинаковый набор директив, не нужно дублировать эту информацию для каждого из них, достаточно будет User-agent: *. В случае, когда необходимо дополнить информацию для какого-то из user-agent, следует продублировать информацию и добавить новую.
Пример robots.txt для WordPress:
*Примечание для User agent: Yandex
-
Для того чтобы передать роботу Яндекса Url без Get параметров (например: ?id=, ?PAGEN_1=) и utm-меток (например: &utm_source=, &utm_campaign=), необходимо использовать директиву Clean-param.
-
Ранее роботу Яндекса можно было сообщить адрес главного зеркала сайта с помощью директивы Host. Но от этого метода отказались весной 2018 года.
-
Также ранее можно было сообщить роботу Яндекса, как часто обращаться к сайту с помощью директивы Crawl-delay. Но как сообщается в блоге для вебмастеров Яндекса:
- Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay.
- Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.
Вместо этой директивы в Яндекс. Вебмастер добавили новый раздел «Скорость обхода».
Проверка robots.txt
Старая версия Search console
Для проверки правильности составления robots.txt можно воспользоваться Вебмастером от Google – необходимо перейти в раздел «Сканирование» и далее «Просмотреть как Googlebot», затем нажать кнопку «Получить и отобразить». В результате сканирования будут представлены два скриншота сайта, где изображено, как сайт видят пользователи и как поисковые роботы. А ниже будет представлен список файлов, запрет к индексации которых мешает корректному считыванию вашего сайта поисковыми роботами (их необходимо будет разрешить к индексации для робота Google).
Обычно это могут быть различные файлы стилей (css), JavaScript, а также изображения. После того, как вы разрешите данные файлы к индексации, оба скриншота в Вебмастере должны быть идентичными. Исключениями являются файлы, которые расположены удаленно, например, скрипт Яндекс.Метрики, кнопки социальных сетей и т.д. Их у вас не получится запретить/разрешить к индексации. Более подробно о том, как устранить ошибку «Googlebot не может получить доступ к файлам CSS и JS на сайте», вы читайте в нашем блоге.
Новая версия Search console
В новой версии нет отдельного пункта меню для проверки robots.txt. Теперь достаточно просто вставить адрес нужной страны в строку поиска.
В следующем окне нажимаем «Изучить просканированную страницу».
Далее нажимаем ресурсы страницы
В появившемся окне видно ресурсы, которые по тем или иным причинам недоступны роботу google. В конкретном примере нет ресурсов, заблокированных файлом robots.txt.
Если же такие ресурсы будут, вы увидите сообщения следующего вида:
Рекомендации, что закрыть в robots.txt
Каждый сайт имеет уникальный robots.txt, но некоторые общие черты можно выделить в такой список:
- Закрывать от индексации страницы авторизации, регистрации, вспомнить пароль и другие технические страницы.
- Админ панель ресурса.
- Страницы сортировок, страницы вида отображения информации на сайте.
- Для интернет-магазинов страницы корзины, избранное. Более подробно вы можете почитать в советах интернет-магазинам по настройкам индексирования в блоге Яндекса.
- Страница поиска.
Это лишь примерный список того, что можно закрыть от индексации от роботов поисковых систем. В каждом случае нужно разбираться в индивидуальном порядке, в некоторых ситуациях могут быть исключения из правил.
Заключение
Файл robots.txt является важным инструментом регулирования отношений между сайтом и роботом поисковых систем, важно уделять время его настройке.
В статье большое количество информации посвящено роботам Яндекса и Google, но это не означает, что нужно составлять файл только для них. Есть и другие роботы – Bing, Mail.ru, и др. Можно дополнить robots.txt инструкциями для них.
Многие современные cms создают файл robots.txt автоматически, и в них могут присутствовать устаревшие директивы. Поэтому рекомендую после прочтения этой статьи проверить файл robots.txt на своем сайте, а если они там присутствуют, желательно их удалить. Если вы не знаете, как это сделать, обращайтесь к нам за помощью.
Полезное и интересное » Как правильно составить Robots.txt
Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.txt.
Для начала короткое видео, которое создаст общее представление о том, что такое файл robots.txt.
Как влияет robots.txt на индексацию сайта
Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов. В частности, GoogleBot не использует директиву Host и Crawl-Delay, YandexNews с недавних пор стал игнорировать директиву Crawl-Delay, а YandexDirect и YandexVideoParser игнорируют более общие директивы в роботсе (но руководствуются теми, которые указаны специально для них).
Подробнее об исключениях:
Исключения Яндекса
Стандарт исключений для роботов (Википедия)
Максимальную нагрузку на сайт создают роботы, которые скачивают контент с вашего сайта. Следовательно, указывая, что именно индексировать, а что игнорировать, а также с какими временны́ми промежутками производить скачивание, вы можете, с одной стороны, значительно снизить нагрузку на сайт со стороны роботов, а с другой стороны, ускорить процесс скачивания, запретив обход ненужных страниц.
К таким ненужным страницам относятся скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и т.д., формы заказа и корзина со всеми шагами оформления покупки, функционал поиска, личный кабинет, админка.
Для большинства роботов также желательно отключить индексацию всех JS и CSS. Но для GoogleBot и Yandex такие файлы нужно оставить для индексирования, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования (пруф Google, пруф Яндекс).
Директивы robots.txt
Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. Однако не все поисковые системы и роботы поддерживают те или иные директивы. В связи с этим для нас полезнее будет знать не стандарт, а то, как руководствуются теми или иными директивы основные роботы.
Давайте рассмотрим по порядку.
User-agent
Это самая главная директива, определяющая для каких роботов далее следуют правила.
Для всех роботов:User-agent: *
Для конкретного бота:User-agent: GoogleBot
Обратите внимание, что в robots.txt не важен регистр символов. Т.е. юзер-агент для гугла можно с таким же успехом записать соледующим образом:user-agent: googlebot
Ниже приведена таблица основных юзер-агентов различных поисковых систем.
Бот | Функция |
---|---|
Googlebot | основной индексирующий робот Google |
Googlebot-News | Google Новости |
Googlebot-Image | Google Картинки |
Googlebot-Video | видео |
Mediapartners-Google | Google AdSense, Google Mobile AdSense |
Mediapartners | Google AdSense, Google Mobile AdSense |
AdsBot-Google | проверка качества целевой страницы |
AdsBot-Google-Mobile-Apps | Робот Google для приложений |
Яндекс | |
YandexBot | основной индексирующий робот Яндекса |
YandexImages | Яндекс.Картинки |
YandexVideo | Яндекс.Видео |
YandexMedia | мультимедийные данные |
YandexBlogs | робот поиска по блогам |
YandexAddurl | робот, обращающийся к странице при добавлении ее через форму «Добавить URL» |
YandexFavicons | робот, индексирующий пиктограммы сайтов (favicons) |
YandexDirect | Яндекс.Директ |
YandexMetrika | Яндекс.Метрика |
YandexCatalog | Яндекс.Каталог |
YandexNews | Яндекс.Новости |
YandexImageResizer | робот мобильных сервисов |
Bing | |
Bingbot | основной индексирующий робот Bing |
Yahoo! | |
Slurp | основной индексирующий робот Yahoo! |
Mail.Ru | |
Mail.Ru | основной индексирующий робот Mail.Ru |
Rambler | |
StackRambler | Ранее основной индексирующий робот Rambler. Однако с 23.06.11 Rambler перестает поддерживать собственную поисковую систему и теперь использует на своих сервисах технологию Яндекса. Более не актуально. |
Disallow и Allow
Disallow закрывает от индексирования страницы и разделы сайта.
Allow принудительно открывает для индексирования страницы и разделы сайта.
Но здесь не все так просто.
Во-первых, нужно знать дополнительные операторы и понимать, как они используются — это *, $ и #.
* — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.
Примеры использования:
Disallow: *?s=
Disallow: /category/$
Следующие ссылки будут закрыты от индексации:
http://site.ru/?s=
http://site.ru/?s=keyword
http://site.ru/page/?s=keyword
http://site.ru/category/
Следующие ссылки будут открыты для индексации:
http://site.ru/category/cat1/
http://site.ru/category-folder/
Во-вторых, нужно понимать, каким образом выполняются вложенные правила.
Помните, что порядок записи директив не важен. Наследование правил, что открыть или закрыть от индексации определяется по тому, какие директории указаны. Разберем на примере.
Allow: *.css
Disallow: /template/
http://site.ru/template/ — закрыто от индексирования
http://site.ru/template/style.css — закрыто от индексирования
http://site.ru/style.css — открыто для индексирования
http://site.ru/theme/style.css — открыто для индексирования
Если нужно, чтобы все файлы .css были открыты для индексирования придется это дополнительно прописать для каждой из закрытых папок. В нашем случае:
Allow: *.css
Allow: /template/*.css
Disallow: /template/
Повторюсь, порядок директив не важен.
Sitemap
Директива для указания пути к XML-файлу Sitemap. URL-адрес прописывается так же, как в адресной строке.
Например,
Sitemap: http://site.ru/sitemap.xml
Директива Sitemap указывается в любом месте файла robots.txt без привязки к конкретному user-agent. Можно указать несколько правил Sitemap.
Host
Директива для указания главного зеркала сайта (в большинстве случаев: с www или без www). Обратите внимание, что главное зеркало указывается БЕЗ http://, но С https://. Также если необходимо, то указывается порт.
Директива поддерживается только ботами Яндекса и Mail.Ru. Другими роботами, в частности GoogleBot, команда не будет учтена. Host прописывается только один раз!
Пример 1:Host: site.ru
Пример 2:Host: https://site.ru
Crawl-delay
Директива для установления интервала времени между скачиванием роботом страниц сайта. Поддерживается роботами Яндекса, Mail.Ru, Bing, Yahoo. Значение может устанавливаться в целых или дробных единицах (разделитель — точка), время в секундах.
Пример 1:Crawl-delay: 3
Пример 2:Crawl-delay: 0.5
Если сайт имеет небольшую нагрузку, то необходимости устанавливать такое правило нет. Однако если индексация страниц роботом приводит к тому, что сайт превышает лимиты или испытывает значительные нагрузки вплоть до перебоев работы сервера, то эта директива поможет снизить нагрузку.
Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений — 0.1, 0.2, 0.5 — и постепенно их увеличивать. Для роботов поисковых систем, имеющих меньшее значение для результатов продвижения, таких как Mail.Ru, Bing и Yahoo можно изначально установить бо́льшие значения, чем для роботов Яндекса.
Clean-param
Это правило сообщает краулеру, что URL-адреса с указанными параметрами не нужно индексировать. Для правила указывается два аргумента: параметр и URL раздела. Директива поддерживается Яндексом.
Пример 1:
Clean-param: author_id http://site.ru/articles/
http://site.ru/articles/?author_id=267539 — индексироваться не будет
Пример 2:
Clean-param: author_id&sid http://site.ru/articles/
http://site.ru/articles/?author_id=267539&sid=0995823627 — индексироваться не будет
Яндекс также рекомендует использовать эту директиву для того, чтобы не учитывались UTM-метки и идентификаторы сессий. Пример:
Clean-Param: utm_source&utm_medium&utm_campaign
Другие параметры
В расширенной спецификации robots.txt можно найти еще параметры Request-rate и Visit-time. Однако они на данный момент не поддерживаются ведущими поисковыми системами.
Смысл директив:
Request-rate: 1/5 — загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 — загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.
Закрывающий robots.txt
Если вам нужно настроить, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать следующие директивы:
User-agent: * Disallow: /
Проверьте, чтобы на тестовых площадках вашего сайта были прописаны эти директивы.
Правильная настройка robots.txt
Для России и стран СНГ, где доля Яндекса ощутима, следует прописывать директивы для всех роботов и отдельно для Яндекса и Google.
Чтобы правильно настроить robots.txt воспользуйтесь следующим алгоритмом:
- Закройте от индексирования админку сайта
- Закройте от индексирования личный кабинет, авторизацию, регистрацию
- Закройте от индексирования корзину, формы заказа, данные по доставке и заказам
- Закройте от индексирования ajax, json-скрипты
- Закройте от индексирования папку cgi
- Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google
- Закройте от индексирования функционал поиска
- Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов)
- Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS)
- Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения
- Закройте от индексирования страницы с параметрами UTM-меток и сессий
- Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
- Укажите Sitemap и Host
- По необходимости пропишите Crawl-Delay и Clean-Param
- Проверьте корректность robots.txt через инструменты Google и Яндекса (описано ниже)
- Через 2 недели перепроверьте, появились ли в поисковой выдаче новые страницы, которые не должны индексироваться. В случае необходимости повторить выше перечисленные шаги.
Пример robots.txt
# Пример файла robots.txt для настройки гипотетического сайта https://site.ru User-agent: * Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Crawl-Delay: 5 User-agent: GoogleBot Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Disallow: *utm= Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/*.jpg Allow: /plugins/*.gif User-agent: Yandex Disallow: /admin/ Disallow: /plugins/ Disallow: /search/ Disallow: /cart/ Disallow: */?s= Disallow: *sort= Disallow: *view= Allow: /plugins/*.css Allow: /plugins/*.js Allow: /plugins/*.png Allow: /plugins/*.jpg Allow: /plugins/*.gif Clean-Param: utm_source&utm_medium&utm_campaign Crawl-Delay: 0.5 Sitemap: https://site.ru/sitemap.xml Host: https://site.ru
Как добавить и где находится robots.txt
После того как вы создали файл robots.txt, его необходимо разместить на вашем сайте по адресу site.ru/robots.txt — т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt
Как проверить robots.txt
Проверка robots.txt осуществляется по следующим ссылкам:
Типичные ошибки в robots.txt
В конце статьи приведу несколько типичных ошибок файла robots.txt
- robots.txt отсутствует
- в robots.txt сайт закрыт от индексирования (Disallow: /)
- в файле присутствуют лишь самые основные директивы, нет детальной проработки файла
- в файле не закрыты от индексирования страницы с UTM-метками и идентификаторами сессий
- в файле указаны только директивы
Allow: *.css
Allow: *.js
Allow: *.png
Allow: *.jpg
Allow: *.gif
при этом файлы css, js, png, jpg, gif закрыты другими директивами в ряде директорий - директива Host прописана несколько раз
- в Host не указан протокол https
- путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта
P.S.
Если у вас есть дополнения к статье или вопросы, пишите ниже в комментариях.
Если у вас сайт на CMS WordPress, вам будет полезна статья «Как настроить правильный robots.txt для WordPress».
P.S.2
Полезное видео от Яндекса (Внимание! Некоторые рекомендации подходят только для Яндекса).
Устраняем проблему «Googlebot не может получить доступ к файлам CSS и JS на сайте» — инструкция
Несколько дней назад, очень большое количество сайтов получили письмо в панели Google Search Console (Google Webmasters) со следующей проблемой: «Googlebot не может получить доступ к файлам CSS и JS на сайте …» (англ. «Googlebot cannot access CSS and JS files on …»).
Поскольку Google пишет, что сайт может потерять позиции, при условии дальнейшей блокировки этих ресурсов сайта, то необходимо прислушаться к этой рекомендации и открыть все запрашиваемые для индексации файлы для поискового робота Google.
Кроме этого, про эту проблему четко написано в справке Google https://support.google.com/webmasters/answer/35769?hl=ru#technical_guidelines
Поэтому, давайте рассмотрим детальную инструкцию как устранить данную проблему.
1. Определяем какие ресурсы нужно открыть для индексации
Для выполнение данного пункта мы заходим в Google Search Console https://www.google.com/webmasters/tools/home?hl=ru и выбираем нужный сайт.
После этого, нажимаем на вкладку «Сканирование» и «Посмотреть как Googlebot»
и нажимаем «ПОЛУЧИТЬ И ОТОБРАЗИТЬ»
И переходим на последнюю строчку с результатами сканирования
В результате мы получаем:
— отображение того как сейчас видит поисковый робот Google и как эту же страницу увидят пользователи сайта
— список ресурсов с причиной по которой Googlebot не может получить доступ и, соответственно, которые нужно открыть для индексации:
2. Получаем строки для добавления в свой robots.txt
Копируем полученную таблицу, вставляем (с использованием функции вставки без форматирования) данную таблицу в Excel и делаем сортировку по колонке с URL.
Через «Найти и заменить» удаляем домен из URL и выделяем уникальные папки (или в некоторых случаях папку + определенный тип файлов), которые необходимо открыть для индексации.
Через данную функции добавляем разрешающую команду индексации =CONCATENATE(«Allow: «;A2) (или =СЦЕПИТЬ(«Allow: «;A2) ) и, в итоге, получаем строки которые нужно добавить в роботс:
3. Проверяем свой роботс.тхт с обновленными инструкциями
Перед заливкой нового robots.txt нужно проверить созданные инструкции на ошибки и все ли файлы мы открыли. Для этого лучше всего воспользоваться сервисом проверки роботса от Яндекса https://webmaster.yandex.ua/robots.xml, так как там сразу можно указать список адресов, которые нужно проверить:
Если вы всё правильно сделали, то получите уведомление, что все нужные ресурсы открыть для индексации:
Если все нормально, то обновляем свой файл на сервере.
4. Повторяем итерации 1-3, пока есть заблокированные ресурсы
Как оказалось, Google сразу отображает НЕ ВСЕ ресурсы которые нужно открыть для индексации.
При повторной проверке, мы можем получить такую картину:
Где видим, что для индексации нужно открыть еще и изображения. Поэтому, повторяем пункты 2. и 3. для новых ресурсов.
В итоге, мы должны получить нормальное отображение сайта для Googlebot’а:
Единственный нюанс, что в списке ресурсов могут оказаться файлы к которым Гугл не может получить доступ:
5. Проверяем доступность всех ресурсов для Mobile: smartphone
После этого, также делаем проверку на доступность всех ресурсов и для Mobile: smartphone – робота: для этого при проверке выбираем соответствующее значение и нажимаем «Получить и отобразить».
На данном сайте и для мобильного бота все ресурсы оказались доступны, поэтому, дополнительных действий не нужно было проводить.
Примеры что нужно добавить для стандартных движков:
WordPress
Allow: /wp-content/themes/*.css
Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css
Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js
Allow: /wp-includes/css/
Allow: /wp-includes/js/
Allow: /wp-includes/images/
Универсальное решение для всех CMS
Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png
Joomla
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /components/*.css
Allow: /components/*.js
Allow: /media/*.js
Allow: /media/*.css
Allow: /plugins/*.css
Allow: /plugins/*.js
DLE
Allow: /engine/classes/*.css
Allow: /engine/classes/*.js
Allow: /templates/Название шаблона/style/*.css
Allow: /templates/Название шаблона/js/*.js
Заключение
В данной статье мы постарались максимально подробно расписать как исправить ошибку «Googlebot не может получить доступ к файлам CSS и JS на сайте …».
Поэтому, если вы получили данное уведомление от Google, рекомендуем прислушаться к этим рекомендациям и открыть необходимые файлы для индексации.
PS: Если у вас возникли трудности, то задавайте в комментариях будем помогать с решением уникальных проблем.
Оцените статью
Загрузка…Отправить обновленный файл Robots.txt в Google
Чтобы обновить правила в существующем файле robots.txt, загрузите копию файла robots.txt. со своего сайта и внесите необходимые правки.
Загрузите файл robots.txt
Вы можете загрузить свой файл robots.txt разными способами, например:
Отредактируйте файл robots.txt
Откройте файл robots.txt, который вы загрузили со своего сайта, в текстовом редакторе и сделайте необходимые правки в правила.Убедитесь, что вы используете правильный синтаксис и что вы сохраняете файл в кодировке UTF-8.
Загрузите файл robots.txt
Загрузите новый файл robots.txt в корень своего домена в виде текстового файла с именем robots.txt. Способ загрузки файла на свой сайт сильно зависит от платформы и сервера. Ознакомьтесь с нашими советы по поиску помощи с загрузка файла robots.txt на ваш сайт.
Если у вас нет разрешения на загрузку файлов в корень вашего домена, свяжитесь с менеджером домена, чтобы внести изменения.
Например, если главная страница вашего сайта находится в subdomain.example.com/site/example/
, вы, вероятно, не сможете обновить robots.txt
файл по адресу subdomain.example.com/robots.txt
. В этом случае обратитесь в
владелец example.com/
, чтобы внести необходимые изменения в файл robots.txt.
Обновить кеш файла robots.txt Google
Во время автоматического сканирования сканеры Google замечают изменения, внесенные вами в свой роботы.txt и обновляйте кешированную версию каждые 24 часа. Если вам нужно обновить кэшировать быстрее, используйте функцию Submit robots.txt Тестер .
- Нажмите Просмотреть загруженную версию , чтобы увидеть, что это ваша действующая версия robots.txt. что вы хотите, чтобы Google сканировал.
- Нажмите Отправить , чтобы уведомить Google об изменениях, внесенных в ваш robots.txt и попросите Google просканировать его.
- Убедитесь, что ваша последняя версия была успешно просканирована Google, обновив страницу в ваш браузер, чтобы обновить редактор инструмента и увидеть ваш действующий код robots.txt. После тебя обновите страницу, вы также можете щелкнуть раскрывающийся список, чтобы просмотреть отметка времени, когда Google впервые увидел последнюю версию вашего robots.txt файл.
Как исправить «проиндексировано, но заблокировано файлом robots.txt» в GSC
«Проиндексировано, но заблокировано роботами.txt »отображается в Google Search Console (GSC), когда Google проиндексировал URL-адреса, сканирование которых им запрещено.
В большинстве случаев это простая проблема, когда вы блокируете сканирование в своем файле robots.txt. Но есть несколько дополнительных условий, которые могут вызвать проблему, поэтому давайте рассмотрим следующий процесс устранения неполадок, чтобы диагностировать и исправить ситуацию как можно более эффективно:
Как видите, первый шаг — спросить себя, хотите ли вы, чтобы Google индексировал URL-адрес.
Если вы не хотите, чтобы URL индексировался…
Просто добавьте метатег noindex для роботов и убедитесь, что сканирование разрешено, если он канонический.
Если вы заблокируете сканирование страницы, Google все равно сможет проиндексировать ее, потому что сканирование и индексирование — это разные вещи. Если Google не сможет просканировать страницу, они не увидят метатег noindex и все равно могут его проиндексировать, потому что на нем есть ссылки.
Если URL-адрес канонизируется на другую страницу, не добавляйте метатег noindex для роботов. Просто убедитесь, что есть правильные сигналы канонизации, включая канонический тег на канонической странице, и разрешите сканирование, чтобы сигналы проходили и правильно объединялись.
Если вы действительно хотите проиндексировать URL…
Вам нужно выяснить, почему Google не может сканировать URL и снять блокировку.
Наиболее вероятная причина — блокировка сканирования в robots.txt. Но есть несколько других сценариев, при которых вы можете увидеть сообщения о том, что вы заблокированы. Давайте рассмотрим их в том порядке, в котором вы, вероятно, должны их искать.
- Проверить наличие блока сканирования в robots.txt
- Проверить прерывистые блоки
- Проверить блок пользовательского агента
- Проверить блок IP
Проверить наличие блока сканирования в robots.txt
Самый простой способ увидеть проблему — использовать тестер robots.txt в GSC, который пометит правило блокировки.
Если вы знаете, что ищете, или у вас нет доступа к GSC, вы можете перейти по адресу domain.com/robots.txt, чтобы найти файл. У нас есть дополнительная информация в нашей статье robots.txt, но вы, вероятно, ищете оператор запрета, например:
Disallow: /
. Может быть упомянут конкретный пользовательский агент или он может заблокировать всех. Если ваш сайт новый или недавно был запущен, вы можете поискать:
User-agent: *
Disallow: /
Не можете найти проблему?
Возможно, кто-то уже починил роботов.txt и решил проблему, прежде чем приступить к ее рассмотрению. Это лучший сценарий. Однако, если проблема, кажется, решена, но появляется снова вскоре после этого, у вас может быть периодическая блокировка.
Как исправить
Вам нужно удалить оператор disallow, вызывающий блокировку. То, как вы это делаете, зависит от используемой вами технологии.
WordPress
Если проблема затрагивает весь ваш веб-сайт, наиболее вероятной причиной является то, что вы проверили настройку в WordPress, запрещающую индексацию.Эта ошибка часто встречается на новых веб-сайтах и после миграции веб-сайтов. Чтобы проверить это, выполните следующие действия:
- Нажмите «Настройки»
- Нажмите «Чтение»
- Убедитесь, что флажок «Видимость в поисковых системах» снят.
WordPress с Yoast
Если вы используете плагин Yoast SEO, вы можете напрямую отредактировать файл robots.txt, чтобы удалить оператор блокировки.
- Нажмите «Yoast SEO»
- Нажмите «Инструменты»
- Нажмите «Редактор файлов»
WordPress с Rank Math
Подобно Yoast, Rank Math позволяет редактировать роботов.txt напрямую.
- Нажмите «Rank Math»
- Нажмите «Общие настройки»
- Нажмите «Изменить robots.txt»
FTP или хостинг
Если у вас есть FTP-доступ к сайту, вы можете напрямую редактировать файл robots.txt , чтобы удалить оператор запрета, вызывающий проблему. Ваш хостинг-провайдер также может предоставить вам доступ к файловому менеджеру, который позволяет напрямую обращаться к файлу robots.txt.
Проверка на наличие прерывистых блоков
Прерывистые проблемы может быть труднее устранить, поскольку условия, вызывающие блокировку, могут не всегда присутствовать.
Я бы порекомендовал проверить историю вашего файла robots.txt. Например, в тестере GSC robots.txt, если вы нажмете раскрывающийся список, вы увидите предыдущие версии файла, на которые вы можете нажать и посмотреть, что они содержат.
У Wayback Machine на archive.org также есть история файлов robots.txt для веб-сайтов, которые они сканируют. Вы можете щелкнуть любую дату, по которой у них есть данные, и посмотреть, что файл был включен в этот конкретный день.
Или используйте бета-версию отчета об изменениях, которая позволяет легко видеть изменения содержимого между двумя разными версиями.
Как исправить
Процесс исправления прерывистых блоков будет зависеть от того, что вызывает проблему. Например, одной из возможных причин может быть общий кеш между тестовой средой и живой средой. Когда кеш из тестовой среды активен, файл robots.txt может включать директиву блокировки. А когда кеш из живой среды активен, сайт может сканировать. В этом случае вы захотите разделить кеш или, возможно, исключить файлы .txt из кеша в тестовой среде.
Проверка блоков пользовательского агента
Блокировка пользовательского агента — это когда сайт блокирует определенный пользовательский агент, такой как Googlebot или AhrefsBot. Другими словами, сайт определяет конкретного бота и блокирует соответствующий пользовательский агент.
Если вы можете нормально просматривать страницу в своем обычном браузере, но заблокированы после смены пользовательского агента, это означает, что указанный вами пользовательский агент заблокирован.
Вы можете указать конкретный пользовательский агент с помощью инструментов разработчика Chrome. Другой вариант — использовать расширение браузера для смены пользовательских агентов, подобных этому.
Кроме того, вы можете проверить блоки пользовательского агента с помощью команды cURL. Вот как это сделать в Windows:
- Нажмите Windows + R, чтобы открыть окно «Выполнить».
- Введите «cmd» и нажмите «ОК».
- Введите команду cURL следующим образом:
curl -A «имя-агента-пользователя-здесь» -Lv [URL]
curl -A «Mozilla / 5.0 (совместимый; AhrefsBot / 7.0; + http: // ahrefs .com / robot /) »-Lv https://ahrefs.com
Как исправить
К сожалению, это еще один случай, когда знание того, как его исправить, будет зависеть от того, где вы найдете блок.Многие разные системы могут блокировать бота, включая .htaccess, конфигурацию сервера, брандмауэры, CDN или даже что-то, что вы не можете видеть, что контролирует ваш хостинг-провайдер. Лучше всего связаться с вашим хостинг-провайдером или CDN и спросить их, откуда исходит блок и как вы можете его решить.
Например, вот два разных способа заблокировать пользовательский агент в .htaccess, которые вам, возможно, придется искать.
RewriteEngine на
RewriteCond% {HTTP_USER_AGENT} Googlebot [NC]
RewriteRule.* - [F, L]
Или…
BrowserMatchNoCase "Googlebot" боты
Разрешить, запретить
Разрешить со ВСЕХ
Запретить от env = bots
Проверить блоки IP
Если вы подтвердили, что нет заблокирован файлом robots.txt и исключен блокировкой пользовательского агента, то, скорее всего, это блокировка IP.
Как исправить
IP-блоков сложно отследить. Как и в случае с блокировкой пользовательского агента, лучше всего связаться с вашим хостинг-провайдером или CDN и спросить их, откуда исходит блок и как вы можете его решить.
Вот один пример того, что вы можете искать в .htaccess:
deny from 123.123.123.123
Заключительные мысли
В большинстве случаев предупреждение «проиндексировано, но заблокировано robots.txt» возникает из блок robots.txt. Надеюсь, это руководство помогло вам найти и исправить проблему, если это не ваш случай.
Есть вопросы? Дайте мне знать в Твиттере.
Как я могу принудительно переиндексировать некорректную страницу robots.txt с помощью Google Search Console?
Моя проблема
Итак, я недавно совершил довольно большую ошибку с моими роботами .txt
файл. Я добавил в строку, чтобы файлы данных не читались с намерением предотвратить сканирование файлов данных блога .txt
:
Disallow: * .txt $
Оглядываясь назад, я должен был сначала включить каталог:
Запретить: /blog/posts/*.txt$
Но, поскольку я не смог этого сделать, Google теперь не может сканировать мой файл robots.txt
.
Я исправил файл, но не могу заставить Google Search Console переиндексировать файл, так как он все еще считает, что это не разрешено.
Что я пробовал
- Я попытался загрузить файл
/robots.txt
в GSC и вручную переиндексировать, но без кубиков. Единственная информация, которую он мне дает, это то, что это « не разрешено robots.txt » - Я попытался удалить файл
robots.txt
с сайта, вручную переиндексируя в GSC в надежде, что он поймет, что он исчез, и сбросит или что-то в этом роде. Тем не менее, ничего, все еще сказал, что действие было « не разрешено роботами.txt « - Я также пробовал использовать инструмент тестера robots.txt , но поскольку он работает только с URL-Prefix Properties , а это свойство домена , оно не будет отображаться в списке доступных сайтов для тестирования. Если кто-то знает, как я могу использовать этот инструмент независимо (или временно преобразовать мое свойство в свойство URL-префикса ), это все равно может быть решением.
Моя цель
Очень хотелось бы как-нибудь сбросить свои роботы .txt
в индексе GSC. Будем очень признательны за любые предложения.
Надеюсь, я достаточно ясно описал проблему. Если вам нужна дополнительная информация или контекст, дайте мне знать, и я буду более чем счастлив обновить сообщение.
Спасибо!
Google прекращает поддержку директивы noindex в robots.txt
С 1 сентября Google прекратит поддержку неподдерживаемых и неопубликованных правил в эксклюзивном протоколе для роботов, сообщила компания в блоге Google для веб-мастеров.Это означает, что Google больше не будет поддерживать файлы robots.txt с директивой noindex, указанной в файле.
«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим выпускам с открытым исходным кодом 1 сентября 2019 г. мы прекращаем использование всего кода, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex). Для тех из вас, кто полагался на Директива индексирования noindex в файле robots.txt, который контролирует сканирование, существует ряд альтернативных вариантов », — заявили в компании.
Какие есть альтернативы? Google перечислил следующие варианты, которые вам, вероятно, и так следовало использовать:
(1) Noindex в метатегах robots. Директива noindex, поддерживаемая как в заголовках ответов HTTP, так и в HTML, является наиболее эффективным способом удаления URL-адресов из индекса, когда сканирование разрешено. Коды статуса HTTP
(2) 404 и 410: оба кода статуса означают, что страница не существует, поэтому такие URL будут удалены из индекса Google после их сканирования и обработки.
(3) Защита паролем: если разметка не используется для обозначения подписки или платного контента, скрытие страницы за логином обычно удаляет ее из индекса Google.
(4) Запретить в robots.txt: поисковые системы могут индексировать только те страницы, о которых они знают, поэтому блокировка страницы от сканирования часто означает, что ее содержание не будет проиндексировано. Хотя поисковая система также может индексировать URL-адрес на основе ссылок с других страниц, не видя самого контента, мы стремимся сделать такие страницы менее заметными в будущем.
(5) Инструмент удаления URL в Search Console. Этот инструмент представляет собой быстрый и простой метод временного удаления URL из результатов поиска Google.
Становясь стандартом. Вчера Google объявил, что компания работает над тем, чтобы сделать протокол исключения роботов стандартом, и это, вероятно, первое грядущее изменение. Фактически, вчера вместе с этим объявлением Google выпустила свой парсер robots.txt как проект с открытым исходным кодом.
Почему Google меняется сейчас. Google много лет стремился изменить это, и теперь со стандартизацией протокола он может двигаться вперед. Google заявил, что «проанализировал использование правил robots.txt». Google уделяет особое внимание неподдерживаемым реализациям интернет-проекта, таким как задержка сканирования, nofollow и noindex. «Поскольку эти правила никогда не были задокументированы Google, естественно, их использование по отношению к Googlebot очень мало», — сказал Google. «Эти ошибки наносят ущерб присутствию веб-сайтов в результатах поиска Google так, как мы не думаем, что веб-мастера предполагали.”
Почему нам не все равно. Самое важное — убедиться, что вы не используете директиву noindex в файле robots.txt. Если да, то вы захотите внести предложенные выше изменения до 1 сентября. Также посмотрите, используете ли вы команды nofollow или crawl-delay, и если да, то постарайтесь использовать истинно поддерживаемый метод для этих директив в будущем.
Об авторе
Барри Шварц, редактор-исполнитель Search Engine Land и член команды программистов SMX-мероприятий.Ему принадлежит RustyBrick, консалтинговая компания из Нью-Йорка. Он также ведет Search Engine Roundtable, популярный поисковый блог по очень продвинутым темам SEM. Личный блог Барри называется Cartoon Barry, за ним можно следить в Twitter.googlebot — Кеширует ли Google robots.txt?
googlebot — Кеширует ли Google robots.txt? — Обмен стеками веб-мастеровСеть обмена стеков
Сеть Stack Exchange состоит из 178 сообществ вопросов и ответов, включая Stack Overflow, крупнейшее и пользующееся наибольшим доверием онлайн-сообщество, где разработчики могут учиться, делиться своими знаниями и строить свою карьеру.
Посетить Stack Exchange- 0
- +0
- Авторизоваться Подписаться
Webmasters Stack Exchange — это сайт вопросов и ответов для профессиональных веб-мастеров.Регистрация займет всего минуту.
Зарегистрируйтесь, чтобы присоединиться к этому сообществуКто угодно может задать вопрос
Кто угодно может ответить
Лучшие ответы голосуются и поднимаются наверх
Спросил
Просмотрено 9к раз
Я добавил роботов.txt на один из моих сайтов неделю назад, что должно было помешать роботу Googlebot получить определенные URL-адреса. Однако в эти выходные я могу увидеть, как робот Googlebot загружает именно эти URL-адреса.
Кэширует ли Google robots.txt , и если да, то нужно ли?
unor21.2k33 золотых знака4343 серебряных знака111111 бронзовых знаков
Создан 15 авг.
QuogQuog34122 серебряных знака66 бронзовых знаков
Я настоятельно рекомендую зарегистрировать ваш сайт в Google Search Console (ранее Google Webmaster Tools).В разделе конфигурации сайта есть раздел доступа для сканера, который сообщит вам, когда ваш файл robots.txt был загружен в последний раз. Инструмент также предоставляет множество деталей о том, как сканеры видят ваш сайт, что заблокировано или не работает, и где вы появляетесь в запросах в Google.
Насколько я могу судить, Google часто загружает файл robots.txt . Сайт Google Search Console также позволит вам специально удалять URL-адреса из индекса, чтобы вы могли удалить те, которые сейчас блокируете.
Эндрю Лотт5,77433 золотых знака1919 серебряных знаков4141 бронзовый знак
Создан 15 авг.
Данивович36633 серебряных знака66 бронзовых знаков
2Настойчиво.Я перешел с robots.txt на мета noindex, nofollow. Чтобы мета заработала, необходимо сначала разблокировать заблокированные адреса в robots.txt.
Я сделал это жестоко, полностью удалив robots.txt (и убрав его в веб-мастере Google).
Процесс удаления robots.txt, показанный в инструменте для веб-мастеров (количество заблокированных страниц), занял 10 недель, из которых основная часть была удалена Google только в течение последних 2 недель.
Создан 15 ноя.
Аральд3122 бронзовых знака
1Да, очевидно, Google будет кэшировать роботов.txt — он не будет загружать его каждый раз, когда захочет просмотреть страницу. Я не знаю, как долго он его хранит в кеше. Однако, если у вас установлен длинный заголовок Expires, робот Google может оставить его намного дольше, чтобы проверить файл.
Другой проблемой может быть неправильно настроенный файл. В Инструментах для веб-мастеров, которые предлагает Данивович, есть чекер robots.txt . Он сообщит вам, какие типы страниц заблокированы, а какие нет.
Zistoloen9,99866 золотых знаков3232 серебряных знака5959 бронзовых знаков
Создан 16 авг.
НедовольныйКоза21.2k55 золотых знаков5151 серебряный знак9999 бронзовых знаков
2Документация Google заявляет, что они обычно кэшируют robots.txt в течение дня, но могут использовать его дольше, если они получат ошибки при попытке его обновления.
ZistoloenЗапрос robots.txt обычно кэшируется на срок до одного дня, но может храниться в кэше дольше в ситуациях, когда обновление кэшированной версии невозможно (например, из-за таймаутов или ошибок 5xx).Кешированный ответ может использоваться разными сканерами. Google может увеличивать или уменьшать время жизни кеша в зависимости от максимального возраста заголовков HTTP Cache-Control.
9,99866 золотых знаков3232 серебряных знака5959 бронзовых знаков
Создан 20 мая ’14 в 12: 492014-05-20 12:49
Стивен Остермиллер ♦ Стивен Остермиллер89.10k1515 золотых знаков121121 серебряный знак333333 бронзовых знака
Судя по тому, что я вижу в доступном для пользователя кеше, который они делают, вам нужно ввести URL-адрес вашего файла robots.txt в поиске Google, а затем щелкнуть маленькую зеленую стрелку раскрывающегося списка и нажать «кэшировано» (см. изображение ниже) это даст вам последнюю версию этой страницы с серверов Googles.
Zistoloen9,99866 золотых знаков3232 серебряных знака5959 бронзовых знаков
Создан 20 мая ’14 в 13: 242014-05-20 13:24
Сэм Сэм4,61033 золотых знака3232 серебряных знака5858 бронзовых знаков
Очень активный вопрос .Заработайте 10 репутации (не считая бонуса ассоциации), чтобы ответить на этот вопрос. Требование репутации помогает защитить этот вопрос от спама и отсутствия ответов. Webmasters Stack Exchange лучше всего работает с включенным JavaScriptВаша конфиденциальность
Нажимая «Принять все файлы cookie», вы соглашаетесь, что Stack Exchange может хранить файлы cookie на вашем устройстве и раскрывать информацию в соответствии с нашей Политикой в отношении файлов cookie.
Принимать все файлы cookie Настроить параметры
Файл Robots.txt создает проблемы для изображений Google Покупок
Вчера Google отправил электронное письмо о неудачных попытках сканирования изображений для продавцов, которые отправляют фид данных в Google Покупки, но также блокируют доступ робота googlebot к изображениям на своих сайтах.Вот как это читается:
Здравствуйте,
Благодарим вас за участие в Google Покупках. Мы обратили внимание на то, что файл robots.txt не позволяет нам сканировать некоторые или все изображения на вашем сайте. Чтобы мы могли получать доступ к изображениям, которые вы предоставляете в своих списках продуктов, и отображать их, мы хотели бы, чтобы вы изменили файл robots.txt, чтобы позволить агенту пользователя «googlebot» сканировать ваш сайт. Отсутствие доступа к вашим изображениям для Google может повлиять на видимость ваших товаров в Google Покупках и в результатах товарной рекламы.
Чтобы гарантировать, что робот Googlebot не блокируется, добавьте следующие две строки текста в конец файла robots.txt:
Агент пользователя: googlebot
Запрещено:
Для получения дополнительной информации о файлах robots.txt посетите http://www.robotstxt.org. Если у вас есть вопросы, обращайтесь напрямую к своему веб-мастеру.
С уважением,
Команда Google Product Search
Расплывчатое и несколько неоднозначное электронное письмо от Google отправляет продавцов на http: // www.robotstxt.org, где они могут самостоятельно фильтровать море информации о файлах robots.txt. Однако, что интересно, магазины Yahoo, которые размещают изображения в домене ep.yimg.com, по-видимому, являются основной целью недавней ошибки сканирования роботов Google, согласно сообщению atensoft в ветке справочного форума Google.
Похоже, это подлинное электронное письмо, и многие клиенты нашего магазина Yahoo также получили его. Похоже, это влияет на магазины, изображения которых размещены в Yahoo Store на EP.yimg.com домен.
Вот пример URL изображения:
http://ep.yimg.com/ca/I/yhst-65077491912261_2151_395Единственный файл роботов на этом сервере в любой из вышеупомянутых подпапок:
http://ep.yimg.com/ca/robots.txtФайл robots исключает каталог / I /, поэтому бот Google Product Search не сканирует изображения.
Однако, согласно http://www.robotstxt.org/robotstxt.html, файл robots.txt недействителен, если он не помещен в корень веб-сайта, например:
http: // ep.yimg.com/robots.txtИтак, у нас есть две проблемы:
1. Yahoo Store блокирует Google (и все остальные) от индексации изображений.
2. Google обрабатывает недопустимый файл robots.txt.Это вариант для продавцов Yahoo Store. Однако, если бы меня винили, я бы поставил это на Google за несоблюдение спецификации robots.txt. Я никогда не слышал, чтобы кто-нибудь и где-либо уважал robots.txt в подпапке.
Теперь, если кто-то скажет, что Google злонамеренно атакует Yahoo! Платформы магазинов могут быть немного натянутыми и, очевидно, чистой спекуляцией на данный момент, но это будет не первый случай, когда Google и Yahoo! не сходились во взглядах.Добавьте сюда растущую долю Bing на поисковом рынке США, и у нас есть рецепт длительного соперничества между двумя поисковыми гигантами.
Ниже приведены некоторые ссылки на недавние обсуждения от продавцов, получивших это письмо от Google Product Search.
Если вы недавно получили электронное письмо от Google относительно файла robots.txt, и хотите обсудить, что это означает для вашей кампании в Google Покупках, свяжитесь с нами по телефону .
роботов Google с открытым исходным кодом.txt, чтобы сделать протокол исключения роботов официальным стандартом
Присоединяйтесь к игровым лидерам онлайн на саммите GamesBeat Summit, который состоится 9-10 ноября. Узнайте больше о том, что будет дальше.
Google хочет превратить протокол исключения роботов (REP) десятилетней давности в официальный интернет-стандарт — и в рамках этой инициативы он создает собственный анализатор robots.txt с открытым исходным кодом.
REP, который был предложен в качестве стандарта голландским инженером-программистом Мартином Костером еще в 1994 году, в значительной степени стал стандартом , используемым веб-сайтами для указания автоматизированным поисковым роботам, какие части веб-сайта не должны обрабатываться.Сканер Googlebot, например, сканирует файл robots.txt при индексировании веб-сайтов, чтобы проверить наличие специальных инструкций о том, какие разделы ему следует игнорировать — и если такого файла нет в корневом каталоге, он будет считать, что сканирование разрешено (и index) весь сайт. Эти файлы не всегда используются для предоставления прямых инструкций сканирования, поскольку они также могут быть заполнены определенными ключевыми словами для улучшения поисковой оптимизации, среди других вариантов использования.
Стоит отметить, что не все сканеры уважают роботов.txt, при этом несколько лет назад Internet Archive решила воспользоваться поддержкой своего инструмента архивирования Wayback Machine, в то время как другие, более злонамеренные сканеры также предпочитают игнорировать REP.
Хотя REP часто называют «стандартом», на самом деле он так и не стал настоящим интернет-стандартом, как это определено Инженерной группой Интернета (IETF) — некоммерческой организацией открытого стандарта Интернета. И это то, что сейчас пытается изменить Google. В нем говорится, что REP в его нынешнем виде открыт для интерпретации и не всегда может охватывать то, что Google называет «сегодняшними угловыми случаями».”
Определение неопределенного
Все дело в том, чтобы лучше определить существующие «неопределенные сценарии» — например, как сканер должен обрабатывать сценарий отказа сервера, который делает файл robots.txt недоступным, если его содержимое уже известно из предыдущего сканирования? И как краулер должен относиться к правилу с опечаткой?
Но в файлах robots.txt также много опечаток. Большинство людей пропускают двоеточия в правилах, а некоторые ошибочно пишут их. Что должны делать сканеры с правилом «Dis Allow»? рис.twitter.com/nZEIyPYI9R
— Google Webmasters (@googlewmc) 1 июля 2019 г.
«Это серьезная проблема для владельцев веб-сайтов, потому что неоднозначный стандарт де-факто затрудняет правильное написание правил», — написал Google в своем блоге. «Мы хотели помочь владельцам веб-сайтов и разработчикам создавать удивительные возможности в Интернете, вместо того, чтобы беспокоиться о том, как управлять поисковыми роботами».
Google заявил, что он сотрудничал с первоначальным автором REP, Мартин Костером, а также с веб-мастерами и другими поисковыми системами, чтобы подать в IETF предложение, посвященное тому, «как REP используется в современной сети».”
Компания не опубликовала проект полностью, но в нем есть некоторые указания относительно некоторых областей, на которых она сосредоточена:
- Любой протокол передачи на основе URI может использовать robots.txt. Например, он больше не ограничивается HTTP и может использоваться также для FTP или CoAP.
- Разработчики должны проанализировать как минимум первые 500 кибибайт файла robots.txt. Определение максимального размера файла гарантирует, что соединения не будут открываться слишком долго, что снижает ненужную нагрузку на серверы.
- Новое максимальное время кеширования, равное 24 часам, или значение директивы кеширования, если доступно, дает владельцам веб-сайтов возможность обновлять свой файл robots.txt в любое время, а сканеры не перегружают веб-сайты запросами robots.txt. Например, в случае HTTP заголовки Cache-Control могут использоваться для определения времени кэширования.
- Спецификация теперь предусматривает, что когда ранее доступный файл robots.txt становится недоступным из-за сбоев сервера, известные запрещенные страницы не сканируются в течение достаточно длительного периода времени.
Здесь также стоит отметить, что сканеры могут по-разному интерпретировать инструкции, содержащиеся в файлах robots.txt, что может ввести в заблуждение владельцев веб-сайтов. Вот почему Google также поместил библиотеку C ++, которая лежит в основе систем синтаксического анализа и сопоставления Googlebot, на GitHub, чтобы любой мог получить к ней доступ. Согласно примечаниям к выпуску GitHub, Google хочет, чтобы разработчики создавали собственные парсеры, которые «лучше отражают синтаксический анализ и сопоставление файлов robots.txt Google».
VentureBeat
Миссия VentureBeat — стать цифровой городской площадью, где лица, принимающие технические решения, могут получить знания о преобразующих технологиях и транзакциях.На нашем сайте представлена важная информация о технологиях и стратегиях обработки данных, которая поможет вам руководить своей организацией. Мы приглашаем вас стать участником нашего сообщества, чтобы получить доступ:- актуальная информация по интересующим вас вопросам
- наши информационные бюллетени
- закрытый контент для лидеров мнений и доступ со скидкой к нашим призовым мероприятиям, таким как Transform 2021 : Подробнее
- сетевых функций и многое другое