Robots txt проверка google: Sorry, this page can’t be found. | Дропшиппинг

Содержание

Google обновил инструмент проверки файлов robots.txt

Google сообщил об обновлении инструмента проверки файла robots.txt в сервисе Webmaster Tools. Усовершенствованную версию инструмента можно найти в разделе «Сканирование:

«Файл robots.txt — один из ключевых компонентов поисковой оптимизации сайтов, однако иногда он приносит больше вреда, чем пользы. В частности, этот самый файл может блокировать для роботов поисковых систем обход (сканирование) важных страниц сайта. Кроме того, robots.txt может препятствовать индексированию сайта в целом», — пишет редактор издания Search Engine Journal Мэтт Саузерн (Matt Southern).

Целью обновления инструмента Google как раз таки и является упрощение обнаружения и исправления ошибок в файле robots.txt, а также облегчение поиска директив, блокирующих индивидуальные URL-адреса, внутри единого большого файла.

Возможности модернизированного инструмента

Новая версия инструмента тестирования файла robots.

txt в Google Webmaster Tools позволяет проверять новые URL-адреса на предмет их запрещённости к сканированию поисковыми роботами. Вебмастерам больше не придётся искать нужную строчку в длинном и сложном списке директив — инструмент сам подсветит указание для робота, нуждающееся в пересмотре и принятии окончательного решения.

Владельцы сайтов могут внести изменения в файл и тут же их протестировать: для этого надо всего-навсего загрузить обновлённую версию robots.txt на сервер.

Кроме того, модернизированная версия инструмента позволяет просматривать предыдущие версии файла robots.txt и проверять, когда и в связи с чем у сканирующих роботов Google возникли проблемы с доступом к определённым страницам сайта. По словам представителя команды Webmaster Tools Асафа Арнона (Asaph Arnon), Googlebot может взять паузу в сканировании сайта, если, к примеру, обнаружит внутреннюю ошибку сервера 500 для файла robots.txt.

Google советует дважды проверять файл robots.txt во избежание пропуска ошибок или важных предупреждений сервиса о нарушениях в сканировании и индексировании ресурса. Вебмастера также могут совмещать использование инструмента проверки файла robots.txt с другим функционалом Webmaster Tools: например, с обновлённым инструментом «Просмотреть как Googlebot», предоставляющим информацию об HTTP-ответе сервера, дате и времени сканирования, проблемах с доступом к картинкам, мобильному контенту, JavaScript и CSS файлам.

Как устранить проблему “Проиндексировано, несмотря на блокировку в файле robots.txt” в GSC

Предупреждение “Проиндексировано, несмотря на блокировку в файле robots.txt” отображается в Google Search Console (GSC), если Google проиндексировал URL-адрес, хотя его сканирование было заблокировано.

В большинстве случаев, если вы заблокировали сканирование в своем файле robots.txt, это является очевидной проблемой. Но есть несколько дополнительных условий, которые могут вызвать эту проблему, поэтому давайте рассмотрим следующий процесс устранения неполадок, который поможет выявлять и исправлять существующие проблемы как можно более эффективно.

Как видите, первым делом нужно спросить себя, хотите ли вы, чтобы Google индексировал URL-адрес.

Если вы не хотите, чтобы URL-адрес индексировался…

Просто добавьте атрибут noindex в метатег robots и убедитесь, что сканирование разрешено, если адрес каноничный.

Если вы заблокируете сканирование страницы, Google все равно сможет проиндексировать ее, потому что сканирование и индексирование — это разные процессы. Если Google не может сканировать страницу, они не увидят атрибут noindex в метатеге и все равно смогут проиндексировать страницу, если на ней есть ссылки.

Если URL-адрес каноникализируется на другую страницу, не добавляйте атрибут noindex в метатег robots. Просто убедитесь, что настроены правильные сигналы каноникализации, включая атрибут canonical на канонической странице, и разрешите сканирование, чтобы сигналы проходили и консолидировались правильно.

Если вы хотите, чтобы URL-адрес индексировался…

Вам нужно выяснить, почему Google не может просканировать URL-адрес и снять блокировку.

Наиболее вероятная причина — блокировка сканирования в robots.txt. Но есть несколько других сценариев, которые могут вызывать предупреждение о том, что вы заблокированы. Давайте рассмотрим их в том порядке, в котором вам, вероятно, стоит их искать.

Проверьте наличие блокировки сканирования в robots.txt
Проверьте наличие периодической блокировки
Проверьте наличие блокировки по user-agent
Проверьте наличие блокировки по IP-адресу

Проверьте наличие блокировки сканирования в robots.txt

Самый простой способ выявить эту проблему — использовать средство проверкиrobots.txt в GSC, которое покажет правило блокировки.

Если вы знаете, что ищете, или у вас нет доступа к GSC, вы можете перейти по адресу домен.com/robots.txt, чтобы найти файл. Дополнительную информацию вы можете найти в нашей статье о robots.txt, но вы, вероятно, ищете директиву disallow, например:

Disallow: /

Директива может блокировать какой-то конкретный или все user-agent. Если ваш сайт новый или был запущен недавно, вы можете поискать:

User-agent: *

Disallow: /

Не можете найти проблему?

Возможно, кто-то опередил вас и уже устранил блокировку robots.txt, чем и решил проблему. Это наилучший сценарий. Однако, если проблема выглядит исправленной, но появляется снова спустя какое-то время, возможно, вы испытываете проблемы из-за периодической блокировки.

Как это исправить

Вам нужно удалить директиву disallow, вызывающую блокировку. Способ исправления проблемы зависит от используемой вами технологии.

WordPress

Если проблема затрагивает весь ваш веб-сайт, наиболее вероятная причина в том, что вы включили параметр в WordPress, отвечающий за запрет индексации. Эта ошибка часто встречается на новых веб-сайтах и после проведения миграции. Выполните следующие действия, чтобы проверить это.

Нажмите “Настройки” (Settings)
Нажмите “Чтение” (Reading)
Снимите флажок “Видимость в поисковых системах” (Search Engine Visibility).

WordPress с Yoast

Если вы используете плагинYoast SEO, вы можете напрямую отредактировать файл robots.txt, чтобы удалить директиву блокировки.

Нажмите на Yoast SEO
Нажмите “Инструменты” (Tools)
Нажмите “Редактор файлов” (File editor)

WordPress с Rank Math

Как и Yoast, Rank Math позволяет напрямую редактировать файл robots.txt.

Нажмите на Rank Math
Нажмите “Общие настройки” (General Settings)
Нажмите “Редактировать robots.txt” (Edit robots.txt)

FTP или хостинг

Если у вас есть FTP-доступ к сайту, вы можете напрямую отредактировать файл robots.txt, чтобы удалить директиву disallow, вызывающий проблему. Ваш хостинг-провайдер также может предоставлять вам доступ к файловому менеджеру, с помощью которого вы можете напрямую обращаться к файлу robots.txt.

Проверьте наличие периодической блокировки

Периодические проблемы труднее устранить, поскольку условия, вызывающие блокировку, могут не присутствовать в момент проверки.

Я рекомендую проверить историю вашего файла robots.txt. Например, в средстве проверки robots.txt в GSC хранятся предыдущие версии файлов. Вы можете нажать на раскрывающийся список, выбрать версию и посмотреть ее содержимое.

У The Wayback Machine на archive.org также хранится история файлов robots.txt для веб-сайтов, которые они сканируют. Вы можете щелкнуть любую дату, по которой у них есть данные, и посмотреть, как выглядел файл в этот конкретный день.

Вы также можете воспользоваться бета-версией отчета “Изменения” (Changes), который позволяет легко просматривать изменения содержимого между двумя разными версиями файлов.

Как это исправить

Процесс исправления периодической блокировки будет зависеть от того, что вызывает проблему. Например, одной из возможных причин может быть общий кэш между тестовой средой и действующей средой. Файл robots.txt может содержать директиву блокировки, когда кэш используется тестовой средой. А когда кэш используется действующей средой, сайт может разрешать сканирование. В таком случае вы захотите разделить кэш или, возможно, исключить из кэша файлы з разрешением .TXT в тестовой среде.

Проверьте наличие блокировки по user-agent

Блокировка по user-agent — это блокировка, при которой сайт блокирует определенный user-agent, такого как Googlebot или AhrefsBot. Другими словами, сайт определяет конкретного бота и блокирует соответствующий user-agent.

Если вы можете просматривать страницу в своем обычном браузере, но блокируетесь после смены user-agent, это означает, что используемый вами user-agent заблокирован.

Вы можете задать конкретный user-agent с помощью инструментов разработчика Chrome. Еще один вариант — использовать расширение браузера для смены user-agent, подобное этому.

Кроме того, вы можете проверить блокировку по user-agent с помощью команды cURL. Вот как это сделать в Windows.

Нажмите клавиши Windows+R, чтобы открыть окно “Выполнить”.
Введите “cmd” и нажмите “ОК”.
Введите команду cURL, подобную этой:

curl -A “имя-user-agent -Lv [URL]
curl -A “Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)” -Lv https://ahrefs.com

Как это исправить

К сожалению, это еще один случай, когда процесс исправления будет зависеть от того, где вы найдете блокировку. Бота может блокировать множество разных систем, в том числе .htaccess, конфигурация сервера, брандмауэр, CDN или даже что-то, к чему вас нет доступа. Например то, что контролирует ваш хостинг-провайдер. Лучше всего будет обратиться к вашему хостинг-провайдеру или CDN и спросить их, откуда происходит блокировка и как вы можете устранить ее.

Например, вот два разных способа блокировки по user-agent в .htaccess, которые вам, возможно, придется искать.

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [NC]
RewriteRule .* - [F,L]

или…

BrowserMatchNoCase "Googlebot" bots

Order Allow,Deny

Allow from ALL

Deny from env=bots

Проверьте наличие блокировки по IP-адресу

Если вы подтвердили, что не заблокированы файлом robots.txt, и исключили блокировку по user-agent, то, скорее всего, это блокировка по IP-адресу.

Как это исправить

Блокировку по IP-адресу сложно отследить. Как и в случае с блокировкой по user-agent, лучше всего будет обратиться к вашему хостинг-провайдеру или CDN и спросить их, откуда происходит блокировка и как вы можете устранить ее.

Вот один пример того, что вы можете искать в .htaccess:

deny from 123.123.123.123

Заключение

В большинстве случаев предупреждение “Проиндексировано, несмотря на блокировку в файле robots.txt” является результатом блокировки в файле robots.txt. Надеюсь, это руководство помогло вам найти и исправить проблему.

Остались вопросы? Дайте знать в Twitter.

Перевела Олеся Коробка, владелец Fajela.com

Инструменты проверки файла robots.txt | www.wordpress-abc.ru

Вступление

Если у вас есть желание закрыть некоторые материалы своего сайта от поисковых и других ботов, используется три метода:

Во-первых, создаётся файл robots.txt в котором специальными записями закрываются/открываются части контента. Важно, что файл robots.txt запрещает роботам сканировать URL сайта;

Во-вторых, на HTML(XHTML) страницах или в HTTP заголовке прописывается мета–тег robots с атрибутами

noindex (не показывает страницу в поиске) и/или nofollow (не разрешает боту обходить ссылки страницы). Синтаксис мета тега robots:

<meta name="robots" content="noindex, nofollow" />

Важно, что мета–тег robots работает, если есть доступ ботов к сканированию страниц, где мета тег прописан. То есть они не закрыты файлом robots.txt.

В-третьих, можно создавать закрытые разделы сайта.

При составлении файла robots.txt полезно проверять правильность его составления. Для этого предлагаю посмотреть следующие инструменты проверки файла robots.txt.

Инструменты проверки файла robots.txt

Напомню, что в классическом варианте в файле robots.txt создаются отдельные директивы для агента пользователя Yandex (user-agent: yandex) и других поисковых ботов сети, включая Googleboot (user-agent: *).

Инструмент проверки №1

Google в возможностях Searh Console оставил инструмент проверки файла robots.txt. Вот ссылка на него:

https://www.google.com/webmasters/tools/robots-testing-tool

Вот скрин:

Для использования инструмента вам нужно зарегистрироваться инструментах веб–мастеров Google и добавить в них свой ресурс (сайт). Если вы всё это сделали, просто выберете сайт для проверки.

После выбора сайту откроется инструмент проверки файла robots.txt. Внизу читаем ошибки и предупреждения. Если их нет, то смотрим ещё ниже и видим сам инструмент проверки.

В форме проверки указываете проверяемый URL, выбираете бота Google (по умолчанию Googleboot) и жмёте кнопку «Проверить».

Результат проверки будет показан на этой же станице в виде зелёной надписи «Доступен» или красной надписи «Не доступен». Всё просто и понятно.

Инструмент проверки №2

По логике составления файла robots.txt о которой я напомнил выше, такой же инструмент проверки должен быть в веб–инструментах Яндекс для ботов Yandex. Смотрим. Действительно, в вашем аккаунте Яндекс Веб–мастер выбираете заранее добавленный ресурс (свой сайт).

В меню «Инструменты» есть вкладка «Анализ robots.txt», где проверяется весь файл robots на ошибки и проверяются отдельные URL сайта на закрытие в файле robots.

Независимые инструменты проверки файла robots.txt

Встаёт логичный вопрос, можно ли проверить файл robots.txt и его работу независимо от инструментов веб мастеров? Наверняка можно.

Во-первых, чтобы просмотреть доступность своего файла robots впишите в браузер его адрес. Он должен открыться и нормально читаться. Проверку можно сделать в нескольких браузерах.

Адрес файла должен быть:

http(s)://ваш_домен/robots.txt

Во-вторых, используйте для проверки файла следующие инструменты:

Websiteplanet.com

https://www.websiteplanet.com/ru/webtools/robots-txt/

Дотошный инструмент, выявляет ошибки и предупреждения, которые не показывают сами боты.

Seositecheckup.com

https://seositecheckup.com/tools/robotstxt-test

Англоязычный инструмент проверки файла robots.txt на ошибки. Регистрация не требуется. Хотя навязывается сервисом. Результаты в виде диаграммы.

Стоит отметить, что с июня сего года (2019) правила для составления файла robots.txt стали стандартом и распространяются на всех ботов. Так что выявленные ошибки для бота Google, будут ошибками и для бота Yandex.

Technicalseo.com

https://technicalseo.com/tools/robots-txt/

Протестируйте и подтвердите ваш robots.txt с помощью этого инструмента тестирования. Проверьте, заблокирован ли URL-адрес, какой оператор его блокирует и для какого агента пользователя. Вы также можете проверить, запрещены ли ресурсы для страницы (CSS, JavaScript, IMG).

en.ryte.com

https://en.ryte.com/free-tools/robots-txt/

Просто вписывает адрес своего файла и делаете проверку. Показывает предупреждения по синтаксису файла.

Вывод про инструменты проверки файла robots.txt

По-моему, лучшие инструменты проверки файла robots.txt находятся в инструментах веб–мастеров. Они ближе к источнику и более чувствительны к изменениям правил.

Кстати, есть проверка файла robots.txt в инструментах веб–мастеров Mail поисковика (https://webmaster.mail.ru/) и была у поисковика Bing.

Еще статьи

правила обработки директив, какие директивы не используются в Google и зачем нужны Disallow и Crawl-delay — Пиксель Тулс

1 сентября 2019 года Google прекратит поддержку нескольких директив в robots.txt. В список попали: noindex, crawl-delay и nofollow. Вместо них рекомендуется использовать:

Мета-тег noindex, как наиболее эффективный способ удалить страницу из индекса.
404 и 410 коды ответа сервера. В ряде случаев, 410 отрабатывает значительно быстрей для удаления URL из индекса.
Защита паролем. Страницы, требующие авторизации, также обычно удаляются из индекса (важно — именно страницы, полностью скрытые под логином, а не часть контента).
Временное удаление страницы из индекса с помощью инструмента в Search Console.
Disallow в robots.txt.

Тем не менее, robots.txt по-прежнему остаётся одним из главных файлов для SEO-специалиста. Давайте вспомним самые полезные директивы от простых, до менее очевидных.

robots.txt

Это простой текстовый файл, который содержит инструкции для поисковых краулеров — какие страницы сайта не следует посещать, где лежит наш Sitemap.xml и для каких поисковых роботов распространяются правила.

Файл размещается в корневой директории сайта. Например:

Прежде чем начать сканирование сайта, краулеры проверяют наличие robots.txt и находят правила специфичные для их User-Agent, например Googlebot. Если таких нет — следуют общим инструкциям.

Действующие правила robots.txt

User-Agent

У каждой поисковой системы есть свои «агенты пользователя». По сути, это имя краулера, которое помогает дать определённые указания конкретному ему.

Если брать шире, то User-Agent — клиентское приложение на стороне поисковой системы, в некотором смысле имитирующее браузер или, например, мобильное устройство.

Примеры:

User-agent: * — символ астериск используются для обозначения сразу же всех краулеров.
User-agent: Yandex — основной краулер Яндекс-поиска.
User-agent: Google-Image — робот поиска Google по картинкам.
User-agent: AhrefsBot — краулер сервиса Ahrefs.

Важно: если в файле указаны правила для конкретных User-Agent, то роботы будут следовать только своим инструкциям, игнорируя общие правила.

В примере ниже краулер DuckDukcGo сможет сканировать папки сайта /api/ и /tmp/

, несмотря на астериск («звёздочку»), отвечающий за инструкции всем роботам.

    User-agent: *
    Disallow: /tmp/
    Disallow: /api/

    User-agent: DuckDuckBot
    Disallow: /duckhunt/

Disallow

Директива, которая позволяет блокировать от индексации полностью весь сайт или определённые разделы.

Может быть полезно для закрытия от сканирования служебных, динамических или временных страниц (символ # отвечает за комментарии в коде и игнорируется краулерами).

    User-agent: *

    # Закрываем раздел /cms и все файлы внутри

    Disallow: /cms

    # Закрываем папку /images/resized/ (сами изображения разрешены к сканированию)

    Disallow: /api/resized/

Упростить инструкции помогают операторы:

* — любая последовательность символов в URL. По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *.
$ — символ в конце URL-адреса, он используется чтобы отменить использование * на конце правила.

    User-agent: *

    # Закрываем URL, начинающиеся с /photo после домена. Например:
    #     /photos
    #     /photo/overview

    Disallow: /photo

    # Закрываем все URL, начинающиеся с /blog/ после домена и заканчивающиеся /stats/

    Disallow: /blog/*/stats$

Важно: в robots.txt не нужно закрывать JS и CSS-файлы, они понадобятся поисковым роботом для правильного отображения (рендеринга) контента.

Allow

С помощью этой директивы можно, напротив, разрешить каталог или конкретный адрес к индексации. В некоторых случаях проще запретить к сканированию весь сайт и с помощью Allow открыть нужные разделы.

    User-agent: *

    # Блокируем весь раздел /admin

    Disallow: /admin

    # Кроме файла /admin/css/style.css

    Allow: /admin/css/style.css

    # Открываем все файлы в папке /admin/js. Например:
    #     /admin/js/global.js
    #     /admin/js/ajax/update.js

    Allow: /admin/js/

Также Allow можно использовать для отдельных User-Agent.

    # Запрещаем доступ к сайту всем роботам

    User-agent: *
    Disallow: /

    # Кроме краулера Яндекса

    User-agent: Yandex
    Allow: /

Crawl-delay

Директива, теряющая актуальность в случае Goolge, но полезная для работы с другими поисковиками.

Позволяет замедлить сканирование, если сервер бывает перегружен. Устанавливает интервал времени для обхода страниц в секундах (для Яндекса). Чем выше значение, тем медленнее краулер ходит по сайту.

    User-agent: *
    Crawl-delay: 5

Несмотря на то, что Googlebot игнорирует подобные правила, настроить скорость сканирования можно в Google Search Console проекта.

Интересно, что китайский Baidu также не обращает внимание на Crawl-delay в robots.txt, а Bing воспринимает команду как «временное окно», в рамках которого BingBot будет сканировать сайт только один раз.

Важно: если установлено высокое значение Crawl-delay, убедитесь, что ваш сайт своевременно индексируется. В сутках 86 400 секунд, при Crawl-delay: 30 будет просканировано не более 2880 страниц в день, что мало для крупных сайтов.

Sitemap

Одно из ключевых применений robots.txt в SEO — указание на расположение карты сайты. Обратите внимание, используется полный URL-адрес (их может быть несколько).

    Sitemap: https://www.example.com/sitemap.xml
    Sitemap: https://www.example.com/blog-sitemap.xml

Нужно иметь в виду:

Директива Sitemap указывается с заглавной S.
Sitemap не зависит от инструкций User-Agent.
Нельзя использовать относительный адрес карты сайта, только полный URL.
Файл XML-карты сайта должен располагаться на том же домене.

Также убедитесь, что ссылка возвращает статус 200 OK без редиректов. Проверить можно с помощью инструмента, определяющего ответ сервера или анализа XML-карты сайта.

Типичный robots.txt

Ниже представлены простые и распространенные шаблоны команд для поисковых роботов.

Разрешить полный доступ

Обратите внимание, правило для Disallow в этом случае не заполняется.

Полная блокировка доступа к хосту

    User-agent: *
    Disallow: /

Запрет конкретного раздела сайта

    User-agent: *
    Disallow: /admin/

Запрет сканирования определенного файла

    User-agent: *
    Disallow: /admin/my-embarrassing-photo.png

Распространенная ошибка

Установка индивидуальных правил для User-Agent без дублирования инструкций Disallow.

Как мы уже выяснили, при указании директивы User-Agent, соответствующий краулер будет следовать только тем правилам, что установлены именно для него. Не забывайте дублировать общие директивы для всех User-Agent.

В примере ниже — слегка измененный robots.txt сайта IMDB. Общие правила Disallow не будут распространяться на бот ScoutJet. А вот Crawl-delay, напротив, установлена только для него.

    # отредактированная версия robots.txt сайта IMDB

    #
    # Задержка интервала сканирования для ScouJet
    #
    
    User-agent:ScouJet
    Crawl-delay: 3
    #
    #

    #
    # Все остальные
    #

    User-agent: *
    Disallow: /tvschedule
    Disallow: /ActorSearch
    Disallow: /ActressSearch
    Disallow: /AddRecommendation
    Disallow: /ads/
    Disallow: /AlternateVersions
    Disallow: /AName
    Disallow: /Awards
    Disallow: /BAgent
    Disallow: /Ballot/

    #
    #
    Sitemap: https://www.imdb.com/sitemap_US_index.xml.gz

Противоречия директив

Общее правило — если две директивы противоречат друг другу, приоритетом пользуется та, в которой большее количество символов.

    User-agent: *

    # /admin/js/global.js разрешён к сканированию
    # /admin/js/update.js по-прежнему запрещён

    Disallow: /admin
    Allow: /admin/js/global.js

Может показаться, что файл /admin/js/global.js попадает под правило блокировки содержащего его раздела Disallow: /admin/. Тем не менее, он будет доступен для сканирования, в отличие от всех остальных файлов в каталоге.

Список распространенных User-Agent

User-Agent	#
Google
Googlebot	Основной краулер Google
Googlebot-Image	Робот поиска по картинкам
Bing
Bingbot	Основной краулер Bing
MSNBot	Старый, но всё ещё использующийся краулер Bing
MSNBot-Media	Краулер Bing для изображений
BingPreview	Отдельный краулер Bing для Snapshot-изображений
Яндекс
YandexBot	Основной индексирующий бот Яндекса
YandexImages	Бот Яндеса для поиска по изображениям
Baidu
Baiduspider	Главный поисковый робот Baidu
Baiduspider-image	Бот Baidu для картинок
Applebot	Краулер для Apple. Используется для Siri поиска и Spotlight
SEO-инструменты
AhrefsBot	Краулер сервиса Ahrefs
MJ12Bot	Краулер сервиса Majestic
rogerbot	Краулер сервиса MOZ
PixelTools	Краулер «Пиксель Тулс»
Другое
DuckDuckBot	Бот поисковой системы DuckDuckGo

Советы по использованию операторов

Как упоминалось выше, широко применяются два оператора: * и $. С их помощью можно:

1. Заблокировать определённые типы файлов.

    User-agent: *

    # Блокируем любые файлы с расширением .json

    Disallow: /*.json$

В примере выше астериск * указывает на любые символы в названии файла, а оператор $ гарантирует, что расширение .json находится точно в конце адреса, и правило не затрагивает страницы вроде /locations.json.html (вдруг есть и такие).

2. Заблокировать URL с параметром ?, после которого следуют GET-запросы (метод передачи данных от клиента серверу).

Этот приём активно используется, если у проекта настроено ЧПУ для всех страниц и документы с GET-параметрами точно являются дублями.

    User-agent: *

    # Блокируем любые URL, содержащие символ ?

    Disallow: /*?

Заблокировать результаты поиска, но не саму страницу поиска.

    User-agent: *

    # Блокируем страницу результатов поиска

    Disallow: /search.php?query=*

Имеет ли значение регистр?

Определённо да. При указании правил Disallow / Allow, URL адреса могут быть относительными, но обязаны сохранять регистр.

    User-agent: *

    # /users разрешены для сканирования, поскольку регистр разный

    Disallow: /Users

Но сами директивы могут объявляться как с заглавной, так и с прописной: Disallow: или disallow: — без разницы. Исключение — Sitemap: всегда указывается с заглавной.

Как проверить robots.txt?

Есть множество сервисов проверки корректности файлов robots.txt, но, пожалуй, самые надёжные: Google Search Console и Яндекс.Вебмастер.

Для мониторинга изменений, как всегда, незаменим «Модуль ведения проектов»:

Контроль индексации на вкладке «Аудит» — динамика сканирования страниц сайта в Яндексе и Google.
Контроль изменений в файле robots.txt. Теперь точно не упустите, если кто-то из коллег закрыл сайт от индексации (или наоборот).

Держите свои robots.txt в порядке, и пусть в индекс попадает только необходимое!

Настройка robots.txt – как узнать, какие страницы необходимо закрывать от индексации

Файл robots.txt представляет собой набор директив (набор правил для роботов), с помощью которых можно запретить или разрешить поисковым роботам индексирование определенных разделов и файлов вашего сайта, а также сообщить дополнительные сведения. Изначально с помощью robots.txt реально было только запретить индексирование разделов, возможность разрешать к индексации появилась позднее, и была введена лидерами поиска Яндекс и Google.

Структура файла robots.txt

Сначала прописывается директива User-agent, которая показывает, к какому поисковому роботу относятся инструкции.

Небольшой список известных и частоиспользуемых User-agent:

User-agent:*
User-agent: Yandex
User-agent: Googlebot
User-agent: Bingbot
User-agent: YandexImages
User-agent: Mail.RU

Далее указываются директивы Disallow и Allow, которые запрещают или разрешают индексирование разделов, отдельных страниц сайта или файлов соответственно. Затем повторяем данные действия для следующего User-agent. В конце файла указывается директива Sitemap, где задается адрес карты вашего сайта.

Прописывая директивы Disallow и Allow, можно использовать специальные символы * и $. Здесь * означает «любой символ», а $ – «конец строки». Например, Disallow: /admin/*.php означает, что запрещается индексация индексацию всех файлов, которые находятся в папке admin и заканчиваются на .php, Disallow: /admin$ запрещает адрес /admin, но не запрещает /admin.php, или /admin/new/ , если таковой имеется.

Если для всех User-agent использует одинаковый набор директив, не нужно дублировать эту информацию для каждого из них, достаточно будет User-agent: *. В случае, когда необходимо дополнить информацию для какого-то из user-agent, следует продублировать информацию и добавить новую.

Пример robots.txt для WordPress:

*Примечание для User agent: Yandex

Для того чтобы передать роботу Яндекса Url без Get параметров (например: ?id=, ?PAGEN_1=) и utm-меток (например: &utm_source=, &utm_campaign=), необходимо использовать директиву Clean-param.
Ранее роботу Яндекса можно было сообщить адрес главного зеркала сайта с помощью директивы Host. Но от этого метода отказались весной 2018 года.
Также ранее можно было сообщить роботу Яндекса, как часто обращаться к сайту с помощью директивы Crawl-delay. Но как сообщается в блоге для вебмастеров Яндекса:
- Проанализировав письма за последние два года в нашу поддержку по вопросам индексирования, мы выяснили, что одной из основных причин медленного скачивания документов является неправильно настроенная директива Crawl-delay.
- Для того чтобы владельцам сайтов не пришлось больше об этом беспокоиться и чтобы все действительно нужные страницы сайтов появлялись и обновлялись в поиске быстро, мы решили отказаться от учёта директивы Crawl-delay.
Вместо этой директивы в Яндекс. Вебмастер добавили новый раздел «Скорость обхода».

Проверка robots.txt

Старая версия Search console

Для проверки правильности составления robots.txt можно воспользоваться Вебмастером от Google – необходимо перейти в раздел «Сканирование» и далее «Просмотреть как Googlebot», затем нажать кнопку «Получить и отобразить». В результате сканирования будут представлены два скриншота сайта, где изображено, как сайт видят пользователи и как поисковые роботы. А ниже будет представлен список файлов, запрет к индексации которых мешает корректному считыванию вашего сайта поисковыми роботами (их необходимо будет разрешить к индексации для робота Google).

Обычно это могут быть различные файлы стилей (css), JavaScript, а также изображения. После того, как вы разрешите данные файлы к индексации, оба скриншота в Вебмастере должны быть идентичными. Исключениями являются файлы, которые расположены удаленно, например, скрипт Яндекс.Метрики, кнопки социальных сетей и т.д. Их у вас не получится запретить/разрешить к индексации. Более подробно о том, как устранить ошибку «Googlebot не может получить доступ к файлам CSS и JS на сайте», вы читайте в нашем блоге.

Новая версия Search console

В новой версии нет отдельного пункта меню для проверки robots.txt. Теперь достаточно просто вставить адрес нужной страны в строку поиска.

В следующем окне нажимаем «Изучить просканированную страницу».

Далее нажимаем ресурсы страницы

В появившемся окне видно ресурсы, которые по тем или иным причинам недоступны роботу google. В конкретном примере нет ресурсов, заблокированных файлом robots.txt.

Если же такие ресурсы будут, вы увидите сообщения следующего вида:

Заключение

Файл robots.txt является важным инструментом регулирования отношений между сайтом и роботом поисковых систем, важно уделять время его настройке.

В статье большое количество информации посвящено роботам Яндекса и Google, но это не означает, что нужно составлять файл только для них. Есть и другие роботы – Bing, Mail.ru, и др. Можно дополнить robots.txt инструкциями для них.

Многие современные cms создают файл robots.txt автоматически, и в них могут присутствовать устаревшие директивы. Поэтому рекомендую после прочтения этой статьи проверить файл robots.txt на своем сайте, а если они там присутствуют, желательно их удалить. Если вы не знаете, как это сделать, обращайтесь к нам за помощью.

Полезное и интересное » Как правильно составить Robots.txt

Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.txt.

Для начала короткое видео, которое создаст общее представление о том, что такое файл robots.txt.

Как влияет robots.txt на индексацию сайта

Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов. В частности, GoogleBot не использует директиву Host и Crawl-Delay, YandexNews с недавних пор стал игнорировать директиву Crawl-Delay, а YandexDirect и YandexVideoParser игнорируют более общие директивы в роботсе (но руководствуются теми, которые указаны специально для них).

Подробнее об исключениях:
Исключения Яндекса
Стандарт исключений для роботов (Википедия)

Максимальную нагрузку на сайт создают роботы, которые скачивают контент с вашего сайта. Следовательно, указывая, что именно индексировать, а что игнорировать, а также с какими временны́ми промежутками производить скачивание, вы можете, с одной стороны, значительно снизить нагрузку на сайт со стороны роботов, а с другой стороны, ускорить процесс скачивания, запретив обход ненужных страниц.

К таким ненужным страницам относятся скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и т.д., формы заказа и корзина со всеми шагами оформления покупки, функционал поиска, личный кабинет, админка.

Для большинства роботов также желательно отключить индексацию всех JS и CSS. Но для GoogleBot и Yandex такие файлы нужно оставить для индексирования, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования (пруф Google, пруф Яндекс).

Директивы robots.txt

Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. Однако не все поисковые системы и роботы поддерживают те или иные директивы. В связи с этим для нас полезнее будет знать не стандарт, а то, как руководствуются теми или иными директивы основные роботы.

Давайте рассмотрим по порядку.

User-agent

Это самая главная директива, определяющая для каких роботов далее следуют правила.

Для всех роботов:
User-agent: *

Для конкретного бота:
User-agent: GoogleBot

Обратите внимание, что в robots.txt не важен регистр символов. Т.е. юзер-агент для гугла можно с таким же успехом записать соледующим образом:
user-agent: googlebot

Ниже приведена таблица основных юзер-агентов различных поисковых систем.

Бот	Функция
Google
Googlebot	основной индексирующий робот Google
Googlebot-News	Google Новости
Googlebot-Image	Google Картинки
Googlebot-Video	видео
Mediapartners-Google	Google AdSense, Google Mobile AdSense
Mediapartners	Google AdSense, Google Mobile AdSense
AdsBot-Google	проверка качества целевой страницы
AdsBot-Google-Mobile-Apps	Робот Google для приложений
Яндекс
YandexBot	основной индексирующий робот Яндекса
YandexImages	Яндекс.Картинки
YandexVideo	Яндекс.Видео
YandexMedia	мультимедийные данные
YandexBlogs	робот поиска по блогам
YandexAddurl	робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexFavicons	робот, индексирующий пиктограммы сайтов (favicons)
YandexDirect	Яндекс.Директ
YandexMetrika	Яндекс.Метрика
YandexCatalog	Яндекс.Каталог
YandexNews	Яндекс.Новости
YandexImageResizer	робот мобильных сервисов
Bing
Bingbot	основной индексирующий робот Bing
Yahoo!
Slurp	основной индексирующий робот Yahoo!
Mail.Ru
Mail.Ru	основной индексирующий робот Mail.Ru
Rambler
StackRambler	Ранее основной индексирующий робот Rambler. Однако с 23.06.11 Rambler перестает поддерживать собственную поисковую систему и теперь использует на своих сервисах технологию Яндекса. Более не актуально.

Disallow и Allow

Disallow закрывает от индексирования страницы и разделы сайта.
Allow принудительно открывает для индексирования страницы и разделы сайта.

Но здесь не все так просто.

Во-первых, нужно знать дополнительные операторы и понимать, как они используются — это *, $ и #.

* — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.

Примеры использования:

Disallow: *?s=

Disallow: /category/$

Следующие ссылки будут закрыты от индексации:
http://site.ru/?s=
http://site.ru/?s=keyword
http://site.ru/page/?s=keyword
http://site.ru/category/

Следующие ссылки будут открыты для индексации:
http://site.ru/category/cat1/
http://site.ru/category-folder/

Во-вторых, нужно понимать, каким образом выполняются вложенные правила.
Помните, что порядок записи директив не важен. Наследование правил, что открыть или закрыть от индексации определяется по тому, какие директории указаны. Разберем на примере.

Allow: *.css

Disallow: /template/

http://site.ru/template/ — закрыто от индексирования
http://site.ru/template/style.css — закрыто от индексирования
http://site.ru/style.css — открыто для индексирования
http://site.ru/theme/style.css — открыто для индексирования

Если нужно, чтобы все файлы .css были открыты для индексирования придется это дополнительно прописать для каждой из закрытых папок. В нашем случае:

Allow: *.css

Allow: /template/*.css

Disallow: /template/

Повторюсь, порядок директив не важен.

Sitemap

Директива для указания пути к XML-файлу Sitemap. URL-адрес прописывается так же, как в адресной строке.

Например,

Sitemap: http://site.ru/sitemap.xml

Директива Sitemap указывается в любом месте файла robots.txt без привязки к конкретному user-agent. Можно указать несколько правил Sitemap.

Host

Директива для указания главного зеркала сайта (в большинстве случаев: с www или без www). Обратите внимание, что главное зеркало указывается БЕЗ http://, но С https://. Также если необходимо, то указывается порт.
Директива поддерживается только ботами Яндекса и Mail.Ru. Другими роботами, в частности GoogleBot, команда не будет учтена. Host прописывается только один раз!

Пример 1:
Host: site.ru

Пример 2:
Host: https://site.ru

Crawl-delay

Директива для установления интервала времени между скачиванием роботом страниц сайта. Поддерживается роботами Яндекса, Mail.Ru, Bing, Yahoo. Значение может устанавливаться в целых или дробных единицах (разделитель — точка), время в секундах.

Пример 1:
Crawl-delay: 3

Пример 2:
Crawl-delay: 0.5

Если сайт имеет небольшую нагрузку, то необходимости устанавливать такое правило нет. Однако если индексация страниц роботом приводит к тому, что сайт превышает лимиты или испытывает значительные нагрузки вплоть до перебоев работы сервера, то эта директива поможет снизить нагрузку.

Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений — 0.1, 0.2, 0.5 — и постепенно их увеличивать. Для роботов поисковых систем, имеющих меньшее значение для результатов продвижения, таких как Mail.Ru, Bing и Yahoo можно изначально установить бо́льшие значения, чем для роботов Яндекса.

Clean-param

Это правило сообщает краулеру, что URL-адреса с указанными параметрами не нужно индексировать. Для правила указывается два аргумента: параметр и URL раздела. Директива поддерживается Яндексом.

Пример 1:

Clean-param: author_id http://site.ru/articles/

http://site.ru/articles/?author_id=267539 — индексироваться не будет

Пример 2:

Clean-param: author_id&sid http://site.ru/articles/

http://site.ru/articles/?author_id=267539&sid=0995823627 — индексироваться не будет

Яндекс также рекомендует использовать эту директиву для того, чтобы не учитывались UTM-метки и идентификаторы сессий. Пример:

Clean-Param: utm_source&utm_medium&utm_campaign

Другие параметры

В расширенной спецификации robots.txt можно найти еще параметры Request-rate и Visit-time. Однако они на данный момент не поддерживаются ведущими поисковыми системами.

Смысл директив:
Request-rate: 1/5 — загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 — загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Закрывающий robots.txt

Если вам нужно настроить, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать следующие директивы:

User-agent: * Disallow: /

Проверьте, чтобы на тестовых площадках вашего сайта были прописаны эти директивы.

Правильная настройка robots.txt

Для России и стран СНГ, где доля Яндекса ощутима, следует прописывать директивы для всех роботов и отдельно для Яндекса и Google.

Чтобы правильно настроить robots.txt воспользуйтесь следующим алгоритмом:

Закройте от индексирования админку сайта
Закройте от индексирования личный кабинет, авторизацию, регистрацию
Закройте от индексирования корзину, формы заказа, данные по доставке и заказам
Закройте от индексирования ajax, json-скрипты
Закройте от индексирования папку cgi
Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google
Закройте от индексирования функционал поиска
Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов)
Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS)
Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения
Закройте от индексирования страницы с параметрами UTM-меток и сессий
Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
Укажите Sitemap и Host
По необходимости пропишите Crawl-Delay и Clean-Param
Проверьте корректность robots.txt через инструменты Google и Яндекса (описано ниже)
Через 2 недели перепроверьте, появились ли в поисковой выдаче новые страницы, которые не должны индексироваться. В случае необходимости повторить выше перечисленные шаги.

Пример robots.txt

# Пример файла robots.txt для настройки гипотетического сайта https://site.ru
User-agent: *
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Crawl-Delay: 5
User-agent: GoogleBot
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /plugins/*.png
Allow: /plugins/*.jpg
Allow: /plugins/*.gif
User-agent: Yandex
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /plugins/*.png
Allow: /plugins/*.jpg
Allow: /plugins/*.gif
Clean-Param: utm_source&utm_medium&utm_campaign
Crawl-Delay: 0.5
Sitemap: https://site.ru/sitemap.xml
Host: https://site.ru

Как добавить и где находится robots.txt

После того как вы создали файл robots.txt, его необходимо разместить на вашем сайте по адресу site.ru/robots.txt — т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt

Как проверить robots.txt

Проверка robots.txt осуществляется по следующим ссылкам:

Типичные ошибки в robots.txt

В конце статьи приведу несколько типичных ошибок файла robots.txt

robots.txt отсутствует
в robots.txt сайт закрыт от индексирования (Disallow: /)
в файле присутствуют лишь самые основные директивы, нет детальной проработки файла
в файле не закрыты от индексирования страницы с UTM-метками и идентификаторами сессий
в файле указаны только директивы
Allow: *.css
Allow: *.js
Allow: *.png
Allow: *.jpg
Allow: *.gif
при этом файлы css, js, png, jpg, gif закрыты другими директивами в ряде директорий
директива Host прописана несколько раз
в Host не указан протокол https
путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта

P.S.

Если у вас есть дополнения к статье или вопросы, пишите ниже в комментариях.
Если у вас сайт на CMS WordPress, вам будет полезна статья «Как настроить правильный robots.txt для WordPress».

P.S.2

Полезное видео от Яндекса (Внимание! Некоторые рекомендации подходят только для Яндекса).

Устраняем проблему «Googlebot не может получить доступ к файлам CSS и JS на сайте» — инструкция

Несколько дней назад, очень большое количество сайтов получили письмо в панели Google Search Console (Google Webmasters) со следующей проблемой: «Googlebot не может получить доступ к файлам CSS и JS на сайте …» (англ. «Googlebot cannot access CSS and JS files on …»).

Поскольку Google пишет, что сайт может потерять позиции, при условии дальнейшей блокировки этих ресурсов сайта, то необходимо прислушаться к этой рекомендации и открыть все запрашиваемые для индексации файлы для поискового робота Google.

Кроме этого, про эту проблему четко написано в справке Google https://support.google.com/webmasters/answer/35769?hl=ru#technical_guidelines

Поэтому, давайте рассмотрим детальную инструкцию как устранить данную проблему.

1. Определяем какие ресурсы нужно открыть для индексации

Для выполнение данного пункта мы заходим в Google Search Console https://www.google.com/webmasters/tools/home?hl=ru и выбираем нужный сайт.

После этого, нажимаем на вкладку «Сканирование» и «Посмотреть как Googlebot»

и нажимаем «ПОЛУЧИТЬ И ОТОБРАЗИТЬ»

И переходим на последнюю строчку с результатами сканирования

В результате мы получаем:

— отображение того как сейчас видит поисковый робот Google и как эту же страницу увидят пользователи сайта

— список ресурсов с причиной по которой Googlebot не может получить доступ и, соответственно, которые нужно открыть для индексации:

2. Получаем строки для добавления в свой robots.txt

Копируем полученную таблицу, вставляем (с использованием функции вставки без форматирования) данную таблицу в Excel и делаем сортировку по колонке с URL.

Через «Найти и заменить» удаляем домен из URL и выделяем уникальные папки (или в некоторых случаях папку + определенный тип файлов), которые необходимо открыть для индексации.

Через данную функции добавляем разрешающую команду индексации =CONCATENATE(«Allow: «;A2) (или =СЦЕПИТЬ(«Allow: «;A2) ) и, в итоге, получаем строки которые нужно добавить в роботс:

3. Проверяем свой роботс.тхт с обновленными инструкциями

Перед заливкой нового robots.txt нужно проверить созданные инструкции на ошибки и все ли файлы мы открыли. Для этого лучше всего воспользоваться сервисом проверки роботса от Яндекса https://webmaster.yandex.ua/robots.xml, так как там сразу можно указать список адресов, которые нужно проверить:

Если вы всё правильно сделали, то получите уведомление, что все нужные ресурсы открыть для индексации:

Если все нормально, то обновляем свой файл на сервере.

4. Повторяем итерации 1-3, пока есть заблокированные ресурсы

Как оказалось, Google сразу отображает НЕ ВСЕ ресурсы которые нужно открыть для индексации.

При повторной проверке, мы можем получить такую картину:

Где видим, что для индексации нужно открыть еще и изображения. Поэтому, повторяем пункты 2. и 3. для новых ресурсов.

В итоге, мы должны получить нормальное отображение сайта для Googlebot’а:

Единственный нюанс, что в списке ресурсов могут оказаться файлы к которым Гугл не может получить доступ:

5. Проверяем доступность всех ресурсов для Mobile: smartphone

После этого, также делаем проверку на доступность всех ресурсов и для Mobile: smartphone – робота: для этого при проверке выбираем соответствующее значение и нажимаем «Получить и отобразить».

На данном сайте и для мобильного бота все ресурсы оказались доступны, поэтому, дополнительных действий не нужно было проводить.

Примеры что нужно добавить для стандартных движков:

WordPress

Allow: /wp-content/themes/*.css

Allow: /wp-content/plugins/*.css
Allow: /wp-content/uploads/*.css

Allow: /wp-content/themes/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/uploads/*.js

Allow: /wp-includes/css/
Allow: /wp-includes/js/
Allow: /wp-includes/images/

Универсальное решение для всех CMS

Allow: /*.js
Allow: /*.css
Allow: /*.jpg
Allow: /*.gif
Allow: /*.png

Joomla

Allow: /templates/*.css
Allow: /templates/*.js
Allow: /components/*.css
Allow: /components/*.js
Allow: /media/*.js
Allow: /media/*.css
Allow: /plugins/*.css
Allow: /plugins/*.js

DLE

Allow: /engine/classes/*.css

Allow: /engine/classes/*.js

Allow: /templates/Название шаблона/style/*.css
Allow: /templates/Название шаблона/js/*.js

Заключение

В данной статье мы постарались максимально подробно расписать как исправить ошибку «Googlebot не может получить доступ к файлам CSS и JS на сайте …».

Поэтому, если вы получили данное уведомление от Google, рекомендуем прислушаться к этим рекомендациям и открыть необходимые файлы для индексации.

PS: Если у вас возникли трудности, то задавайте в комментариях будем помогать с решением уникальных проблем.

Оцените статью

Загрузка…

Отправить обновленный файл Robots.txt в Google

Чтобы обновить правила в существующем файле robots.txt, загрузите копию файла robots.txt. со своего сайта и внесите необходимые правки.

Загрузите файл robots.txt

Вы можете загрузить свой файл robots.txt разными способами, например:

Отредактируйте файл robots.txt

Откройте файл robots.txt, который вы загрузили со своего сайта, в текстовом редакторе и сделайте необходимые правки в правила.Убедитесь, что вы используете правильный синтаксис и что вы сохраняете файл в кодировке UTF-8.

Загрузите файл robots.txt

Загрузите новый файл robots.txt в корень своего домена в виде текстового файла с именем robots.txt. Способ загрузки файла на свой сайт сильно зависит от платформы и сервера. Ознакомьтесь с нашими советы по поиску помощи с загрузка файла robots.txt на ваш сайт.

Если у вас нет разрешения на загрузку файлов в корень вашего домена, свяжитесь с менеджером домена, чтобы внести изменения.

Например, если главная страница вашего сайта находится в subdomain.example.com/site/example/ , вы, вероятно, не сможете обновить robots.txt файл по адресу subdomain.example.com/robots.txt . В этом случае обратитесь в владелец example.com/ , чтобы внести необходимые изменения в файл robots.txt.

Обновить кеш файла robots.txt Google

Во время автоматического сканирования сканеры Google замечают изменения, внесенные вами в свой роботы.txt и обновляйте кешированную версию каждые 24 часа. Если вам нужно обновить кэшировать быстрее, используйте функцию Submit robots.txt Тестер .

Нажмите Просмотреть загруженную версию , чтобы увидеть, что это ваша действующая версия robots.txt. что вы хотите, чтобы Google сканировал.
Нажмите Отправить , чтобы уведомить Google об изменениях, внесенных в ваш robots.txt и попросите Google просканировать его.
Убедитесь, что ваша последняя версия была успешно просканирована Google, обновив страницу в ваш браузер, чтобы обновить редактор инструмента и увидеть ваш действующий код robots.txt. После тебя обновите страницу, вы также можете щелкнуть раскрывающийся список, чтобы просмотреть отметка времени, когда Google впервые увидел последнюю версию вашего robots.txt файл.

Как исправить «проиндексировано, но заблокировано файлом robots.txt» в GSC

«Проиндексировано, но заблокировано роботами.txt »отображается в Google Search Console (GSC), когда Google проиндексировал URL-адреса, сканирование которых им запрещено.

В большинстве случаев это простая проблема, когда вы блокируете сканирование в своем файле robots.txt. Но есть несколько дополнительных условий, которые могут вызвать проблему, поэтому давайте рассмотрим следующий процесс устранения неполадок, чтобы диагностировать и исправить ситуацию как можно более эффективно:

Как видите, первый шаг — спросить себя, хотите ли вы, чтобы Google индексировал URL-адрес.

Если вы не хотите, чтобы URL индексировался…

Просто добавьте метатег noindex для роботов и убедитесь, что сканирование разрешено, если он канонический.

Если вы заблокируете сканирование страницы, Google все равно сможет проиндексировать ее, потому что сканирование и индексирование — это разные вещи. Если Google не сможет просканировать страницу, они не увидят метатег noindex и все равно могут его проиндексировать, потому что на нем есть ссылки.

Если URL-адрес канонизируется на другую страницу, не добавляйте метатег noindex для роботов. Просто убедитесь, что есть правильные сигналы канонизации, включая канонический тег на канонической странице, и разрешите сканирование, чтобы сигналы проходили и правильно объединялись.

Если вы действительно хотите проиндексировать URL…

Вам нужно выяснить, почему Google не может сканировать URL и снять блокировку.

Наиболее вероятная причина — блокировка сканирования в robots.txt. Но есть несколько других сценариев, при которых вы можете увидеть сообщения о том, что вы заблокированы. Давайте рассмотрим их в том порядке, в котором вы, вероятно, должны их искать.

Проверить наличие блока сканирования в robots.txt
Проверить прерывистые блоки
Проверить блок пользовательского агента
Проверить блок IP

Проверить наличие блока сканирования в robots.txt

Самый простой способ увидеть проблему — использовать тестер robots.txt в GSC, который пометит правило блокировки.

Если вы знаете, что ищете, или у вас нет доступа к GSC, вы можете перейти по адресу domain.com/robots.txt, чтобы найти файл. У нас есть дополнительная информация в нашей статье robots.txt, но вы, вероятно, ищете оператор запрета, например:

 Disallow: /

. Может быть упомянут конкретный пользовательский агент или он может заблокировать всех. Если ваш сайт новый или недавно был запущен, вы можете поискать:

 User-agent: * 
 Disallow: /

Не можете найти проблему?

Возможно, кто-то уже починил роботов.txt и решил проблему, прежде чем приступить к ее рассмотрению. Это лучший сценарий. Однако, если проблема, кажется, решена, но появляется снова вскоре после этого, у вас может быть периодическая блокировка.

Как исправить

Вам нужно удалить оператор disallow, вызывающий блокировку. То, как вы это делаете, зависит от используемой вами технологии.

WordPress

Если проблема затрагивает весь ваш веб-сайт, наиболее вероятной причиной является то, что вы проверили настройку в WordPress, запрещающую индексацию.Эта ошибка часто встречается на новых веб-сайтах и после миграции веб-сайтов. Чтобы проверить это, выполните следующие действия:

Нажмите «Настройки»
Нажмите «Чтение»
Убедитесь, что флажок «Видимость в поисковых системах» снят.

WordPress с Yoast

Если вы используете плагин Yoast SEO, вы можете напрямую отредактировать файл robots.txt, чтобы удалить оператор блокировки.

Нажмите «Yoast SEO»
Нажмите «Инструменты»
Нажмите «Редактор файлов»

WordPress с Rank Math

Подобно Yoast, Rank Math позволяет редактировать роботов.txt напрямую.

Нажмите «Rank Math»
Нажмите «Общие настройки»
Нажмите «Изменить robots.txt»

FTP или хостинг

Если у вас есть FTP-доступ к сайту, вы можете напрямую редактировать файл robots.txt , чтобы удалить оператор запрета, вызывающий проблему. Ваш хостинг-провайдер также может предоставить вам доступ к файловому менеджеру, который позволяет напрямую обращаться к файлу robots.txt.

Проверка на наличие прерывистых блоков

Прерывистые проблемы может быть труднее устранить, поскольку условия, вызывающие блокировку, могут не всегда присутствовать.

Я бы порекомендовал проверить историю вашего файла robots.txt. Например, в тестере GSC robots.txt, если вы нажмете раскрывающийся список, вы увидите предыдущие версии файла, на которые вы можете нажать и посмотреть, что они содержат.

У Wayback Machine на archive.org также есть история файлов robots.txt для веб-сайтов, которые они сканируют. Вы можете щелкнуть любую дату, по которой у них есть данные, и посмотреть, что файл был включен в этот конкретный день.

Или используйте бета-версию отчета об изменениях, которая позволяет легко видеть изменения содержимого между двумя разными версиями.

Как исправить

Процесс исправления прерывистых блоков будет зависеть от того, что вызывает проблему. Например, одной из возможных причин может быть общий кеш между тестовой средой и живой средой. Когда кеш из тестовой среды активен, файл robots.txt может включать директиву блокировки. А когда кеш из живой среды активен, сайт может сканировать. В этом случае вы захотите разделить кеш или, возможно, исключить файлы .txt из кеша в тестовой среде.

Проверка блоков пользовательского агента

Блокировка пользовательского агента — это когда сайт блокирует определенный пользовательский агент, такой как Googlebot или AhrefsBot. Другими словами, сайт определяет конкретного бота и блокирует соответствующий пользовательский агент.

Если вы можете нормально просматривать страницу в своем обычном браузере, но заблокированы после смены пользовательского агента, это означает, что указанный вами пользовательский агент заблокирован.

Вы можете указать конкретный пользовательский агент с помощью инструментов разработчика Chrome. Другой вариант — использовать расширение браузера для смены пользовательских агентов, подобных этому.

Кроме того, вы можете проверить блоки пользовательского агента с помощью команды cURL. Вот как это сделать в Windows:

Нажмите Windows + R, чтобы открыть окно «Выполнить».
Введите «cmd» и нажмите «ОК».
Введите команду cURL следующим образом:

 curl -A «имя-агента-пользователя-здесь» -Lv [URL] 
 curl -A «Mozilla / 5.0 (совместимый; AhrefsBot / 7.0; + http: // ahrefs .com / robot /) »-Lv https://ahrefs.com

Как исправить

К сожалению, это еще один случай, когда знание того, как его исправить, будет зависеть от того, где вы найдете блок.Многие разные системы могут блокировать бота, включая .htaccess, конфигурацию сервера, брандмауэры, CDN или даже что-то, что вы не можете видеть, что контролирует ваш хостинг-провайдер. Лучше всего связаться с вашим хостинг-провайдером или CDN и спросить их, откуда исходит блок и как вы можете его решить.

Например, вот два разных способа заблокировать пользовательский агент в .htaccess, которые вам, возможно, придется искать.

 RewriteEngine на 
 RewriteCond% {HTTP_USER_AGENT} Googlebot [NC] 
 RewriteRule.* - [F, L]

Или…

 BrowserMatchNoCase "Googlebot" боты 
 Разрешить, запретить 
 Разрешить со ВСЕХ 
 Запретить от env = bots

Проверить блоки IP

Если вы подтвердили, что нет заблокирован файлом robots.txt и исключен блокировкой пользовательского агента, то, скорее всего, это блокировка IP.

Как исправить

IP-блоков сложно отследить. Как и в случае с блокировкой пользовательского агента, лучше всего связаться с вашим хостинг-провайдером или CDN и спросить их, откуда исходит блок и как вы можете его решить.

Вот один пример того, что вы можете искать в .htaccess:

deny from 123.123.123.123

Заключительные мысли

В большинстве случаев предупреждение «проиндексировано, но заблокировано robots.txt» возникает из блок robots.txt. Надеюсь, это руководство помогло вам найти и исправить проблему, если это не ваш случай.

Есть вопросы? Дайте мне знать в Твиттере.

Как я могу принудительно переиндексировать некорректную страницу robots.txt с помощью Google Search Console?

Моя проблема

Итак, я недавно совершил довольно большую ошибку с моими роботами .txt файл. Я добавил в строку, чтобы файлы данных не читались с намерением предотвратить сканирование файлов данных блога .txt :

  Disallow: * .txt $

Оглядываясь назад, я должен был сначала включить каталог:

  Запретить: /blog/posts/*.txt$

Но, поскольку я не смог этого сделать, Google теперь не может сканировать мой файл robots.txt .

Я исправил файл, но не могу заставить Google Search Console переиндексировать файл, так как он все еще считает, что это не разрешено.

Что я пробовал

Я попытался загрузить файл /robots.txt в GSC и вручную переиндексировать, но без кубиков. Единственная информация, которую он мне дает, это то, что это « не разрешено robots.txt »
Я попытался удалить файл robots.txt с сайта, вручную переиндексируя в GSC в надежде, что он поймет, что он исчез, и сбросит или что-то в этом роде. Тем не менее, ничего, все еще сказал, что действие было « не разрешено роботами.txt «
Я также пробовал использовать инструмент тестера robots.txt , но поскольку он работает только с URL-Prefix Properties , а это свойство домена , оно не будет отображаться в списке доступных сайтов для тестирования. Если кто-то знает, как я могу использовать этот инструмент независимо (или временно преобразовать мое свойство в свойство URL-префикса ), это все равно может быть решением.

Моя цель

Очень хотелось бы как-нибудь сбросить свои роботы .txt в индексе GSC. Будем очень признательны за любые предложения.

Надеюсь, я достаточно ясно описал проблему. Если вам нужна дополнительная информация или контекст, дайте мне знать, и я буду более чем счастлив обновить сообщение.

Спасибо!

Google прекращает поддержку директивы noindex в robots.txt

С 1 сентября Google прекратит поддержку неподдерживаемых и неопубликованных правил в эксклюзивном протоколе для роботов, сообщила компания в блоге Google для веб-мастеров.Это означает, что Google больше не будет поддерживать файлы robots.txt с директивой noindex, указанной в файле.

«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим выпускам с открытым исходным кодом 1 сентября 2019 г. мы прекращаем использование всего кода, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex). Для тех из вас, кто полагался на Директива индексирования noindex в файле robots.txt, который контролирует сканирование, существует ряд альтернативных вариантов », — заявили в компании.

Какие есть альтернативы? Google перечислил следующие варианты, которые вам, вероятно, и так следовало использовать:

(1) Noindex в метатегах robots. Директива noindex, поддерживаемая как в заголовках ответов HTTP, так и в HTML, является наиболее эффективным способом удаления URL-адресов из индекса, когда сканирование разрешено. Коды статуса HTTP
(2) 404 и 410: оба кода статуса означают, что страница не существует, поэтому такие URL будут удалены из индекса Google после их сканирования и обработки.
(3) Защита паролем: если разметка не используется для обозначения подписки или платного контента, скрытие страницы за логином обычно удаляет ее из индекса Google.
(4) Запретить в robots.txt: поисковые системы могут индексировать только те страницы, о которых они знают, поэтому блокировка страницы от сканирования часто означает, что ее содержание не будет проиндексировано. Хотя поисковая система также может индексировать URL-адрес на основе ссылок с других страниц, не видя самого контента, мы стремимся сделать такие страницы менее заметными в будущем.
(5) Инструмент удаления URL в Search Console. Этот инструмент представляет собой быстрый и простой метод временного удаления URL из результатов поиска Google.

Становясь стандартом. Вчера Google объявил, что компания работает над тем, чтобы сделать протокол исключения роботов стандартом, и это, вероятно, первое грядущее изменение. Фактически, вчера вместе с этим объявлением Google выпустила свой парсер robots.txt как проект с открытым исходным кодом.

Почему Google меняется сейчас. Google много лет стремился изменить это, и теперь со стандартизацией протокола он может двигаться вперед. Google заявил, что «проанализировал использование правил robots.txt». Google уделяет особое внимание неподдерживаемым реализациям интернет-проекта, таким как задержка сканирования, nofollow и noindex. «Поскольку эти правила никогда не были задокументированы Google, естественно, их использование по отношению к Googlebot очень мало», — сказал Google. «Эти ошибки наносят ущерб присутствию веб-сайтов в результатах поиска Google так, как мы не думаем, что веб-мастера предполагали.”

Почему нам не все равно. Самое важное — убедиться, что вы не используете директиву noindex в файле robots.txt. Если да, то вы захотите внести предложенные выше изменения до 1 сентября. Также посмотрите, используете ли вы команды nofollow или crawl-delay, и если да, то постарайтесь использовать истинно поддерживаемый метод для этих директив в будущем.

Об авторе

Барри Шварц, редактор-исполнитель Search Engine Land и член команды программистов SMX-мероприятий.Ему принадлежит RustyBrick, консалтинговая компания из Нью-Йорка. Он также ведет Search Engine Roundtable, популярный поисковый блог по очень продвинутым темам SEM. Личный блог Барри называется Cartoon Barry, за ним можно следить в Twitter.

googlebot — Кеширует ли Google robots.txt?

googlebot — Кеширует ли Google robots.txt? — Обмен стеками веб-мастеров

Сеть обмена стеков

Сеть Stack Exchange состоит из 178 сообществ вопросов и ответов, включая Stack Overflow, крупнейшее и пользующееся наибольшим доверием онлайн-сообщество, где разработчики могут учиться, делиться своими знаниями и строить свою карьеру.

Посетить Stack Exchange

0
+0
Авторизоваться Подписаться

Webmasters Stack Exchange — это сайт вопросов и ответов для профессиональных веб-мастеров.Регистрация займет всего минуту.

Зарегистрируйтесь, чтобы присоединиться к этому сообществу

Кто угодно может задать вопрос

Кто угодно может ответить

Лучшие ответы голосуются и поднимаются наверх

Спросил 11 лет, 2 мес назад

Просмотрено 9к раз

Я добавил роботов.txt на один из моих сайтов неделю назад, что должно было помешать роботу Googlebot получить определенные URL-адреса. Однако в эти выходные я могу увидеть, как робот Googlebot загружает именно эти URL-адреса.

Кэширует ли Google robots.txt , и если да, то нужно ли?

unor

21.2k33 золотых знака4343 серебряных знака111111 бронзовых знаков

Создан 15 авг.

QuogQuog

34122 серебряных знака66 бронзовых знаков

Я настоятельно рекомендую зарегистрировать ваш сайт в Google Search Console (ранее Google Webmaster Tools).В разделе конфигурации сайта есть раздел доступа для сканера, который сообщит вам, когда ваш файл robots.txt был загружен в последний раз. Инструмент также предоставляет множество деталей о том, как сканеры видят ваш сайт, что заблокировано или не работает, и где вы появляетесь в запросах в Google.

Насколько я могу судить, Google часто загружает файл robots.txt . Сайт Google Search Console также позволит вам специально удалять URL-адреса из индекса, чтобы вы могли удалить те, которые сейчас блокируете.

Эндрю Лотт

5,77433 золотых знака1919 серебряных знаков4141 бронзовый знак

Создан 15 авг.

Данивович

36633 серебряных знака66 бронзовых знаков

Настойчиво.Я перешел с robots.txt на мета noindex, nofollow. Чтобы мета заработала, необходимо сначала разблокировать заблокированные адреса в robots.txt.

Я сделал это жестоко, полностью удалив robots.txt (и убрав его в веб-мастере Google).

Процесс удаления robots.txt, показанный в инструменте для веб-мастеров (количество заблокированных страниц), занял 10 недель, из которых основная часть была удалена Google только в течение последних 2 недель.

Создан 15 ноя.

Аральд

3122 бронзовых знака

Да, очевидно, Google будет кэшировать роботов.txt — он не будет загружать его каждый раз, когда захочет просмотреть страницу. Я не знаю, как долго он его хранит в кеше. Однако, если у вас установлен длинный заголовок Expires, робот Google может оставить его намного дольше, чтобы проверить файл.

Другой проблемой может быть неправильно настроенный файл. В Инструментах для веб-мастеров, которые предлагает Данивович, есть чекер robots.txt . Он сообщит вам, какие типы страниц заблокированы, а какие нет.

Zistoloen

9,99866 золотых знаков3232 серебряных знака5959 бронзовых знаков

Создан 16 авг.

НедовольныйКоза

21.2k55 золотых знаков5151 серебряный знак9999 бронзовых знаков

Документация Google заявляет, что они обычно кэшируют robots.txt в течение дня, но могут использовать его дольше, если они получат ошибки при попытке его обновления.

Запрос robots.txt обычно кэшируется на срок до одного дня, но может храниться в кэше дольше в ситуациях, когда обновление кэшированной версии невозможно (например, из-за таймаутов или ошибок 5xx).Кешированный ответ может использоваться разными сканерами. Google может увеличивать или уменьшать время жизни кеша в зависимости от максимального возраста заголовков HTTP Cache-Control.

Zistoloen

9,99866 золотых знаков3232 серебряных знака5959 бронзовых знаков

Создан 20 мая ’14 в 12: 492014-05-20 12:49

Стивен Остермиллер ♦ Стивен Остермиллер

89.10k1515 золотых знаков121121 серебряный знак333333 бронзовых знака

Судя по тому, что я вижу в доступном для пользователя кеше, который они делают, вам нужно ввести URL-адрес вашего файла robots.txt в поиске Google, а затем щелкнуть маленькую зеленую стрелку раскрывающегося списка и нажать «кэшировано» (см. изображение ниже) это даст вам последнюю версию этой страницы с серверов Googles.

Zistoloen

9,99866 золотых знаков3232 серебряных знака5959 бронзовых знаков

Создан 20 мая ’14 в 13: 242014-05-20 13:24

Сэм Сэм

4,61033 золотых знака3232 серебряных знака5858 бронзовых знаков

Очень активный вопрос .Заработайте 10 репутации (не считая бонуса ассоциации), чтобы ответить на этот вопрос. Требование репутации помогает защитить этот вопрос от спама и отсутствия ответов. Webmasters Stack Exchange лучше всего работает с включенным JavaScript

Ваша конфиденциальность

Нажимая «Принять все файлы cookie», вы соглашаетесь, что Stack Exchange может хранить файлы cookie на вашем устройстве и раскрывать информацию в соответствии с нашей Политикой в отношении файлов cookie.

Принимать все файлы cookie Настроить параметры

Файл Robots.txt создает проблемы для изображений Google Покупок

Вчера Google отправил электронное письмо о неудачных попытках сканирования изображений для продавцов, которые отправляют фид данных в Google Покупки, но также блокируют доступ робота googlebot к изображениям на своих сайтах.Вот как это читается:

Здравствуйте,

Благодарим вас за участие в Google Покупках. Мы обратили внимание на то, что файл robots.txt не позволяет нам сканировать некоторые или все изображения на вашем сайте. Чтобы мы могли получать доступ к изображениям, которые вы предоставляете в своих списках продуктов, и отображать их, мы хотели бы, чтобы вы изменили файл robots.txt, чтобы позволить агенту пользователя «googlebot» сканировать ваш сайт. Отсутствие доступа к вашим изображениям для Google может повлиять на видимость ваших товаров в Google Покупках и в результатах товарной рекламы.

Чтобы гарантировать, что робот Googlebot не блокируется, добавьте следующие две строки текста в конец файла robots.txt:

Агент пользователя: googlebot

Запрещено:

Для получения дополнительной информации о файлах robots.txt посетите http://www.robotstxt.org. Если у вас есть вопросы, обращайтесь напрямую к своему веб-мастеру.

С уважением,

Команда Google Product Search

Расплывчатое и несколько неоднозначное электронное письмо от Google отправляет продавцов на http: // www.robotstxt.org, где они могут самостоятельно фильтровать море информации о файлах robots.txt. Однако, что интересно, магазины Yahoo, которые размещают изображения в домене ep.yimg.com, по-видимому, являются основной целью недавней ошибки сканирования роботов Google, согласно сообщению atensoft в ветке справочного форума Google.

Похоже, это подлинное электронное письмо, и многие клиенты нашего магазина Yahoo также получили его. Похоже, это влияет на магазины, изображения которых размещены в Yahoo Store на EP.yimg.com домен.
Вот пример URL изображения:
http://ep.yimg.com/ca/I/yhst-65077491912261_2151_395
Единственный файл роботов на этом сервере в любой из вышеупомянутых подпапок:
http://ep.yimg.com/ca/robots.txt
Файл robots исключает каталог / I /, поэтому бот Google Product Search не сканирует изображения.
Однако, согласно http://www.robotstxt.org/robotstxt.html, файл robots.txt недействителен, если он не помещен в корень веб-сайта, например:
http: // ep.yimg.com/robots.txt
Итак, у нас есть две проблемы:
1. Yahoo Store блокирует Google (и все остальные) от индексации изображений.
2. Google обрабатывает недопустимый файл robots.txt.
Это вариант для продавцов Yahoo Store. Однако, если бы меня винили, я бы поставил это на Google за несоблюдение спецификации robots.txt. Я никогда не слышал, чтобы кто-нибудь и где-либо уважал robots.txt в подпапке.

Теперь, если кто-то скажет, что Google злонамеренно атакует Yahoo! Платформы магазинов могут быть немного натянутыми и, очевидно, чистой спекуляцией на данный момент, но это будет не первый случай, когда Google и Yahoo! не сходились во взглядах.Добавьте сюда растущую долю Bing на поисковом рынке США, и у нас есть рецепт длительного соперничества между двумя поисковыми гигантами.

Ниже приведены некоторые ссылки на недавние обсуждения от продавцов, получивших это письмо от Google Product Search.

Если вы недавно получили электронное письмо от Google относительно файла robots.txt, и хотите обсудить, что это означает для вашей кампании в Google Покупках, свяжитесь с нами по телефону .

роботов Google с открытым исходным кодом.txt, чтобы сделать протокол исключения роботов официальным стандартом

Присоединяйтесь к игровым лидерам онлайн на саммите GamesBeat Summit, который состоится 9-10 ноября. Узнайте больше о том, что будет дальше.

Google хочет превратить протокол исключения роботов (REP) десятилетней давности в официальный интернет-стандарт — и в рамках этой инициативы он создает собственный анализатор robots.txt с открытым исходным кодом.

REP, который был предложен в качестве стандарта голландским инженером-программистом Мартином Костером еще в 1994 году, в значительной степени стал стандартом , используемым веб-сайтами для указания автоматизированным поисковым роботам, какие части веб-сайта не должны обрабатываться.Сканер Googlebot, например, сканирует файл robots.txt при индексировании веб-сайтов, чтобы проверить наличие специальных инструкций о том, какие разделы ему следует игнорировать — и если такого файла нет в корневом каталоге, он будет считать, что сканирование разрешено (и index) весь сайт. Эти файлы не всегда используются для предоставления прямых инструкций сканирования, поскольку они также могут быть заполнены определенными ключевыми словами для улучшения поисковой оптимизации, среди других вариантов использования.

Стоит отметить, что не все сканеры уважают роботов.txt, при этом несколько лет назад Internet Archive решила воспользоваться поддержкой своего инструмента архивирования Wayback Machine, в то время как другие, более злонамеренные сканеры также предпочитают игнорировать REP.

Хотя REP часто называют «стандартом», на самом деле он так и не стал настоящим интернет-стандартом, как это определено Инженерной группой Интернета (IETF) — некоммерческой организацией открытого стандарта Интернета. И это то, что сейчас пытается изменить Google. В нем говорится, что REP в его нынешнем виде открыт для интерпретации и не всегда может охватывать то, что Google называет «сегодняшними угловыми случаями».”

Определение неопределенного

Все дело в том, чтобы лучше определить существующие «неопределенные сценарии» — например, как сканер должен обрабатывать сценарий отказа сервера, который делает файл robots.txt недоступным, если его содержимое уже известно из предыдущего сканирования? И как краулер должен относиться к правилу с опечаткой?

Но в файлах robots.txt также много опечаток. Большинство людей пропускают двоеточия в правилах, а некоторые ошибочно пишут их. Что должны делать сканеры с правилом «Dis Allow»? рис.twitter.com/nZEIyPYI9R
— Google Webmasters (@googlewmc) 1 июля 2019 г.

«Это серьезная проблема для владельцев веб-сайтов, потому что неоднозначный стандарт де-факто затрудняет правильное написание правил», — написал Google в своем блоге. «Мы хотели помочь владельцам веб-сайтов и разработчикам создавать удивительные возможности в Интернете, вместо того, чтобы беспокоиться о том, как управлять поисковыми роботами».

Google заявил, что он сотрудничал с первоначальным автором REP, Мартин Костером, а также с веб-мастерами и другими поисковыми системами, чтобы подать в IETF предложение, посвященное тому, «как REP используется в современной сети».”

Компания не опубликовала проект полностью, но в нем есть некоторые указания относительно некоторых областей, на которых она сосредоточена:

Любой протокол передачи на основе URI может использовать robots.txt. Например, он больше не ограничивается HTTP и может использоваться также для FTP или CoAP.
Разработчики должны проанализировать как минимум первые 500 кибибайт файла robots.txt. Определение максимального размера файла гарантирует, что соединения не будут открываться слишком долго, что снижает ненужную нагрузку на серверы.
Новое максимальное время кеширования, равное 24 часам, или значение директивы кеширования, если доступно, дает владельцам веб-сайтов возможность обновлять свой файл robots.txt в любое время, а сканеры не перегружают веб-сайты запросами robots.txt. Например, в случае HTTP заголовки Cache-Control могут использоваться для определения времени кэширования.
Спецификация теперь предусматривает, что когда ранее доступный файл robots.txt становится недоступным из-за сбоев сервера, известные запрещенные страницы не сканируются в течение достаточно длительного периода времени.

Здесь также стоит отметить, что сканеры могут по-разному интерпретировать инструкции, содержащиеся в файлах robots.txt, что может ввести в заблуждение владельцев веб-сайтов. Вот почему Google также поместил библиотеку C ++, которая лежит в основе систем синтаксического анализа и сопоставления Googlebot, на GitHub, чтобы любой мог получить к ней доступ. Согласно примечаниям к выпуску GitHub, Google хочет, чтобы разработчики создавали собственные парсеры, которые «лучше отражают синтаксический анализ и сопоставление файлов robots.txt Google».

VentureBeat

Миссия VentureBeat — стать цифровой городской площадью, где лица, принимающие технические решения, могут получить знания о преобразующих технологиях и транзакциях.На нашем сайте представлена важная информация о технологиях и стратегиях обработки данных, которая поможет вам руководить своей организацией. Мы приглашаем вас стать участником нашего сообщества, чтобы получить доступ:
актуальная информация по интересующим вас вопросам
наши информационные бюллетени
закрытый контент для лидеров мнений и доступ со скидкой к нашим призовым мероприятиям, таким как Transform 2021 : Подробнее
сетевых функций и многое другое
Стать участником.

Google обновил инструмент проверки файлов robots.txt

Возможности модернизированного инструмента

Как устранить проблему “Проиндексировано, несмотря на блокировку в файле robots.txt” в GSC

Если вы не хотите, чтобы URL-адрес индексировался…

Если вы хотите, чтобы URL-адрес индексировался…

Проверьте наличие блокировки сканирования в robots.txt

Как это исправить

WordPress

WordPress с Yoast

WordPress с Rank Math

FTP или хостинг

Проверьте наличие периодической блокировки

Как это исправить

Проверьте наличие блокировки по user-agent

Как это исправить

Проверьте наличие блокировки по IP-адресу

Как это исправить

Заключение

Инструменты проверки файла robots.txt | www.wordpress-abc.ru

Вступление

Инструменты проверки файла robots.txt

Инструмент проверки №1

Инструмент проверки №2

Независимые инструменты проверки файла robots.txt

Websiteplanet.com

Seositecheckup.com

Technicalseo.com

en.ryte.com

Вывод про инструменты проверки файла robots.txt

Еще статьи

Похожие посты:

правила обработки директив, какие директивы не используются в Google и зачем нужны Disallow и Crawl-delay — Пиксель Тулс

robots.txt

Действующие правила robots.txt

User-Agent

Disallow

Allow

Crawl-delay

Sitemap

Типичный robots.txt

Разрешить полный доступ

Полная блокировка доступа к хосту

Запрет конкретного раздела сайта

Запрет сканирования определенного файла

Распространенная ошибка

Противоречия директив

Список распространенных User-Agent

Советы по использованию операторов

Имеет ли значение регистр?

Как проверить robots.txt?

Настройка robots.txt – как узнать, какие страницы необходимо закрывать от индексации

Структура файла robots.txt

Проверка robots.txt

Старая версия Search console

Новая версия Search console

Рекомендации, что закрыть в robots.txt

Заключение

Полезное и интересное » Как правильно составить Robots.txt

Как влияет robots.txt на индексацию сайта

Директивы robots.txt

User-agent

Disallow и Allow

Sitemap

Host

Crawl-delay

Clean-param

Другие параметры

Закрывающий robots.txt

Правильная настройка robots.txt

Пример robots.txt

Как добавить и где находится robots.txt

Как проверить robots.txt

Типичные ошибки в robots.txt

P.S.

P.S.2

Устраняем проблему «Googlebot не может получить доступ к файлам CSS и JS на сайте» — инструкция

1. Определяем какие ресурсы нужно открыть для индексации

2. Получаем строки для добавления в свой robots.txt

3. Проверяем свой роботс.тхт с обновленными инструкциями

4. Повторяем итерации 1-3, пока есть заблокированные ресурсы