User agent allow: How to configure robots.txt to allow everything?

Содержание

ROBOTS.TXT. Правильный роботс | Блог Хостинг Украина

Основной синтаксис

User-Agent: робот для которого будут применяться следующие правила (например, «Googlebot»)

Disallow: страницы, к которым вы хотите закрыть доступ (можно указать большой список таких директив с каждой новой строки)

Каждая группа User-Agent / Disallow должны быть разделены пустой строкой. Но, не пустые строки не должны существовать в рамках группы (между User-Agent и последней директивой Disallow).

Символ хэш (#) может быть использован для комментариев в файле robots.txt: для текущей строки всё что после # будет игнорироваться. Данные комментарий может быть использован как для всей строки, так в конце строки после директив.

Каталоги и имена файлов чувствительны к регистру: «catalog», «Catalog» и «CATALOG» – это всё разные директории для поисковых систем.

Host: применяется для указание Яндексу основного зеркала сайта. Поэтому, если вы хотите склеить 2 сайта и делаете постраничный 301 редирект, то для файла robots.txt (на дублирующем сайте) НЕ надо делать редирект, чтобы Яндекс мог видеть данную директиву именно на сайте, который необходимо склеить.

Crawl-delay: можно ограничить скорость обхода вашего сайта, так как если у вашего сайта очень большая посещаемость, то, нагрузка на сервер от различных поисковых роботов может приводить к дополнительным проблемам.

Регулярные выражения: для более гибкой настройки своих директив вы можете использовать 2 символа

* (звездочка) – означает любую последовательность символов

$ (знак доллара) – означает конец строки

Основные примеры использования robots.txt

Запрет на индексацию всего сайта

User-agent: *

Disallow: /

Эту инструкцию важно использовать, когда вы разрабатываете новый сайт и выкладываете доступ к нему, например, через поддомен.

Очень часто разработчики забывают таким образом закрыть от индексации сайт и получаем сразу полную копию сайта в индексе поисковых систем. Если это всё-таки произошло, то надо сделать постраничный 301 редирект на ваш основной домен.

А такая конструкция ПОЗВОЛЯЕТ индексировать весь сайт:

User-agent: *

Disallow:

Запрет на индексацию определенной папки

User-agent: Googlebot

Disallow: /no-index/

Запрет на посещение страницы для определенного робота

User-agent: Googlebot

Disallow: /no-index/this-page.html

Запрет на индексацию файлов определенного типа

User-agent: *

Disallow: /*.pdf$

Разрешить определенному поисковому роботу посещать определенную страницу

User-agent: *

Disallow: /no-bots/block-all-bots-except-rogerbot-page.html

User-agent: Yandex

Allow: /no-bots/block-all-bots-except-Yandex-page.html

Ссылка на Sitemap

User-agent: *

Disallow:

Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Нюансы с использованием данной директивы: если у вас на сайте постоянно добавляется уникальный контент, то

  • лучше НЕ добавлять в robots.txt ссылку на вашу карту сайта,

  • саму карту сайта сделать с НЕСТАНДАРТНЫМ названием sitemap.xml (например, my-new-sitemap.xml и после этого добавить эту ссылку через «вебмастерсы» поисковых систем),

так как, очень много недобросовестных вебмастеров парсят с чужих сайтов контент и используют для своих проектов.

Шаблон для WordPress 

Allow: /wp-content/themes/*.js 

Allow: /wp-content/themes/*.css 

Allow: /wp-includes/js/*.css Allow: /wp-includes/js/*.js 

Allow: /wp-content/plugins/*.js 

Allow: /wp-content/plugins/*.css 

Шаблон для Joomla 

Allow: /templates/*.css 

Allow: /templates/*.js 

Allow: /templates/*.png 

Allow: /templates/*.gif 

Allow: /templates/*.ttf 

Allow: /templates/*.svg 

Allow: /templates/*.woff 

Allow: /components/*.css 

Allow: /components/*.js 

Allow: /media/*.js Allow: /media/*.css 

Allow: /plugins/*.css Allow: /plugins/*.js 

Шаблон для Bitrix 

Allow: /bitrix/templates/*.js 

Allow: /bitrix/templates/*.png 

Allow: /bitrix/templates/*.jpg 

Allow: /bitrix/templates/*.gif 

Allow: /bitrix/cache/css/*.css 

Allow: /bitrix/cache/js/s1/*.js 

Allow: /upload/iblock/*.jpg 

Allow: /upload/iblock/*.png 

Allow: /upload/iblock/*.gif 

Шаблон для DLE 

Allow: /engine/classes/*.css 

Allow: /engine/classes/*.js 

Allow: /templates/ 

Разобравшись с простым синтаксисом команд для робота, также важно учесть и такие значения мета-тега robots 

Данному мета-тегу можно присвоить четыре варианта значений. 

Атрибут content может содержать следующие значения:

index, noindex, follow, nofollow

Если значений несколько, они разделяются запятыми.

В настоящее время лишь следующие значения важны:

Директива INDEX говорит роботу, что данную страницу можно индексировать.

Директива FOLLOW сообщает роботу, что ему разрешается пройтись по ссылкам, присутствующим на данной странице. Некоторые авторы утверждают, что при отсутствии данных значений, поисковые сервера по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW. 

Итак, глобальные директивы выглядят так:

Индексировать всё = INDEX, FOLLOW

Не индексировать ничего = NOINDEX,NOFLLOW

Примеры мета-тега robots:


Заказывайте хостинг и выбирайте домен в компании «Хостинг Украина». 

У нас качественный и надежный сервис, удобное система управления через админ-панель, интеллектуальные системы защиты и техническая поддержка, которая поможет решить все возникающие вопросы в любое время суток.

Наши цены: SSD хостинг от 1$, VPS на SSD от 12$, Cloud (облачный) хостинг от 3$, облачный VPS от 6$.

Присоединяйтесь к «Хостинг Украина» и мы позаботимся о технической стороне вашего бизнеса.


Только зарегистрированные пользователи могут оставлять комментарии

Директивы Disallow и Allow — Вебмастер. Справка

  1. Disallow
  2. Allow
  3. Совместное использование директив
  4. Директивы Allow и Disallow без параметров
  5. Использование спецсимволов * и $
  6. Примеры интерпретации директив
Используйте эту директиву, чтобы запретить индексирование разделов сайта или отдельных страниц. Например:
  • страницы с конфиденциальными данными;

  • страницы с результатами поиска по сайту;

  • статистика посещаемости сайта;

  • дубликаты страниц;

  • разнообразные логи;

  • сервисные страницы баз данных.

Примечание. При выборе директивы для страниц, которые не должны участвовать в поиске, если их адреса содержат GET-параметры, лучше использовать директиву Clean-param, а не Disallow. При использовании Disallow может не получиться выявить дублирование адреса ссылки без параметра и передать некоторые показатели запрещенных страниц, например ссылочные.

Примеры:

User-agent: Yandex
Disallow: / # запрещает обход всего сайта

User-agent: Yandex
Disallow: /catalogue # запрещает обход страниц, адрес которых начинается с /catalogue

User-agent: Yandex
Disallow: /page? # запрещает обход страниц, URL которых содержит параметры

Директива разрешает индексирование разделов или отдельных страниц сайта.

Примеры:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц 
# начинающихся с '/cgi-bin'
User-agent: Yandex
Allow: /file.xml
# разрешает скачивание файла file.xml

Примечание. Недопустимо наличие пустых переводов строки между директивами

User-agent, Disallow и Allow.

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.

Примечание. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.

# Исходный robots.txt:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

# Сортированный robots.txt:
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с '/catalog',
# но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.

Общий пример:

User-agent: Yandex
Allow: /archive
Disallow: /
# разрешает все, что содержит '/archive', остальное запрещено

User-agent: Yandex
Allow: /obsolete/private/*.html$ # разрешает html файлы
                                 # по пути '/obsolete/private/...'
Disallow: /*.php$  # запрещает все '*.php' на данном сайте
Disallow: /*/private/ # запрещает все подпути содержащие
                      # '/private/', но Allow выше отменяет
                      # часть запрета
Disallow: /*/old/*.zip$ # запрещает все '*.zip' файлы, содержащие 
                        # в пути '/old/'

User-agent: Yandex
Disallow: /add.php?*user= 
# запрещает все скрипты 'add.php?' с параметром 'user'

Если директивы не содержат параметры, робот учитывает данные следующим образом:

User-agent: Yandex
Disallow: # то же, что и Allow: /

User-agent: Yandex
Allow: # не учитывается роботом

При указании путей директив Allow и Disallow можно использовать спецсимволы * и $, чтобы задавать определенные регулярные выражения.

Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:

User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
                          # и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
                    # но и '/cgi-bin/private'

По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. Пример:

User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам 
                    # начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое

Чтобы отменить * на конце правила, можно использовать спецсимвол $, например:

User-agent: Yandex
Disallow: /example$ # запрещает '/example', 
                    # но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example', 
                   # и '/example.html'

Спецсимвол $ не запрещает указанный * на конце, то есть:

User-agent: Yandex
Disallow: /example$  # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example' 
                     # запрещает и /example.html и /example
User-agent: Yandex 
Allow: /
Disallow: /
# все разрешается

User-agent: Yandex 
Allow: /$
Disallow: /
# запрещено все, кроме главной страницы

User-agent: Yandex
Disallow: /private*html
# запрещается и '/private*html', 
# и '/private/test.html', и '/private/html/test.aspx' и т. п.

User-agent: Yandex
Disallow: /private$
# запрещается только '/private'

User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
# так как робот Яндекса 
# выделяет записи по наличию в строке 'User-agent:', 
# результат — все разрешается

Google убирает из браузера Chrome строку ‘user-agent’ / Блог компании Дата-центр «Миран» / Хабр

При посещении веб-сайта браузер или другое клиентское приложение обычно посылает веб-серверу информацию о себе. Эта текстовая строка является частью HTTP-запроса. Она начинается с User-agent: или User-Agent: и обычно содержит название и версию приложения, операционную систему компьютера и язык. Например, Chrome под Android посылает что-то вроде такого:
User-Agent: Mozilla/5.0 (Linux; Android 9; Pixel 2 XL Build/PPP3.180510.008) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Mobile Safari/537.36

Но разработчики Chrome считают, что это слишком подробная информация. Они объявили о решении отказаться от user-agent в браузере Chrome. Вместо этого Chrome предложит новый API под названием Client Hints, который позволит лучше контролировать, какая информация передаётся веб-сайтам.

Это делается для защиты приватности, поскольку злоумышленники сейчас активно используют user-agent для фингерпринтинга и профилирования пользователей. Вообще ненормальна ситуация, когда user-agent транслируется всем подряд в автоматическом режиме.

Строка User-Agent впервые появилась в Mosaic, популярном браузере начала 90-х. Тогда браузер отправлял просто строку с названием и версией браузера. Строка выглядела примерно так:

Mosaic/0.9

В первое время от этой информации было мало практической пользы. Через несколько лет вышел браузер Netscape, он перенял у предшественника строку user-agent и добавил к неё дополнительные детали, такие как операционная система, язык и т. д. Примерно с этого времени веб-сайты начали учитывать user-agent, чтобы выдавать клиенту правильный контент.

Поскольку Mosaic и Netscape поддерживали разный набор функций, веб-сайты должны были использовать строку user-agent, чтобы определить тип браузера и избежать использования неподдерживаемых функций (например, фреймы поддерживались только Netscape, но не Mosaic).

В течение многих лет определение версии браузера продолжало играть значительную роль в веб-разработке. Это вызвало неприятные побочные эффекты, когда мелким разработчикам браузеров приходилось имитировать популярные user-agent’ы для корректного отображения веб-сайта, поскольку некоторые компании поддерживали только основные типы user-agent.

С ростом популярности JavaScript большинство разработчиков начали использовать библиотеки вроде Modernizer, которые определяют конкретный список функций HTML, CSS и JavaScript, которые поддерживает конкретный браузер, обеспечивая гораздо более точные результаты, чем user-agent.

В результате основными пользователями user-agent остались представители рекламной индустрии, где компании используют характеристики браузера и операционной системы для фингерпринтинга пользователей, а большинство людей не знает, как противостоять этому, а многие даже не осознают угрозы, которую представляет собой тотальная слежка и пожизненное профилирование каждого человека.

По иронии, Google считается одним из главных нарушителей приватности. Именно эта компания собирает самые подробные профили пользователей, собирая данные из электронной почты, GPS-трекеров, операционной системы Android и десятков своих веб-сервисов.

Более того, именно Google в последнее время чаще всех злоупотребляла user-agent, блокируя доступ к своим сервисам пользователей с альтернативными браузерами. Чтобы открыть эти сервисы, альтернативным браузерам приходилось подделывать строку user-agent и выдавать себя за Chrome. Например, см. список поддельных user-agent для браузера Microsoft Edge, который тоже вынужден выдавать себя за Chrome на десятках сайтов.

Gmail, Google Maps и другие сервисы работают медленнее во всех браузерах, кроме Chrome.

Но бывает, что интересы отдельных разработчиков идут вразрез с интересами работодателя. Возможно, здесь как раз такой случай. Мы и раньше видели, как разработчики Chrome выражали протест некорректными действиями компании, когда она выкатывала сервисы «только для Chrome». Они выражали недовольство в твиттере и во внутренней корпоративной рассылке. Это действительно грамотные специалисты, у которых неадекватные решения руководства Google не могли вызвать ничего, кроме недоумения и фейспалма. Похоже, сейчас пришло время для конкретных действий.

Команда разработчиков браузера Chrome начала поэтапный отказ от user-agent, начиная с версии Chrome 81. Отказ от user-agent значительно затруднит Google некорректные практики по продвижению своего браузера.

Полностью удалить user-agent пока проблематично, поскольку многие сайты ещё полагаются на эту строку, но Chrome больше не будет обновлять версию браузера и укажет одинаковую версию ОС в user-agent для всех устройств.

В частности, со всех мобильных устройств Chrome будет отправлять такую строку:

Mozilla/5.0 (Linux; Android 9; Unspecified Device) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/71.1.2222.33 Mobile Safari/537.36

Со всех настольных компьютеров строка будет выглядеть следующим образом, независимо от устройства и версии браузера:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.1.2222.33 Safari/537.36

Переход с user-agent на Client Hints планируется завершить к версии Chrome 85, которая должна выйти в сентябре 2020 года. Другие разработчики браузеров, включая Mozilla Firefox, Microsoft Edge и Apple Safari, выразили поддержку этому шагу, хотя пока не огласили свои планы по аналогичным действиям.

Подробнее о предлагаемой альтернативе Client Hints можно почитать в официальном репозитории Github. Это предложение пока не оформлено в виде стандарта, поэтому точная реализация может измениться к моменту выпуска официальных рекомендаций. Разработчикам рекомендуется следить за изменениями в репозитории, а также за примечаниями, которые публикуются с новыми версиями Chrome.

Главное отличие Client Hints от user-agent в том, что сайты больше не будут пассивно получать информацию о браузере пользователя. Они будут вынуждены активно запрашивать её, а браузер может отказать в таком запросе, примерно так же, как сейчас некоторые браузеры блокируют сторонние куки.



Создайте файл Robots.txt | Центр поиска Google | Разработчики Google

Если вы пользуетесь услугами хостинга сайтов, например Wix или Blogger, вы может не понадобиться создавать или редактировать файл robots.txt.

Начало работы

Файл robots.txt находится в корне вашего сайта. Итак, для сайта www.example.com , файл robots.txt находится по адресу www.example.com/robots.txt . robots.txt — это простой текстовый файл, следующий за Стандарт исключения роботов.Файл robots.txt состоит из одного или нескольких правил. Каждое правило блокирует (или разрешает) доступ для данного поискового робота на указанный путь к файлу на этом веб-сайте.

Вот простой файл robots.txt с двумя правилами, описанными ниже:

# Группа 1
Пользовательский агент: Googlebot
Запретить: / nogooglebot /

# Группа 2
Пользовательский агент: *
Позволять: /

Карта сайта: http://www.example.com/sitemap.xml 

Пояснение:

  1. Пользовательскому агенту с именем «Googlebot» не разрешено сканировать http: // example.com / nogooglebot / или любые подкаталоги.
  2. Всем остальным пользовательским агентам разрешено сканировать весь сайт. Это могло быть пропущено и результат будет таким же; по умолчанию пользовательские агенты могут сканировать весь сайт.
  3. Файл карты сайта находится по адресу http://www.example.com/sitemap.xml .

Дополнительные примеры см. В разделе синтаксиса.

Основные принципы robots.txt

Вот несколько основных рекомендаций для файлов robots.txt. Мы рекомендуем вам прочитать полный синтаксис файлов robots.txt, потому что Синтаксис robots.txt имеет некоторые тонкие особенности, которые вам следует понять.

Формат и расположение

Вы можете использовать практически любой текстовый редактор для создания файла robots.txt. Текстовый редактор должен уметь для создания стандартных текстовых файлов UTF-8. Не используйте текстовый процессор; текстовые процессоры часто экономят файлы в проприетарном формате и могут добавлять неожиданные символы, такие как фигурные кавычки, которые может вызвать проблемы для сканеров.

Используйте тестер robots.txt для написания или редактирования файлов robots.txt для вашего сайта. Этот инструмент позволяет вам проверить синтаксис и поведение против вашего сайта.

Правила формата и расположения:

  • Файл должен называться robots.txt.
  • На вашем сайте может быть только один файл robots.txt.
  • Файл robots.txt должен находиться в корне хоста веб-сайта, чтобы который применяется. Например, для управления сканированием всех URL-адресов ниже http: // www.example.com/ , файл robots.txt должен находиться по адресу http://www.example.com/robots.txt . Это не может быть помещено в подкаталог (например, http://example.com/pages/robots.txt ). Если ты не знаете, как получить доступ к корню вашего веб-сайта, или вам нужны разрешения для этого, свяжитесь с вашим провайдер хостинг-услуг. Если вы не можете получить доступ к корню вашего сайта, используйте альтернативную блокировку метод, такой как метатеги.
  • Роботы.txt может применяться к субдоменам (например, http: // website .example.com / robots.txt ) или на нестандартных порты (например, http://example.com: 8181 /robots.txt ).

Синтаксис

  • Файл robots.txt должен быть текстовым файлом в кодировке UTF-8 (включая ASCII). Использование другого персонажа наборы невозможно.
  • Файл robots.txt состоит из одной или нескольких групп .
  • Каждая группа состоит из нескольких правил или директив (инструкции), по одной директиве на строку.
  • Группа предоставляет следующую информацию:
    • Кому относится группа (пользовательский агент )
    • К каким каталогам или файлам может обращаться агент
    • К каким каталогам или файлам агент не может получить доступ
  • Группы обрабатываются сверху вниз, и пользовательский агент может соответствовать только одному набору правил, который это первое, наиболее конкретное правило, которое соответствует данному пользовательскому агенту.
  • Предположение по умолчанию состоит в том, что пользовательский агент может сканировать любую страницу или каталог. не заблокирован правилом Disallow: .
  • Правила чувствительны к регистру . Например, Disallow: /file.asp применяется к http://www.example.com/file.asp , но не http://www.example.com/FILE.asp .
  • Комментарии — это любое содержимое после отметки # .

В файлах robots.txt используются следующие директивы:

  • Пользовательский агент: [ Обязательно, по одному или нескольким на группу ] директива определяет имя автоматического клиента, известного как сканер поисковой системы, который правило применяется к. Это первая строка для любой группы правил. Имена пользовательских агентов Google: перечисленные в Список пользовательских агентов Google. Использование звездочки ( * ), как в примере ниже, будет соответствовать всем поисковым роботам. , за исключением различных поисковых роботов AdsBot , которые должны иметь явное имя. Примеры:
    # Пример 1. Заблокировать только Googlebot
    Пользовательский агент: Googlebot
    Запретить: /
    
    # Пример 2. Блокировка роботов Googlebot и Adsbot
    Пользовательский агент: Googlebot
    Пользовательский агент: AdsBot-Google
    Запретить: /
    
    # Пример 3. Блокировка всех сканеров, кроме AdsBot
    Пользовательский агент: *
    Disallow: / 
  • Disallow: [ Как минимум один или несколько Disallow или Разрешить записей в правиле ] Каталог или страница относительно корневого домена, что вы не хотите, чтобы пользовательский агент сканировал.Если правило относится к странице, это должен быть полное имя страницы, как показано в браузере; если он относится к каталогу, он должен заканчиваться Марка /.
  • Разрешить: [ Как минимум один или несколько Запретить или Разрешить записей в правиле ] Каталог или страница относительно корневого домена, которые могут сканироваться только что упомянутым пользовательским агентом. Это используется для отмены Disallow Директива , разрешающая сканирование подкаталога или страницы в запрещенном каталог.Для одной страницы полное имя страницы, отображаемое в браузере, должно быть указано. В случае каталога правило должно заканчиваться отметкой /.
  • Карта сайта: [ Необязательно, ноль или более на файл ] расположение карты сайта для этого веб-сайта. URL-адрес карты сайта должен быть полным URL-адресом; Google не предполагает и не проверяет альтернативы http / https / www.non-www. Файлы Sitemap — хороший способ указать, какой контент Google должен сканировать , а не какой контент может или не может сканировать .Узнайте больше о файлах Sitemap. Пример:
    Карта сайта: https://example.com/sitemap.xml
    Карта сайта: http://www.example.com/sitemap.xml 

Все директивы, кроме карты сайта , поддерживают подстановочный знак * для пути префикс, суффикс или целая строка.

Строки, не соответствующие ни одной из этих директив, игнорируются.

Другой пример файла

Файл robots.txt состоит из одной или нескольких групп, каждая из которых начинается с User-agent строка, указывающая цель групп.Вот файл с двумя группы; встроенные комментарии объясняют каждую группу:

# Заблокировать googlebot из example.com/directory1 / ... и example.com/directory2 / ...
# но разрешить доступ к directory2 / subdirectory1 / ...
# Все остальные каталоги на сайте разрешены по умолчанию.
Пользовательский агент: googlebot
Запретить: / directory1 /
Запретить: / каталог2 /
Разрешить: / каталог2 / подкаталог1 /

# Блокировать весь сайт от другого сканера.
Пользовательский агент: anothercrawler
Disallow: / 

Полный синтаксис robots.txt

Вы можете найти полные robots.txt здесь. Пожалуйста, прочтите полную документацию, так как в синтаксисе robots.txt есть несколько сложных частей, которые важно узнать.

Полезные правила robots.txt

Вот несколько общих полезных правил robots.txt:

Правило Образец
Запретить сканирование всего веб-сайта. Имейте в виду, что в некоторых ситуаций URL-адреса с веб-сайта все еще могут быть проиндексированы, даже если они не были поползли.Это не соответствует различные сканеры AdsBot, который должен быть назван явно.
Пользовательский агент: *
Disallow: / 
Запретить сканирование каталога и его содержимого , следуя имя каталога с косой чертой. Помните, что вам не следует использовать robots.txt для блокировки доступ к частному контенту: вместо этого используйте правильную аутентификацию.URL-адреса, запрещенные Файл robots.txt может быть проиндексирован без сканирования, а файл robots.txt могут быть просмотрены кем угодно, потенциально раскрывая местонахождение вашего личного контента.
Пользовательский агент: *
Запретить: / календарь /
Disallow: / junk / 
.
Разрешить доступ одному искателю
User-agent: Googlebot-news
Позволять: /

Пользовательский агент: *
Disallow: / 
Разрешить доступ всем, кроме одного поискового робота
Пользовательский агент: Ненужный бот
Запретить: /

Пользовательский агент: *
Разрешить: / 

Запретить сканирование отдельной веб-страницы , указав страницу после косая черта:

Пользовательский агент: *
Запретить: / частный_файл.HTML 

Заблокировать определенное изображение из Картинок Google:

Пользовательский агент: Googlebot-Image
Запретить: /images/dogs.jpg 

Заблокировать все изображения на вашем сайте из Картинок Google:

Пользовательский агент: Googlebot-Image
Disallow: / 

Запретить сканирование файлов определенного типа (например, .gif ):

Пользовательский агент: Googlebot
Disallow: /*.gif$ 

Запретить сканирование всего сайта, но показывать рекламу AdSense на этих страницах , и запретить использование всех поисковых роботов, кроме Mediapartners-Google . Этот реализация скрывает ваши страницы из результатов поиска, но Поисковый робот Mediapartners-Google все еще может проанализировать их, чтобы решить какую рекламу показывать посетителям вашего сайта.

Пользовательский агент: *
Запретить: /

Пользовательский агент: Mediapartners-Google
Разрешить: / 
Чтобы сопоставить URL-адреса, которые заканчиваются определенной строкой , используйте $ . Для Например, пример кода блокирует любые URL-адреса, заканчивающиеся на .xls :
Пользовательский агент: Googlebot
Запретить: /*.xls$
 

Роботы.txt Технические характеристики | Центр поиска | Разработчики Google

Аннотация

В этом документе подробно описано, как Google обрабатывает файл robots.txt, который позволяет вы можете контролировать, как сканеры веб-сайтов Google сканируют и индексируют общедоступные веб-сайты.

Что изменилось

1 июля 2019 года Google объявил, что Протокол robots.txt работая над становится стандартом Интернета. Эти изменения отражены в этом документе.

Список изменений

Вот что изменилось:

  • В этом документе удален раздел «Язык требований», так как язык Конкретный Интернет-проект.
  • Robots.txt теперь принимает все На основе URI протоколы.
  • Google выполняет как минимум пять переадресаций. Поскольку еще не было загружено правил, перенаправления выполняются как минимум для пяти переходов, а если нет, то robots.txt найден, гугл лечит это как 404 для robots.txt. Обработка логических перенаправлений для файла robots.txt на основе содержимого HTML, которое возвращает 2xx (кадры, JavaScript или мета-тип обновления перенаправления) не рекомендуется, и содержимое первой страницы используется для поиска применимых правила.
  • Для 5xx, если robots.txt недоступен более 30 дней, последняя кэшированная копия используется файл robots.txt или, если он недоступен, Google предполагает, что сканирование отсутствует. ограничения.
  • Google рассматривает неудачные запросы или неполные данные как ошибку сервера.
  • «Записи» теперь называются «линиями» или «правилами», соответственно.
  • Google не поддерживает обработку элементов с помощью простых ошибки или опечатки (например, «useragent» вместо «user-agent»).
  • Google в настоящее время применяет ограничение на размер в 500 кибибайт (KiB) и игнорирует содержимое после этого ограничения.
  • Обновлен формальный синтаксис, чтобы он стал действительным. Расширенная форма Бэкуса-Наура (ABNF) в соответствии с RFC5234 и покрыть для символов UTF-8 в файле robots.txt.
  • Обновлено определение «группы», чтобы сделать его короче и точнее. Добавил пример для пустой группы.
  • Удалены ссылки на устаревшую схему сканирования Ajax.

Основные определения

Определения
Гусеничный ход Сканер — это служба или агент, сканирующий веб-сайты.Вообще говоря, гусеничный автоматически и рекурсивно обращается к известным URL-адресам хоста, который предоставляет контент, который может быть доступными с помощью стандартных веб-браузеров. При обнаружении новых URL-адресов (различными способами, например как ссылки на существующие, просканированные страницы или из файлов Sitemap), они также сканируются в так же.
Агент пользователя Средство идентификации определенного поискового робота или набора поисковых роботов.
Директивы Список применимых рекомендаций для сканера или группы поисковых роботов, изложенный в роботы.txt файл.
URL Унифицированные указатели ресурсов, как определено в RFC 1738.
Только для Google Эти элементы относятся к реализации файла robots.txt Google и не могут быть актуально для других сторон.

Применяемость

Руководства, изложенные в этом документе, соблюдаются всеми автоматизированными сканеры в Google. Когда агент обращается к URL-адресам от имени пользователя (например, для перевода, каналов с ручной подпиской, вредоносных программ анализ), эти рекомендации применять не нужно.

Местоположение файла и срок действия

Файл robots.txt должен находиться в каталоге верхнего уровня хоста, доступны через соответствующий протокол и номер порта. Общепринятые протоколы для Все robots.txt основаны на URI, и в частности для поиска Google (например, сканирование веб-сайтов) это «http» и https. По HTTP и HTTPS файл robots.txt извлекается с помощью HTTP безусловного GET. запрос.

Только для Google: Google также принимает роботов и следит за ними.txt файлы для FTP-сайтов. Доступ к файлам robots.txt на основе FTP осуществляется через Протокол FTP с использованием анонимного входа в систему.

Директивы, перечисленные в файле robots.txt, применяются только к хост, протокол и номер порта, на котором размещен файл.

URL-адрес файла robots.txt, как и другие URL-адреса, чувствителен к регистру.

Примеры действительных URL-адресов robots.txt

Robots.txt Примеры URL
http://example.com/robots.txt Действителен до:
  • http://example.com/
  • http://example.com/folder/file
Недействительно для:
  • http://other.example.com/
  • https://example.com/
  • http://example.com:8181/
Это общий случай. Не действует для других поддоменов, протоколы или номера портов.Это действительно для всех файлов во всех подкаталогах на одном хосте, протокол и номер порта.
http://www.example.com/robots.txt

Действительно для: http://www.example.com/

Недействительно для:

  • http://example.com/
  • http://shop.www.example.com/
  • http://www.shop.example.com/
Роботы А.txt на субдомене действителен только для этого субдомена.
http://example.com/folder/robots.txt Недействительный файл robots.txt. Сканеры не проверяют файлы robots.txt в подкаталоги.
http://www.müller.eu/robots.txt Действителен до:
  • http://www.müller.eu/
  • http://www.xn--mller-kva.eu/

Недействительно для: http: // www.muller.eu/

IDN эквивалентны своим версиям punycode. Смотрите также RFC 3492.
ftp://example.com/robots.txt

Действительно для: ftp://example.com/

Недействительно для: http://example.com/

Для Google: мы используем robots.txt для ресурсов FTP.

http://212.96.82.21/robots.txt

Действительно для: http: // 212.96.82.21 /

Недействительно для: http://example.com/ (даже если размещено на 212.96.82.21)

Файл robots.txt с IP-адресом в качестве имени хоста действителен только для сканирование этого IP-адреса как имени хоста. Он не действует автоматически для всех веб-сайты, размещенные на этом IP-адресе (хотя возможно, что файл robots.txt shared, и в этом случае он также будет доступен под общим именем хоста).
http: // example.com: 80 / robots.txt

Действительно для:

  • http://example.com:80/
  • http://example.com/

Недействительно для: http://example.com:81/

Стандартные номера портов (80 для HTTP, 443 для HTTPS, 21 для FTP): эквивалентны их именам хостов по умолчанию. См. Также [номера портов] .
http: // example.com: 8181 / robots.txt

Действительно для: http://example.com:8181/

Недействительно для: http://example.com/

Файлы robots.txt с нестандартными номерами портов действительны только для контент, доступный через эти номера портов.

Обработка кодов результатов HTTP

Обычно существует три разных результата, когда файлы robots.txt извлечены:

  • full allow: все содержимое можно сканировать.
  • full disallow: сканирование контента невозможно.
  • условное разрешение: директивы в robots.txt определяют возможность сканировать определенный контент.
Обработка кодов результатов HTTP
2xx (успешно) Коды результатов HTTP, которые сигнализируют об успешном завершении сканирования.
3xx (перенаправление) Google выполняет не менее пяти переходов переадресации, как определено RFC 1945 для HTTP / 1.0 и затем останавливается и обрабатывает его как 404. Обработка переадресации robots.txt на запрещенные URL-адреса обескураженный; так как правила еще не загружены, перенаправления выполняются как минимум в течение пять переходов, и если файл robots.txt не найден, Google рассматривает его как 404 для файла robots.txt. Обработка логических перенаправлений для файла robots.txt на основе содержимого HTML, которое возвращает 2xx (фреймы, JavaScript или переадресация типа мета-обновления) не приветствуются, а содержимое первая страница используется для поиска применимых правил.
4xx (ошибки клиента) Все ошибки 4xx обрабатываются одинаково, и предполагается, что нет действительного файла robots.txt. существуют. Предполагается, что ограничений нет. Это «полное разрешение» для сканирования. Сюда входят коды результатов HTTP 401 «Неавторизованный» и 403 «Запрещенный».
5xx (ошибка сервера)

Ошибки сервера рассматриваются как временные ошибки, которые приводят к «полному запрету» сканирования.Запрос повторяется до тех пор, пока не будет получен код результата HTTP, не связанный с ошибкой сервера. A 503 (обслуживание Недоступно) приводит к довольно частым повторным попыткам. Если robots.txt недоступен более 30 дней используется последняя кешированная копия robots.txt. Если недоступен, Google предполагает, что ограничений сканирования нет. Чтобы временно приостановить сканирование, рекомендуется использовать код результата 503 HTTP.

для Google: если мы можем определить, что сайт неправильно настроен для возвращает 5xx вместо 404 для отсутствующих страниц, мы обрабатываем ошибку 5xx с этого сайта как 404.

Неудачные запросы или неполные данные Обработка файла robots.txt, который не может быть получен из-за проблем с DNS или сетью, например как тайм-ауты, недопустимые ответы, сброс или прерванные соединения и ошибки фрагментации HTTP, рассматривается как ошибка сервера.
Кэширование содержание robots.txt обычно кэшируется на срок до 24 часов, но может храниться в кэше дольше ситуации, когда обновление кэшированной версии невозможно (например, из-за тайм-аутов или ошибки 5xx).Кешированный ответ может использоваться разными сканерами. Google может увеличить или уменьшить время жизни кеша в зависимости от максимальный возраст Заголовки HTTP Cache-Control.

Формат файла

Ожидаемый формат файла — простой текст, закодированный в UTF-8. Файл состоит из строк, разделенных CR, CR / LF или LF.

Учитываются только действительные строки; все остальное содержимое игнорируется. Например, если полученный документ представляет собой HTML-страницу, только допустимый текст линии учитываются, остальные отбрасываются без предупреждение или ошибка.

Если используется кодировка символов, в результате которой используются символы которые не являются подмножеством UTF-8, это может привести к тому, что содержимое файл анализируется неправильно.

необязательный Unicode Спецификация (байт знак заказа) в начале файла robots.txt игнорируется.

Каждая допустимая строка состоит из поля, двоеточия и значения. Пространства необязательно (но рекомендуется для улучшения читаемости). Комментарии могут быть включается в любое место в файле с помощью символа «#»; все содержимое после начала комментария до конца строки рассматривается как комментарий и игнорируется.Общий формат <поле>: <значение> <# необязательный-комментарий> . Пробел в начале и в конце строки игнорируется.

В элементе регистр не учитывается. <Значение> элемент может быть чувствительным к регистру, в зависимости от элемент.

Обработка элементов с простыми ошибками или опечатками (например, useragent вместо user-agent) не поддерживается.

Для каждого поискового робота может быть установлен максимальный размер файла.Контент после максимальный размер файла игнорируется. В настоящее время Google устанавливает размер лимит в 500 кибибайт (KiB). Чтобы уменьшить размер файла robots.txt, объедините директивы, которые приведут к слишком большой файл robots.txt. Например, поместите исключенный материал в отдельный каталог.

Формальный синтаксис / определение

Вот описание расширенной формы Бэкуса-Наура (ABNF), как описано в RFC 5234

robotstxt = * (группа / пустая строка)
group = startgroupline; Начнем с пользовательского агента
        * (начальная линия / пустая строка); ... и, возможно, больше пользовательских агентов
        * (правило / пустая строка); соблюдаются правила, относящиеся к UA


startgroupline = * WS "агент пользователя" * WS ":" * токен продукта WS EOL

rule = * WS ("разрешить" / "запретить") * WS ":" * WS (шаблон-путь / шаблон-пустой) EOL

; разработчики парсеров: добавьте необходимые вам дополнительные строки (например, карты сайта) и
; будьте снисходительны при чтении несоответствующих строк. Примените закон Постела.

product-token = идентификатор / "*"
путь-шаблон = "/" * (UTF8-char-noctl); действительный шаблон пути URI; см. 3.2.2
пустой шаблон = * WS

идентификатор = 1 * (% x2d /% x41-5a /% x5f /% x61-7a)
комментарий = "#" * (UTF8-char-noctl / WS / "#")
emptyline = EOL
EOL = * WS [комментарий] NL; конец строки может иметь необязательный завершающий комментарий
NL =% x0D /% x0A /% x0D.0A
WS =% x20 /% x09

; UTF8, полученный из RFC3629, но исключая управляющие символы
UTF8-char-noctl = UTF8-1-noctl / UTF8-2 / UTF8-3 / UTF8-4
UTF8-1-noctl =% x21 /% x22 /% x24-7F; без контроля, пробел, '#'
UTF8-2 =% xC2-DF UTF8-хвост
UTF8-3 =% xE0% xA0-BF UTF8-tail /% xE1-EC 2 (UTF8-tail) /
                  % xED% x80-9F UTF8-хвост /% xEE-EF 2 (UTF8-хвост)
UTF8-4 =% xF0% x90-BF 2 (UTF8-хвост) /% xF1-F3 3 (UTF8-хвост) /
                  % xF4% x80-8F 2 (UTF8-хвост)
UTF8-tail =% x80-BF
 

Группировка строк и правила

Одна или несколько строк user-agent , за которыми следуют одно или несколько правил.Группа закрывается user-agent строка или конец файла. Последняя группа может не иметь правил, что означает, что она неявно разрешает все.

Примеры групп:

пользовательский агент: a
запретить: / c

пользовательский агент: b
запретить: / d

пользовательский агент: e
пользовательский агент: f
запретить: / г

пользовательский агент: h
 

Определены четыре отдельные группы:

  • Одна группа для «а»
  • Одна группа для «б»
  • Одна группа для «e» и «f»
  • Одна группа для «h»

За исключением последней группы (группа «h»), каждая группа имеет свою собственную строку «член группы».Последний группа (группа «h») пуста. Обратите внимание на необязательное использование пробелов и пустых строк для улучшения читаемость.

Порядок приоритета для пользовательских агентов

Для конкретного поискового робота действительна только одна группа. Сканер должен определить правильную группу строк, найдя группу с наиболее подходящим пользовательским агентом. Все остальные поисковый робот игнорирует группы. Пользовательский агент чувствителен к регистру. Весь несоответствующий текст игнорируются (например, googlebot / 1.2 и googlebot * эквивалентно googlebot ). Порядок групп в файле robots.txt не имеет значения.

Если для определенного пользовательского агента объявлено несколько групп, все правила из групп применимые к конкретному пользовательскому агенту, объединяются в одну группу.

Примеры

Пример 1

Предполагается, что следующий файл robots.txt:

      пользовательский агент: googlebot-news
      (группа 1)

      пользовательский агент: *
      (группа 2)

      пользовательский агент: googlebot
      (группа 3)
     

Вот как поисковые роботы выбирают соответствующую группу:

Группа отслеживаемых на гусеничном ходу
Новости Googlebot Следующая группа — группа 1.Прослеживается только самая конкретная группа, все остальные игнорируются.
Googlebot (Интернет) Следующая группа — группа 3.
Изображения робота Google Следующая группа — это группа 3. Нет конкретного googlebot-images Группа , поэтому более общая группа последовал.
Googlebot News (при сканировании изображений) Следующая группа — группа 1.Эти изображения сканируются роботами Googlebot News, поэтому отслеживается только группа новостей робота Googlebot.
Другой бот (Интернет) Следующая группа — группа 2.
Otherbot (Новости) Следующая группа — это группа 2. Даже если есть запись для связанного поискового робота, она действителен только в том случае, если он специально совпадает.
Пример 2

Предполагая, что следующие robots.txt файл:

      пользовательский агент: googlebot-news
      запретить: / рыба

      пользовательский агент: *
      запретить: / морковь

      пользовательский агент: googlebot-news
      запретить: / креветка
     

Вот как сканеры объединяют группы, относящиеся к определенному пользовательскому агенту:

      пользовательский агент: googlebot-news
      запретить: / рыба
      запретить: / креветка

      пользовательский агент: *
      запретить: / морковь
     

См. Также поисковые роботы Google и строки пользовательского агента.

Правила для участников группы

Только стандартные правила для членов группы охватываются эта секция. Эти правила также называются «директивами» для краулеры. Эти директивы указаны в форме директивы : [путь] , где [путь] не является обязательным. По умолчанию ограничений нет для сканирования для определенных поисковых роботов. Директивы без [путь] игнорируются.

Значение [путь] , если указано, следует рассматривать относительно корня веб-сайт, для которого используется файл robots.txt был получен (используя тот же протокол, номер порта, имя хоста и домена). Значение пути должно начинаться с «/» для обозначения корня. Путь чувствителен к регистру. Более информацию можно найти в разделе «Соответствие URL по пути значения »ниже.

запретить

Директива disallow указывает пути, которые не должны быть доступ к ним назначенные сканеры. Если путь не указан, директива игнорируется.

использование:

запретить: [путь]
 

позволяют

Директива allow указывает пути, к которым может получить доступ назначенные сканеры.Если путь не указан, директива игнорируется.

использование:

разрешить: [путь]
 

Соответствие URL на основе значений пути

Значение пути используется в качестве основы для определения того, является ли правило применяется к определенному URL-адресу на сайте. За исключением подстановочных знаков, путь используется для соответствия началу URL-адреса (и любым действительным URL-адресам, начать с того же пути). Не 7-битные символы ASCII в пути могут быть включены как символы UTF-8 или как закодированные в кодировке UTF-8 с процентным экранированием символов на RFC 3986.

Google, Bing и другие основные поисковые системы поддерживают ограниченную форму «подстановочных знаков» для значения пути. Это:

  • * обозначает 0 или более экземпляров любого допустимого символа.
  • $ обозначает конец URL-адреса.
Пример совпадения пути
/ Соответствует корневому URL-адресу и любому URL-адресу нижнего уровня.
/ * Эквивалент /.Завершающий подстановочный знак игнорируется.
/ рыба

совпадений:

  • / рыба
  • /fish.html
  • /fish/salmon.html
  • / рыбные головы
  • /fishheads/yummy.html
  • /fish.php?id=anything

Не соответствует:

  • / Рыба.asp
  • / сом
  • /? Id = рыба
Обратите внимание на совпадение с учетом регистра.
/ рыба *

Эквивалент / рыба . Завершающий подстановочный знак игнорируется.

матчей:

  • / рыба
  • /fish.html
  • /fish/salmon.html
  • / рыбные головы
  • / рыбные головы / вкуснятина.HTML
  • /fish.php?id=anything

Не соответствует:

  • /Fish.asp
  • / сом
  • /? Id = рыба
/ рыба /

Завершающая косая черта означает, что это соответствует чему-либо в этой папке.

матчей:

  • / рыба /
  • / fish /? Id = что угодно
  • / рыба / лосось.htm

Не соответствует:

  • / рыба
  • /fish.html
  • /Fish/Salmon.asp
/*.php

матчей:

  • /filename.php
  • /folder/filename.php
  • /folder/filename.php?parameters
  • / папка / любая.php.file.html
  • /filename.php/

Не соответствует:

  • / (даже если он отображается в /index.php)
  • / windows.PHP
/*.php $

матчей:

  • /filename.php
  • /folder/filename.php

Не соответствует:

  • / имя файла.php? параметры
  • /filename.php/
  • /filename.php5
  • / windows.PHP
/fish*.php

матчей:

  • /fish.php
  • /fishheads/catfish.php?parameters

Не соответствует: /Fish.PHP

Поддерживаемые Google линии, не входящие в группу

Google, Bing и другие основные поисковые системы поддерживают карту сайта , поскольку определяется картами сайта.орг.

использование:

карта сайта: [absoluteURL] 

Строка [absoluteURL] указывает на расположение карты сайта или индекса карты сайта. файл. Это должен быть полный URL-адрес, включая протокол и хост, и не обязательно быть URL-кодированными. URL-адрес не обязательно должен находиться на том же хосте, что и файл robots.txt. Несколько карта сайта Может существовать записей. Как линии, не входящие в группу, это не привязан к каким-либо конкретным пользовательским агентам и может отслеживаться всеми поисковыми роботами, если это не запрещено.

Пример

пользовательский агент: otherbot
запретить: / капуста

карта сайта: https://example.com/sitemap.xml
карта сайта: https://cdn.example.org/other-sitemap.xml
карта сайта: https://ja.example.org/ テ ス ト - サ イ ト マ ッ プ .xml 

Порядок старшинства строк членов группы

На уровне членов группы, в частности для , разрешить и запретить директив, наиболее конкретное правило, основанное на длина записи [путь] превосходит менее конкретное (более короткое) правило.В случае противоречивых правил, в том числе с подстановочными знаками, используется наименее ограничивающее правило.

Примеры ситуаций
http://example.com/page

разрешить : / p

запретить : /

Вердикт : разрешить

http: // example.com / folder / page

разрешить : / папка

запретить : / папка

Вердикт : разрешить

http://example.com/page.htm

разрешить : / стр.

запретить : /*.htm

Вердикт : undefined

http: // example.com /

разрешить : / $

запретить : /

Вердикт : разрешить

http://example.com/page.htm

разрешить : / $

запретить : /

Вердикт : запретить

Роботы-испытатели.txt разметка

Google предлагает два варианта тестирования разметки robots.txt:

  1. robots.txt Тестер в Search Console.
  2. Google с открытым исходным кодом Библиотека robots.txt, которая также используется в поиске Google.

Файл Robots.txt [Примеры 2021] — Moz

Что такое файл robots.txt?

Robots.txt — это текстовый файл, который веб-мастера создают, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем), как сканировать страницы на своем веб-сайте.Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает в себя такие директивы, как мета-роботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «следовать» или «nofollow»).

На практике файлы robots.txt показывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта.Эти инструкции сканирования определяются как «запрещающие» или «разрешающие» поведение определенных (или всех) пользовательских агентов.

Базовый формат:
 User-agent: [user-agent name] Disallow: [URL-строка не должна сканироваться] 

Вместе эти две строки считаются полным файлом robots.txt, хотя один файл robots может содержат несколько строк пользовательских агентов и директив (например, запрещает, разрешает, задерживает сканирование и т. д.).

В файле robots.txt каждый набор директив пользовательского агента отображается как дискретный набор , разделенных разрывом строки:

В файле robots.txt с несколькими директивами пользовательского агента, каждое запрещающее или разрешающее правило , только применяется к агенту (агентам), указанным в этом конкретном наборе, разделенном разрывом строки. Если файл содержит правило, которое применяется более чем к одному пользовательскому агенту, поисковый робот только обратит внимание (и будет следовать директивам в) наиболее конкретной группе инструкций .

Вот пример:

Msnbot, discobot и Slurp вызываются специально, поэтому эти пользовательские агенты будут только обращать внимание на директивы в своих разделах роботов.txt файл. Все остальные пользовательские агенты будут следовать директивам в группе user-agent: *.

Пример robots.txt:

Вот несколько примеров использования robots.txt для сайта www.example.com:

URL файла Robots.txt: www.example.com/robots.txt
Блокирование всего контента для всех поисковых роботов
 User-agent: * Disallow: / 

Использование этого синтаксиса в файле robots.txt укажет всем поисковым роботам не сканировать никакие страницы www.example.com, включая домашнюю страницу.

Разрешение всем поисковым роботам доступа ко всему контенту
 User-agent: * Disallow: 

Использование этого синтаксиса в файле robots.txt указывает поисковым роботам сканировать все страницы на www.example.com, включая домашнюю страницу.

Блокировка определенного поискового робота из определенной папки
 User-agent: Googlebot Disallow: / example-subfolder / 

Этот синтаксис предписывает только поисковому роботу Google (имя агента пользователя Googlebot) не сканировать страницы, которые содержат строку URL-адреса www.example.com/example-subfolder/.

Блокировка определенного поискового робота с определенной веб-страницы
 User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html 

Этот синтаксис сообщает только сканеру Bing (имя пользовательского агента Bing) избегать сканирование конкретной страницы по адресу www.example.com/example-subfolder/blocked-page.html.

Как работает robots.txt?

У поисковых систем есть две основные задачи:

  1. Сканирование Интернета для обнаружения контента;
  2. Индексирование этого контента, чтобы его могли обслуживать искатели, ищущие информацию.

Чтобы сканировать сайты, поисковые системы переходят по ссылкам с одного сайта на другой — в конечном итоге просматривая многие миллиарды ссылок и веб-сайтов. Такое ползание иногда называют «пауками».

После перехода на веб-сайт, но перед его сканированием поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о , как должна сканировать поисковая система, найденная там информация будет указывать дальнейшие действия сканера на этом конкретном сайте.Если файл robots.txt не содержит , а не директив, запрещающих действия агента пользователя (или если на сайте нет файла robots.txt), он продолжит сканирование другой информации на сайте.

Другой быстрый файл robots.txt, который необходимо знать:

(более подробно обсуждается ниже)

  • Чтобы его можно было найти, файл robots.txt должен быть помещен в каталог верхнего уровня веб-сайта.

  • Robots.txt чувствителен к регистру: файл должен иметь имя «robots.txt »(не Robots.txt, robots.TXT и т. д.).

  • Некоторые пользовательские агенты (роботы) могут игнорировать ваш файл robots.txt. Это особенно характерно для более гнусных поисковых роботов, таких как вредоносные роботы или парсеры адресов электронной почты.

  • Файл /robots.txt является общедоступным: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt!). Это означает, что любой может видеть, какие страницы вы хотите или не хотите сканировать, поэтому не используйте их для сокрытия личной информации пользователя.

  • Каждый субдомен в корневом домене использует отдельные файлы robots.txt. Это означает, что и blog.example.com, и example.com должны иметь свои собственные файлы robots.txt (по адресу blog.example.com/robots.txt и example.com/robots.txt).

  • Обычно рекомендуется указывать расположение любых карт сайта, связанных с этим доменом, в нижней части файла robots.txt. Вот пример:

Технический синтаксис robots.txt

Robots.txt можно рассматривать как «язык» файлов robots.txt. Есть пять общих терминов, которые вы, вероятно, встретите в файле robots. К ним относятся:

  • User-agent: Конкретный поисковый робот, которому вы даете инструкции для сканирования (обычно это поисковая система). Список большинства пользовательских агентов можно найти здесь.

  • Disallow: Команда, используемая для указания агенту пользователя не сканировать определенный URL. Для каждого URL разрешена только одна строка «Disallow:».

  • Разрешить (применимо только для робота Googlebot): команда, сообщающая роботу Googlebot, что он может получить доступ к странице или подпапке, даже если его родительская страница или подпапка могут быть запрещены.

  • Crawl-delay: Сколько секунд сканер должен ждать перед загрузкой и сканированием содержимого страницы. Обратите внимание, что робот Googlebot не подтверждает эту команду, но скорость сканирования можно установить в консоли поиска Google.

  • Карта сайта: Используется для вызова местоположения любых XML-файлов Sitemap, связанных с этим URL.Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.

Сопоставление с шаблоном

Когда дело доходит до фактических URL-адресов, которые нужно заблокировать или разрешить, файлы robots.txt могут стать довольно сложными, поскольку они позволяют использовать сопоставление с образцом для охвата диапазона возможных вариантов URL. И Google, и Bing соблюдают два регулярных выражения, которые можно использовать для идентификации страниц или подпапок, которые SEO хочет исключить. Эти два символа — звездочка (*) и знак доллара ($).

  • * — это подстановочный знак, который представляет любую последовательность символов.
  • $ соответствует концу URL-адреса

. Google предлагает здесь большой список возможных синтаксисов и примеров сопоставления с образцом.

Где находится файл robots.txt на сайте?

Когда бы они ни заходили на сайт, поисковые системы и другие роботы, сканирующие Интернет (например, сканер Facebook Facebot), знают, что нужно искать файл robots.txt. Но они будут искать этот файл в только в одном конкретном месте : в главном каталоге (обычно это корневой домен или домашняя страница). Если пользовательский агент посещает www.example.com/robots.txt и не находит там файла роботов, он будет считать, что на сайте его нет, и продолжит сканирование всего на странице (и, возможно, даже на всем сайте. ).Даже если бы страница robots.txt действительно существовала , скажем, по адресу example.com/index/robots.txt или www.example.com/homepage/robots.txt, она не была бы обнаружена пользовательскими агентами и, следовательно, сайт обрабатываться так, как если бы в нем вообще не было файла robots.

Чтобы гарантировать, что ваш файл robots.txt найден, всегда включает его в свой основной каталог или корневой домен.

Зачем нужен robots.txt?

Файлы Robots.txt управляют доступом поискового робота к определенным областям вашего сайта.Хотя это может быть очень опасным, если вы случайно запретите роботу Google сканировать весь ваш сайт (!!), в некоторых ситуациях файл robots.txt может оказаться очень полезным.

Некоторые распространенные варианты использования включают:

  • Предотвращение появления дублированного контента в результатах поиска (обратите внимание, что мета-роботы часто являются лучшим выбором для этого)
  • Сохранение конфиденциальности целых разделов веб-сайта (например, промежуточного сайта вашей группы инженеров)
  • Предотвращение показа страниц результатов внутреннего поиска в общедоступной поисковой выдаче
  • Указание местоположения карты (карт) сайта
  • Предотвращение индексации определенных файлов на вашем веб-сайте поисковыми системами (изображений, PDF-файлов и т. Д.))
  • Указание задержки сканирования для предотвращения перегрузки серверов, когда сканеры загружают сразу несколько частей контента

Если на вашем сайте нет областей, к которым вы хотите контролировать доступ агента пользователя, вы не можете вообще нужен файл robots.txt.

Проверка наличия файла robots.txt

Не уверены, есть ли у вас файл robots.txt? Просто введите свой корневой домен, а затем добавьте /robots.txt в конец URL-адреса. Например, файл роботов Moz находится по адресу moz.ru / robots.txt.

Если страница .txt не отображается, значит, у вас нет (активной) страницы robots.txt.

Как создать файл robots.txt

Если вы обнаружили, что у вас нет файла robots.txt или вы хотите изменить свой, создание его — простой процесс. В этой статье от Google рассматривается процесс создания файла robots.txt, и этот инструмент позволяет вам проверить, правильно ли настроен ваш файл.

Хотите попрактиковаться в создании файлов роботов? В этом сообщении блога рассматриваются некоторые интерактивные примеры.

Лучшие методы SEO

  • Убедитесь, что вы не блокируете какой-либо контент или разделы своего веб-сайта, которые нужно просканировать.

  • Ссылки на страницах, заблокированных файлом robots.txt, переходить не будут. Это означает 1.) Если на них также не ссылаются другие страницы, доступные для поисковых систем (т. Е. Страницы, не заблокированные через robots.txt, мета-роботы или иным образом), связанные ресурсы не будут сканироваться и не могут быть проиндексированы. 2.) Никакой ссылочный капитал не может быть передан с заблокированной страницы на место назначения ссылки.Если у вас есть страницы, на которые вы хотите передать средства, используйте другой механизм блокировки, отличный от robots.txt.

  • Не используйте robots.txt для предотвращения появления конфиденциальных данных (например, личной информации пользователя) в результатах поисковой выдачи. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию (таким образом, в обход директив robots.txt в вашем корневом домене или домашней странице), она все равно может быть проиндексирована. Если вы хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например защиту паролем или метадирективу noindex.

  • Некоторые поисковые системы имеют несколько пользовательских агентов. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов из одной и той же поисковой системы следуют одним и тем же правилам, поэтому нет необходимости указывать директивы для каждого из нескольких сканеров поисковой системы, но возможность делать это позволяет вам точно настроить способ сканирования содержания вашего сайта.

  • Поисковая машина кэширует содержимое robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день.Если вы изменили файл и хотите обновить его быстрее, чем это происходит, вы можете отправить свой URL-адрес robots.txt в Google.

Robots.txt vs meta robots vs x-robots

Так много роботов! В чем разница между этими тремя типами инструкций для роботов? Во-первых, robots.txt — это фактический текстовый файл, тогда как meta и x-robots — это метадирективы. Помимо того, чем они являются на самом деле, все три выполняют разные функции. Файл robots.txt определяет поведение сканирования сайта или всего каталога, тогда как мета и x-роботы могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).


Продолжайте учиться

Используйте свои навыки

Moz Pro может определить, блокирует ли ваш файл robots.txt доступ к вашему веб-сайту. Попробуйте >>

Создайте лучший с помощью этого руководства на 2021 год

Robots.txt вкратце

Файл robots.txt содержит директивы для поисковых систем. Вы можете использовать его, чтобы запретить поисковым системам сканировать определенные части вашего веб-сайта и давать поисковым системам полезные советы о том, как они могут лучше всего сканировать ваш веб-сайт.Файл robots.txt играет большую роль в SEO.

При внедрении robots.txt помните о следующих передовых методах:

  • Будьте осторожны при внесении изменений в свой robots.txt: этот файл может сделать большие части вашего веб-сайта недоступными для поисковых систем.
  • Файл robots.txt должен находиться в корне вашего веб-сайта (например, http://www.example.com/robots.txt ).
  • Файл robots.txt действителен только для всего домена, в котором он находится, включая протокол ( http или https ).
  • Разные поисковые системы по-разному интерпретируют директивы. По умолчанию всегда побеждает первая соответствующая директива. Но с Google и Bing побеждает специфика.
  • По возможности избегайте использования директивы задержки сканирования для поисковых систем.

Что такое файл robots.txt?

Файл robots.txt сообщает поисковым системам, каковы правила взаимодействия с вашим сайтом. Большая часть SEO — это отправка правильных сигналов поисковым системам и роботам.txt — это один из способов сообщить поисковым системам о ваших предпочтениях сканирования.

В 2019 году мы наблюдали некоторые изменения, связанные со стандартом robots.txt: Google предложила расширение для протокола исключения роботов и открыла исходный код своего парсера robots.txt.

TL; DR

  • Интерпретатор Google robots.txt довольно гибкий и на удивление снисходительный.
  • В случае возникновения путаницы в директивах Google перестраховывается и предполагает, что разделы должны быть ограничены, а не неограничены.
Файл robots.txt сообщает поисковым системам, к каким URL нельзя обращаться.

Поисковые системы регулярно проверяют файл robots.txt веб-сайта, чтобы узнать, есть ли какие-либо инструкции по сканированию веб-сайта. Мы называем эти инструкции директивами .

Если файл robots.txt отсутствует или нет применимых директив, поисковые системы будут сканировать весь веб-сайт.

Хотя все основные поисковые системы уважают файл robots.txt, поисковые системы могут игнорировать (части) ваших роботов.txt файл. Хотя директивы в файле robots.txt являются сильным сигналом для поисковых систем, важно помнить, что файл robots.txt представляет собой набор необязательных директив для поисковых систем, а не мандат.

robots.txt — самый конфиденциальный файл во вселенной SEO. Один персонаж может сломать весь сайт.

Терминология вокруг файла robots.txt

Файл robots.txt является реализацией стандарта исключения роботов , также называемого протоколом исключения роботов .

Зачем вам нужен файл robots.txt?

Файл robots.txt играет важную роль с точки зрения SEO. Он сообщает поисковым системам, как лучше всего сканировать ваш сайт.

Используя файл robots.txt, вы можете запретить поисковым системам доступ к определенным частям вашего веб-сайта , предотвратить дублирование контента и дать поисковым системам полезные советы о том, как они могут сканировать ваш веб-сайт более эффективно .

Будьте осторожны, , при внесении изменений в роботов.txt: этот файл может сделать большую часть вашего сайта недоступной для поисковых систем.

Robots.txt часто слишком часто используется для уменьшения дублирования контента, тем самым убивая внутренние ссылки, поэтому будьте с ними очень осторожны. Мой совет — всегда использовать его только для файлов или страниц, которые поисковые системы никогда не должны видеть или которые могут значительно повлиять на сканирование, будучи допущенными к ним. Типичные примеры: области входа в систему, которые генерируют много разных URL-адресов, тестовые области или где может существовать многогранная навигация.И обязательно следите за своим файлом robots.txt на предмет любых проблем или изменений.

Подавляющее большинство проблем, которые я вижу с файлами robots.txt, можно разделить на три сегмента:

  1. Неправильная обработка подстановочных знаков. Довольно часто можно увидеть заблокированные части сайта, которые должны были быть заблокированы. Иногда, если вы не будете осторожны, директивы могут также противоречить друг другу.
  2. Кто-то, например разработчик, неожиданно внес изменение (часто при добавлении нового кода) и случайно изменил файл robots.txt без вашего ведома.
  3. Включение директив, которых нет в файле robots.txt. Robots.txt является веб-стандартом и имеет некоторые ограничения. Я часто вижу, как разработчики создают директивы, которые просто не работают (по крайней мере, для подавляющего большинства поисковых роботов). Иногда это безобидно, иногда не очень.

Пример

Давайте рассмотрим пример, чтобы проиллюстрировать это:

У вас есть веб-сайт электронной коммерции, и посетители могут использовать фильтр для быстрого поиска по вашим товарам.Этот фильтр генерирует страницы, которые в основном показывают то же содержание, что и другие страницы. Это отлично работает для пользователей, но сбивает с толку поисковые системы, поскольку создает дублированный контент.

Вы не хотите, чтобы поисковые системы индексировали эти отфильтрованные страницы и тратили свое драгоценное время на эти URL с отфильтрованным содержанием. Поэтому вам следует установить правила Disallow , чтобы поисковые системы не получали доступ к этим отфильтрованным страницам продуктов.

Предотвращение дублирования контента также можно сделать с помощью канонического URL или метатега robots, однако они не адресуются, позволяя поисковым системам сканировать только важные страницы.

Использование канонического URL или метатега robots не помешает поисковым системам сканировать эти страницы. Это только предотвратит отображение этих страниц в результатах поиска поисковыми системами. Поскольку поисковые системы имеют ограниченное время для сканирования веб-сайта, это время следует потратить на страницы, которые вы хотите отображать в поисковых системах.

Ваш robots.txt работает против вас?

Неправильно настроенный файл robots.txt может сдерживать эффективность SEO. Сразу же проверьте, так ли это на вашем сайте!

Это очень простой инструмент, но robots.txt может вызвать множество проблем, если он неправильно настроен, особенно для крупных веб-сайтов. Очень легко сделать ошибки, например заблокировать весь сайт после развертывания нового дизайна или CMS или не заблокировать разделы сайта, которые должны быть конфиденциальными. Для крупных веб-сайтов очень важно обеспечить эффективное сканирование Google, и хорошо структурированный файл robots.txt является важным инструментом в этом процессе.

Вам нужно потратить время, чтобы понять, какие разделы вашего сайта лучше всего держать подальше от Google, чтобы они тратили как можно больше своих ресурсов на сканирование страниц, которые вам действительно интересны.

Как выглядит файл robots.txt?

Пример того, как может выглядеть простой файл robots.txt для веб-сайта WordPress:

  Агент пользователя: *
Disallow: / wp-admin /  

Давайте объясним анатомию файла robots.txt на основе приведенного выше примера:

  • User-agent: user-agent указывает, для каких поисковых систем предназначены следующие директивы.
  • * : это означает, что директивы предназначены для всех поисковых систем.
  • Disallow : это директива, указывающая, какой контент недоступен для пользовательского агента .
  • / wp-admin / : это путь , который недоступен для пользовательского агента .

Вкратце: этот файл robots.txt сообщает всем поисковым системам, чтобы они не заходили в каталог / wp-admin / .

Давайте более подробно проанализируем различные компоненты файлов robots.txt:

User-agent в robots.txt

Каждая поисковая система должна идентифицировать себя с помощью пользовательского агента . Роботы Google идентифицируются как Googlebot , например, роботы Yahoo — как Slurp , а робот Bing — как BingBot и так далее.

Запись пользовательского агента определяет начало группы директив. Все директивы между первым пользовательским агентом и следующей пользовательской записью обрабатываются как директивы для первого пользовательского агента .

Директивы

могут применяться к определенным пользовательским агентам, но они также могут применяться ко всем пользовательским агентам. В этом случае используется подстановочный знак: User-agent: * .

Директива Disallow в robots.txt

Вы можете запретить поисковым системам получать доступ к определенным файлам, страницам или разделам вашего веб-сайта. Это делается с помощью директивы Disallow . За директивой Disallow следует путь , к которому не следует обращаться. Если путь не определен, директива игнорируется.

Пример
  Агент пользователя: *
Запретить: / wp-admin /  

В этом примере всем поисковым системам предлагается не обращаться к каталогу / wp-admin / .

Разрешить директиву в robots.txt

Директива Allow используется для противодействия директиве Disallow . Директива Allow поддерживается Google и Bing. Используя вместе директивы Allow и Disallow , вы можете указать поисковым системам, что они могут получить доступ к определенному файлу или странице в каталоге, который иначе запрещен.За директивой Allow следует путь , к которому можно получить доступ. Если путь не определен, директива игнорируется.

Пример
  Агент пользователя: *
Разрешить: /media/terms-and-conditions.pdf
Disallow: / media /  

В приведенном выше примере всем поисковым системам не разрешен доступ к каталогу / media / , за исключением файла /media/terms-and-conditions.pdf .

Важно: при одновременном использовании директив Allow и Disallow не используйте подстановочные знаки, поскольку это может привести к конфликту директив.

Пример конфликтующих директив
  Агент пользователя: *
Разрешить: / каталог
Disallow: * .html  

Поисковые системы не будут знать, что делать с URL-адресом http://www.domain.com/directory.html . Для них неясно, разрешен ли им доступ. Когда директивы не ясны для Google, они будут использовать наименее строгую директиву, что в данном случае означает, что они фактически получат доступ к http://www.domain.com/directory.html .

Запрещающие правила в файле robots.txt сайта невероятно эффективны, поэтому с ними следует обращаться осторожно. Для некоторых сайтов предотвращение сканирования определенных URL-адресов поисковыми системами имеет решающее значение для обеспечения возможности сканирования и индексации нужных страниц, но неправильное использование правил запрета может серьезно повредить SEO сайта.

Отдельная строка для каждой директивы

Каждая директива должна быть на отдельной строке, иначе поисковые системы могут запутаться при парсинге robots.txt файл.

Пример неверного файла robots.txt

Предотвратить появление файла robots.txt, подобного этому:

  Агент пользователя: * Disallow: / directory-1 / Disallow: / directory-2 / Disallow: / directory-3/ 

Robots.txt - одна из тех функций, которые, как я чаще всего наблюдаю, реализованы неправильно, поэтому он не блокирует то, что они хотели заблокировать, или блокирует больше, чем они ожидали, и отрицательно влияет на их веб-сайт. Robots.txt - очень мощный инструмент, но слишком часто он неправильно настраивается.

Использование подстановочного знака *

Подстановочный знак можно использовать не только для определения пользовательского агента , но и для сопоставления URL-адресов. Подстановочный знак поддерживается Google, Bing, Yahoo и Ask.

Пример
  Агент пользователя: *
Запретить: *?  

В приведенном выше примере всем поисковым системам запрещен доступ к URL-адресам, содержащим вопросительный знак (? ).

Разработчики или владельцы сайтов часто думают, что могут использовать всевозможные регулярные выражения в файле robots.txt, тогда как на самом деле допустимо только очень ограниченное количество сопоставлений с образцом - например, подстановочные знаки ( * ). Кажется, время от времени возникает путаница между файлами .htaccess и robots.txt.

Использование конца URL $

Чтобы указать конец URL-адреса, вы можете использовать знак доллара ( $ ) в конце пути .

Пример
  Агент пользователя: *
Disallow: * .php $  

В приведенном выше примере поисковым системам не разрешен доступ ко всем URL-адресам, заканчивающимся на.php. URL-адреса с параметрами, например https://example.com/page.php?lang=en не будет запрещен, поскольку URL-адрес не заканчивается после .php .

Добавьте карту сайта в robots.txt

Несмотря на то, что файл robots.txt был изобретен, чтобы указывать поисковым системам, какие страницы не сканировать , файл robots.txt также можно использовать для направления поисковым системам на карту сайта XML. Это поддерживается Google, Bing, Yahoo и Ask.

На карту сайта XML следует ссылаться как на абсолютный URL.URL-адрес , а не должен находиться на том же хосте, что и файл robots.txt.

Ссылка на XML-карту сайта в файле robots.txt - одна из лучших практик, которую мы советуем вам делать всегда, даже если вы уже отправили свою XML-карту сайта в Google Search Console или Bing Webmaster Tools. Помните, что существует больше поисковых систем.

Обратите внимание, что в файле robots.txt можно ссылаться на несколько карт сайта XML.

Примеры

Несколько файлов Sitemap XML, определенных в файле robots.txt файл:

  Агент пользователя: *
Запретить: / wp-admin /
Карта сайта: https://www.example.com/sitemap1.xml
Карта сайта: https://www.example.com/sitemap2.xml  

В приведенном выше примере говорится, что все поисковые системы не обращаются к каталогу / wp-admin / и что есть две карты сайта XML, которые можно найти по адресу https://www.example.com/sitemap1.xml и https://www.example.com/sitemap2.xml .

Одна карта сайта XML, определенная в файле robots.txt:

  Агент пользователя: *
Запретить: / wp-admin /

Карта сайта: https: // www.example.com/sitemap_index.xml  

В приведенном выше примере говорится, что все поисковые системы не должны обращаться к каталогу / wp-admin / , а карту сайта XML можно найти по адресу https://www.example.com/sitemap_index .xml .

Часто задаваемые вопросы

Комментарии

Комментарии предшествуют # и могут быть помещены в начало строки или после директивы в той же строке. Все, что находится после # , будет проигнорировано.Эти комментарии предназначены только для людей.

Пример 1
  # Не разрешать доступ к каталогу / wp-admin / для всех роботов.
Пользовательский агент: *
Disallow: / wp-admin /  
Пример 2
  User-agent: * # Применимо ко всем роботам
Disallow: / wp-admin / # Не разрешать доступ к каталогу / wp-admin /.  

В приведенных выше примерах передается одно и то же сообщение.

Crawl-delay в robots.txt

Директива Crawl-delay - это неофициальная директива, используемая для предотвращения перегрузки серверов слишком большим количеством запросов.Если поисковые системы могут перегружать сервер, добавление Crawl-delay в файл robots.txt является лишь временным решением. Дело в том, что ваш сайт работает в плохой среде хостинга и / или ваш сайт неправильно настроен, и вы должны исправить это как можно скорее.

Пример robots.txt с указанной задержкой сканирования для Bing

. Способ обработки поисковыми системами Crawl-delay отличается. Ниже мы объясним, как с этим справляются основные поисковые системы.

Часто задаваемые вопросы

Задержка сканирования и Google

Сканер Google, Googlebot, не поддерживает директиву Crawl-delay , поэтому не беспокойтесь об определении задержки сканирования Google.

Однако Google поддерживает определение скорости сканирования (или «скорости запросов», если хотите) в консоли поиска Google.

Установка скорости сканирования в GSC

  1. Войдите в старую Google Search Console (откроется в новой вкладке).
  2. Выберите веб-сайт, для которого нужно определить скорость сканирования.
  3. Есть только один параметр, который вы можете изменить: Скорость сканирования , с ползунком, где вы можете установить предпочтительную скорость сканирования. По умолчанию для скорости сканирования установлено значение «Разрешить Google оптимизировать мой сайт (рекомендуется)».

Вот как это выглядит в Google Search Console:

Задержка сканирования и Bing, Yahoo и Яндекс

Bing, Yahoo и Яндекс поддерживают директиву Crawl-delay для ограничения сканирования веб-сайта. Однако их интерпретация задержки сканирования немного отличается, поэтому обязательно проверьте их документацию:

Директива Crawl-delay должна быть размещена сразу после директив Disallow или Allow .

Пример:
  Пользовательский агент: BingBot
Disallow: / private /
Задержка сканирования: 10  

Задержка сканирования и Baidu

Baidu не поддерживает директиву crawl-delay , однако можно зарегистрировать учетную запись Baidu Webmaster Tools, в которой вы можете контролировать частоту сканирования, аналогично Google Search Console.

Когда использовать файл robots.txt?

Мы рекомендуем всегда использовать файл robots.txt.В его наличии нет абсолютно никакого вреда, и это отличное место для передачи указаний поисковым системам о том, как им лучше всего сканировать ваш сайт.

Файл robots.txt может быть полезен для предотвращения сканирования и индексации определенных областей или документов на вашем сайте. Примерами являются, например, промежуточный сайт или PDF-файлы. Тщательно спланируйте, что нужно проиндексировать поисковыми системами, и помните, что контент, недоступный через robots.txt, может быть найден сканерами поисковых систем, если на него есть ссылки из других частей веб-сайта.

Лучшие практики robots.txt

Лучшие практики robots.txt подразделяются на следующие категории:

Расположение и имя файла

Файл robots.txt всегда должен быть размещен в корне веб-сайта (в каталоге верхнего уровня хоста) и иметь имя файла robots.txt , например: https: //www.example .com / robots.txt . Обратите внимание, что URL-адрес файла robots.txt, как и любой другой URL-адрес, чувствителен к регистру.

Если файл robots.txt не может быть найден в расположении по умолчанию, поисковые системы сочтут, что директивы отсутствуют, и уйдут на ваш сайт.

Порядок старшинства

Важно отметить, что поисковые системы по-разному обрабатывают файлы robots.txt. По умолчанию первая соответствующая директива всегда побеждает .

Однако с Google и Bing специфичность побеждает . Например: директива Allow имеет преимущество перед директивой Disallow , если ее длина символа больше.

Пример
  Агент пользователя: *
Разрешить: / about / company /
Disallow: / about /  

В приведенном выше примере всем поисковым системам, включая Google и Bing, не разрешен доступ к каталогу / about / , за исключением подкаталога / about / company / .

Пример
  Агент пользователя: *
Disallow: / about /
Разрешить: / about / company /  

В приведенном выше примере всем поисковым системам , кроме Google и Bing , запрещен доступ к каталогу / about / .Сюда входит каталог / about / company / .

Google и Bing имеют доступ к , потому что директива Allow длиннее , чем директива Disallow .

Только одна группа директив на робота

Вы можете определить только одну группу директив для каждой поисковой системы. Наличие нескольких групп директив для одной поисковой системы сбивает их с толку.

Будьте как можно более конкретными

Директива Disallow также срабатывает при частичных совпадениях.Будьте как можно более конкретными при определении директивы Disallow , чтобы предотвратить непреднамеренное запрещение доступа к файлам.

Пример:
  Агент пользователя: *
Disallow: / directory  

В приведенном выше примере поисковым системам запрещен доступ к:

  • / каталог
  • / каталог /
  • / имя-каталога-1
  • / имя-каталога.html
  • / имя-каталога.php
  • / имя-каталога.pdf

Директивы для всех роботов, а также директивы для конкретного робота

Для робота действует только одна группа директив. В случае, если директивы, предназначенные для всех роботов, сопровождаются директивами для конкретного робота, будут приняты во внимание только эти конкретные директивы. Чтобы конкретный робот также выполнял директивы для всех роботов, вам необходимо повторить эти директивы для конкретного робота.

Давайте посмотрим на пример, который прояснит это:

Пример
  Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /

Пользовательский агент: googlebot
Disallow: / not-loaded-yet /  

В приведенном выше примере всем поисковым системам , кроме Google , запрещен доступ к / secret / , / test / и / not-loaded-yet / . Google не разрешен доступ только к / not-launch-until / , но разрешен доступ к / secret / и / test / .

Если вы не хотите, чтобы робот googlebot имел доступ к / secret / и / not-loaded-yet / , вам необходимо повторить эти директивы специально для googlebot :

  Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /

Пользовательский агент: googlebot
Disallow: / secret /
Запретить: / not-launch-yet /  

Обратите внимание, что ваш файл robots.txt общедоступен. Запрет на использование разделов веб-сайта может быть использован злоумышленниками как вектор атаки.

Robots.txt может быть опасным. Вы не только указываете поисковым системам, куда вы не хотите, чтобы они смотрели, вы говорите людям, где вы скрываете свои грязные секреты.

Файл robots.txt для каждого (под) домена

Директивы Robots.txt применяются только к (под) домену, в котором размещен файл.

Примеры

http://example.com/robots.txt действительно для http://example.com , но не для http: // www.example.com или https://example.com .

Рекомендуется, чтобы в вашем (под) домене был доступен только один файл robots.txt.

Если у вас есть несколько файлов robots.txt, убедитесь, что они возвращают HTTP-статус 404 или 301 перенаправляют их в канонический файл robots.txt.

Противоречивые рекомендации: robots.txt и Google Search Console

Если ваш файл robots.txt конфликтует с настройками, определенными в Google Search Console, Google часто предпочитает использовать настройки, определенные в Google Search Console, вместо директив, определенных в robots.txt файл.

Следите за своим файлом robots.txt

Важно отслеживать изменения в файле robots.txt. В ContentKing мы видим множество проблем, из-за которых неправильные директивы и внезапные изменения в файле robots.txt вызывают серьезные проблемы с поисковой оптимизацией.

Это особенно актуально при запуске новых функций или нового веб-сайта, который был подготовлен в тестовой среде, поскольку они часто содержат следующий файл robots.txt:

  Агент пользователя: *
Disallow: /  

Мы построили роботов.txt, отслеживание изменений и оповещение по этой причине.

Как узнать об изменении файла robots.txt?

Мы видим это постоянно: файлы robots.txt меняются без ведома команды цифрового маркетинга. Не будь этим человеком. Начните отслеживать свой файл robots.txt, теперь получайте оповещения при его изменении!

Не используйте noindex в своем robots.txt

В течение многих лет Google уже открыто рекомендовал не использовать неофициальную директиву noindex (открывается в новой вкладке).Однако с 1 сентября 2019 года Google полностью прекратил его поддержку (открывается в новой вкладке).

Неофициальная директива noindex никогда не работала в Bing, что подтверждено Фредериком Дубутом в этом твите (открывается в новой вкладке):

Лучший способ сообщить поисковым системам, что страницы не следует индексировать, - это использовать метатег robots или X-Robots-Tag.

Часто задаваемые вопросы

Запретить спецификацию UTF-8 в файле robots.txt

BOM обозначает метку порядка байтов , невидимый символ в начале файла, используемый для обозначения кодировки Unicode текстового файла.

В то время как Google заявляет (открывается в новой вкладке), они игнорируют необязательную отметку порядка байтов Unicode в начале файла robots.txt, мы рекомендуем предотвращать «UTF-8 BOM», потому что мы видели, что это вызывает проблемы с интерпретацией файла robots.txt поисковыми системами.

Несмотря на то, что Google заявляет, что может с этим справиться, вот две причины, чтобы предотвратить использование спецификации UTF-8:

  1. Вы не хотите, чтобы у вас возникла двусмысленность в отношении ваших предпочтений при сканировании в поисковые системы.
  2. Существуют и другие поисковые системы, которые могут быть не такими снисходительными, как утверждает Google.

Примеры robots.txt

В этой главе мы рассмотрим широкий спектр примеров файлов robots.txt:

Разрешить всем роботам доступ ко всему

Есть несколько способов сообщить поисковым системам, что они имеют доступ ко всем файлам:

Или у вас есть пустой файл robots.txt, или он вообще не имеет robots.txt.

Запретить всем роботам доступ ко всему

Пример robots.txt ниже сообщает всем поисковым системам, что им нельзя обращаться ко всему сайту:

  Агент пользователя: *
Disallow: /  

Обратите внимание, что только ОДИН дополнительный символ может иметь решающее значение.

У всех ботов Google нет доступа

  Пользовательский агент: googlebot
Disallow: /  

Обратите внимание, что запрет на использование робота Googlebot распространяется на всех роботов Googlebot. Сюда входят роботы Google, которые ищут, например, новости ( googlebot-news ) и изображения ( googlebot-images ).

Все роботы Google, кроме новостных роботов Googlebot, не имеют доступа

  Пользовательский агент: googlebot
Запретить: /

Пользовательский агент: googlebot-news
Disallow:  

У Googlebot и Slurp нет доступа

  Агент пользователя: Slurp
Пользовательский агент: googlebot
Disallow: /  

У всех роботов нет доступа к двум каталогам

  Агент пользователя: *
Запретить: / admin /
Disallow: / private /  

Не все роботы имеют доступ к одному конкретному файлу

  Агент пользователя: *
Запретить: / каталог / some-pdf.pdf  

У робота Googlebot нет доступа к / admin /, а у Slurp нет доступа к / private /

.
  Пользовательский агент: googlebot
Запретить: / admin /

Пользовательский агент: Slurp
Disallow: / private /  

Часто задаваемые вопросы

Файл robots.txt для WordPress

Приведенный ниже файл robots.txt специально оптимизирован для WordPress, при условии:

  • Вы не хотите, чтобы ваш раздел администратора сканировался.
  • Вы не хотите, чтобы ваши страницы результатов внутреннего поиска сканировались.
  • Вы не хотите, чтобы страницы вашего тега и автора сканировались.
  • Вы не хотите, чтобы ваша страница 404 сканировалась.
  Агент пользователя: *
Запретить: / wp-admin / # заблокировать доступ к разделу администратора
Запретить: /wp-login.php # заблокировать доступ в админку
Запретить: / search / # заблокировать доступ к страницам результатов внутреннего поиска
Запретить: *? S = * # заблокировать доступ к страницам результатов внутреннего поиска
Disallow: *? P = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Disallow: * & p = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Запретить: * & preview = * # заблокировать доступ к страницам предварительного просмотра
Запретить: / tag / # заблокировать доступ к страницам тегов
Запретить: / author / # заблокировать доступ к страницам авторов
Запретить: / 404-ошибка / # заблокировать доступ к странице 404

Карта сайта: https: // www.example.com/sitemap_index.xml  

Обратите внимание, что этот файл robots.txt будет работать в большинстве случаев, но вы должны всегда настраивать его и тестировать, чтобы убедиться, что он применим к вашей конкретной ситуации.

Файл robots.txt для Magento

Приведенный ниже файл robots.txt специально оптимизирован для Magento и сделает недоступными для поисковых роботов внутренние результаты поиска, страницы входа, идентификаторы сеансов и отфильтрованные наборы результатов, содержащие цену , цвет , материал и размер . .

  Агент пользователя: *
Запретить: / catalogsearch /
Запретить: / поиск /
Запретить: / клиент / аккаунт / логин /
Запретить: / *? SID =
Запретить: / *? PHPSESSID =
Disallow: / *? Price =
Disallow: / * & price =
Запретить: / *? Color =
Запретить: / * & color =
Disallow: / *? Material =
Запретить: / * & материал =
Запретить: / *? Size =
Запретить: / * & size =

Карта сайта: https://www.example.com/sitemap_index.xml  

Обратите внимание, что этот файл robots.txt будет работать для большинства магазинов Magento, но вы должны всегда настраивать его и проверять, чтобы убедиться, что он применим к ваша точная ситуация.

Полезные ресурсы

Я бы всегда старался блокировать результаты внутреннего поиска в robots.txt на любом сайте, потому что эти типы поисковых URL-адресов представляют собой бесконечные и бесконечные пробелы. Робот Googlebot может попасть в ловушку робота-робота.

Каковы ограничения файла robots.txt?

Файл robots.txt содержит директивы

Несмотря на то, что robots.txt пользуется большим уважением в поисковых системах, он все же является директивой, а не предписанием.

Страницы по-прежнему отображаются в результатах поиска

Страницы, которые недоступны для поисковых систем из-за файла robots.txt, но имеют ссылки на них, могут по-прежнему отображаться в результатах поиска, если на них есть ссылки со страницы, которая просматривается. Пример того, как это выглядит:

Наконечник Pro

Эти URL-адреса можно удалить из Google с помощью инструмента удаления URL-адресов в Google Search Console. Обратите внимание, что эти URL-адреса будут только временно «скрыты». Чтобы они не попадали на страницы результатов поиска Google, вам необходимо отправлять запрос на скрытие URL-адресов каждые 180 дней.

Используйте robots.txt, чтобы заблокировать нежелательные и, вероятно, вредоносные обратные ссылки на партнерские программы. Не используйте robots.txt для предотвращения индексации контента поисковыми системами, поскольку это неизбежно приведет к сбою. Вместо этого при необходимости примените директиву noindex для роботов.

Файл robots.txt кешируется до 24 часов

Google указал, что файл robots.txt обычно кэшируется на срок до 24 часов. Это важно учитывать при внесении изменений в свои robots.txt файл.

Непонятно, как другие поисковые системы борются с кэшированием robots.txt, но в целом лучше избегать кеширования файла robots.txt, чтобы поисковым системам требовалось больше времени, чем необходимо, чтобы они могли уловить изменения.

Размер файла robots.txt

Для файлов robots.txt Google в настоящее время поддерживает ограничение на размер файла в 500 кибибайт (512 килобайт). Любое содержимое после максимального размера файла может игнорироваться.

Неясно, есть ли у других поисковых систем максимальный размер файла для роботов.txt файлы.

Часто задаваемые вопросы о robots.txt

🤖 Как выглядит пример файла robots.txt?

Вот пример содержания файла robots.txt: User-agent: * Disallow:. Это говорит всем сканерам, что они могут получить доступ ко всему.

⛔ Что делает Disallow all в robots.txt?

Когда вы устанавливаете robots.txt на «Запретить все», вы, по сути, говорите всем сканерам держаться подальше. Никакие сканеры, в том числе Google, не имеют доступа к вашему сайту.Это означает, что они не смогут сканировать, индексировать и оценивать ваш сайт. Это приведет к резкому падению органического трафика.

✅ Что делает Allow all в robots.txt?

Когда вы устанавливаете robots.txt на «Разрешить все», вы сообщаете каждому сканеру, что он может получить доступ ко всем URL на сайте. Правил приема просто нет. Обратите внимание, что это эквивалентно пустому файлу robots.txt или отсутствию файла robots.txt вообще.

🤔 Насколько важен robots.txt для SEO?

В общем, роботы.txt очень важен для SEO. Для более крупных веб-сайтов файл robots.txt необходим, чтобы дать поисковым системам очень четкие инструкции о том, к какому контенту нельзя обращаться.

Дополнительная литература

Полезные ресурсы

Часто задаваемые вопросы о robots.txt

Полное руководство по robots.txt • Yoast

Йост де Валк

Йост де Валк - основатель и директор по продуктам Yoast. Он интернет-предприниматель, который незадолго до основания Yoast инвестировал и консультировал несколько стартапов.Его основная специализация - разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.

Файл robots.txt - это один из основных способов сообщить поисковой системе, где можно, а где нельзя переходить на ваш веб-сайт. Все основные поисковые системы поддерживают базовую функциональность, которую они предлагают, но некоторые из них реагируют на некоторые дополнительные правила, которые также могут быть полезны. В этом руководстве описаны все способы использования robots.txt на вашем веб-сайте.

Предупреждение!

Любые ошибки, которые вы делаете в своих роботах.txt может серьезно навредить вашему сайту, поэтому убедитесь, что вы прочитали и поняли всю эту статью, прежде чем углубляться в нее.

Что такое файл robots.txt?

Директивы сканирования

Файл robots.txt является одной из нескольких директив сканирования. У нас есть руководства по всем из них, и вы найдете их здесь.

Файл robots.txt - это текстовый файл, который читается поисковой системой (и другими системами). Файл robots.txt, также называемый «протоколом исключения роботов», является результатом консенсуса между разработчиками первых поисковых систем.Это не официальный стандарт, установленный какой-либо организацией по стандартизации; хотя его придерживаются все основные поисковые системы.

Для чего нужен файл robots.txt?

Кэширование

Поисковые системы обычно кэшируют содержимое файла robots.txt, чтобы не загружать его постоянно, но обычно обновляют его несколько раз в день. Это означает, что изменения в инструкциях обычно отражаются довольно быстро.

Поисковые системы обнаруживают и индексируют Интернет путем сканирования страниц.Во время сканирования они находят ссылки и переходят по ним. Это переведет их с сайта A на сайта B на сайта C и так далее. Но прежде чем поисковая система посетит любую страницу в домене, с которым она раньше не сталкивалась, она откроет файл robots.txt этого домена. Это позволяет им узнать, какие URL-адреса на этом сайте им разрешено посещать (а какие - нет).

Куда мне поместить файл robots.txt?

Файл robots.txt всегда должен находиться в корне вашего домена.Итак, если ваш домен - www.example.com , его нужно найти по адресу https://www.example.com/robots.txt .

Также очень важно, чтобы ваш файл robots.txt на самом деле назывался robots.txt. Имя чувствительно к регистру, так что сделайте это правильно, иначе оно просто не сработает.

Плюсы и минусы использования robots.txt

Pro: управление краулинговым бюджетом

Обычно считается, что поисковый паук попадает на веб-сайт с заранее определенным «допуском» в отношении того, сколько страниц он будет сканировать (или сколько ресурсов / времени он потратит, в зависимости от авторитета / размера / репутации сайта, и насколько эффективно сервер отвечает).SEO-специалисты называют это обходным бюджетом .

Если вы считаете, что у вашего веб-сайта проблемы с бюджетом сканирования, то блокировка поисковых систем от «траты энергии» на несущественные части вашего сайта может означать, что они вместо этого сосредотачиваются на разделах, которые имеют значение и .

Иногда может быть полезно заблокировать поисковые системы от сканирования проблемных разделов вашего сайта, особенно на сайтах, где требуется большая очистка SEO. После того, как вы наведете порядок, вы можете позволить им вернуться.

Примечание о блокировке параметров запроса

Одна из ситуаций, когда бюджет сканирования особенно важен, - это когда ваш сайт использует множество параметров строки запроса для , фильтрует или сортирует перечисляет . Допустим, у вас есть 10 разных параметров запроса, каждый с разными значениями, которые можно использовать в любой комбинации (например, футболки с несколькими цветами s и размером s). Это приводит к множеству возможных действительных URL-адресов, и все они могут быть просканированы.Блокировка параметров запроса от сканирования поможет убедиться, что поисковая система будет сканировать только основные URL-адреса вашего сайта и не попадет в огромную ловушку, которую вы в противном случае создали бы.

Con: не удаление страницы из результатов поиска

Даже если вы можете использовать файл robots.txt, чтобы сообщить пауку, где он не может перейти на ваш сайт, вы, , не можете. использовать его, чтобы сообщить поисковой системе, какие URL-адреса не показывать в результатах поиска - другими словами , блокировка не помешает его индексации.Если поисковая система найдет достаточно ссылок на этот URL, она включит его, но просто не будет знать, что на этой странице. Итак, ваш результат будет выглядеть так:

Если вы хотите надежно заблокировать отображение страницы в результатах поиска, вам необходимо использовать мета-тег noindex для роботов. Это означает, что для того, чтобы найти тег noindex , поисковая система должна иметь доступ к этой странице, поэтому не блокирует с помощью robots.txt.

Директивы Noindex

Раньше можно было добавлять директивы noindex в файл robots.txt, чтобы удалить URL-адреса из результатов поиска Google и избежать появления этих "фрагментов". Это больше не поддерживается (и технически никогда не поддерживалось).

Con: не распространяется значение ссылки

Если поисковая система не может сканировать страницу, она не может распределять значение ссылки по ссылкам на этой странице. Когда страница заблокирована с помощью robots.txt, это тупиковый путь. Любое значение ссылки, которая могла перейти на эту страницу (и через нее), теряется.

Синтаксис Robots.txt

WordPress robots.txt

У нас есть целая статья о том, как лучше всего настроить robots.txt для WordPress. Не забывайте, что вы можете редактировать файл robots.txt своего сайта в разделе Инструменты SEO Yoast → Редактор файлов.

Файл robots.txt состоит из одного или нескольких блоков директив, каждый из которых начинается со строки пользовательского агента. «Пользовательский агент» - это имя конкретного паука, к которому он обращается. У вас может быть один блок для всех поисковых систем, используя подстановочный знак для пользовательского агента, или определенные блоки для определенных поисковых систем.Паук поисковой системы всегда выбирает блок, который лучше всего соответствует его названию.

Эти блоки выглядят так (не пугайтесь, объясним ниже):

 User-agent: * 
Disallow: /

User-agent: Googlebot
Disallow:

User-agent: bingbot
Disallow: / not-for-bing /

Директивы

, такие как Allow и Disallow не должны быть чувствительны к регистру, поэтому вам решать, писать ли вы их в нижнем или верхнем регистре.Значения чувствительны к регистру , однако / photo / не то же самое, что / Photo / . Нам нравится использовать директивы с заглавной буквы, потому что это облегчает чтение файла (для людей).

Директива пользовательского агента

Первый бит каждого блока директив - это пользовательский агент, который идентифицирует конкретного паука. Поле user-agent сопоставляется с user-agent этого конкретного паука (обычно более длинного), поэтому, например, у самого распространенного паука от Google есть следующий user-agent:

 Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) 

Итак, если вы хотите сказать этому пауку, что делать, сравнительно простая строка User-agent: Googlebot сделает свое дело.

У большинства поисковых систем есть несколько пауков. Они будут использовать специальный паук для своего обычного индекса, для своих рекламных программ, для изображений, для видео и т. Д.

Поисковые системы всегда выбирают наиболее конкретный блок директив, который они могут найти. Допустим, у вас есть 3 набора директив: один для * , один для Googlebot и один для Googlebot-News .Если приходит бот, пользовательский агент которого Googlebot-Video , он будет следовать ограничениям Googlebot . Бот с пользовательским агентом Googlebot-News будет использовать более конкретные директивы Googlebot-News .

Наиболее распространенные пользовательские агенты для пауков поисковых систем

Вот список пользовательских агентов, которые можно использовать в файле robots.txt для поиска наиболее часто используемых поисковых систем:

Bing9 9022 9022 9022 Google Новости 9016
Поисковая машина Поле User-agent
Baidu General baiduspider
Baidu baidu изображений Мобильный baiduspider-mobile
Baidu Новости baiduspider-news
Baidu Видео162 bingbot
Bing Общий msnbot
Bing Изображения и видео msnbot-media Общие Googlebot
Google Изображения Googlebot-Image
Google Mobile Googlebot-Mobile
Google Видео Googlebot-Video
Google AdSense Mediapartners-Google
Google! General slurp
Yandex General yandex

Директива disallow

Вторая строка в любом блоке директив — это строка Disallow .У вас может быть одна или несколько таких строк, указывающих, к каким частям сайта указанный паук не может получить доступ. Пустая строка Disallow означает, что вы ничего не запрещаете, поэтому в основном это означает, что паук может получить доступ ко всем разделам вашего сайта.

В приведенном ниже примере блокируются все поисковые системы, которые «слушают» robots.txt, от сканирования вашего сайта.

 Агент пользователя: * 
Disallow: /

Если всего на один символ меньше, то в приведенном ниже примере позволит всем поисковым системам сканировать весь ваш сайт.

 Агент пользователя: * 
Disallow:

В приведенном ниже примере Google не сможет сканировать каталог Photo на вашем сайте — и все, что в нем.

 User-agent: googlebot 
Disallow: / Photo

Это означает, что все подкаталоги каталога / Photo также не будут проверяться. Это не , а заблокирует Google от сканирования каталога / photo , поскольку эти строки чувствительны к регистру.

Это будет также заблокировать Google от доступа к URL-адресам, содержащим / Photo , например / Photography / .

Как использовать подстановочные знаки / регулярные выражения

«Официально» стандарт robots.txt не поддерживает регулярные выражения или подстановочные знаки, однако все основные поисковые системы его понимают. Это означает, что вы можете использовать такие строки для блокировки групп файлов:

 Запрещено: /*.php 
Запрещено: /copyrighted-images/*.jpg

В приведенном выше примере * заменяется на любое имя файла, которому оно соответствует. Обратите внимание, что остальная часть строки по-прежнему чувствительна к регистру, поэтому вторая строка выше не будет блокировать файл с именем / copyrighted-images / example.JPG от сканирования.

Некоторые поисковые системы, такие как Google, позволяют использовать более сложные регулярные выражения, но имейте в виду, что некоторые поисковые системы могут не понимать эту логику. Самая полезная функция, которую он добавляет, — это долларов США, указывающее конец URL-адреса. В следующем примере вы можете увидеть, что это делает:

 Запретить: /*.php$ 

Это означает, что /index.php нельзя проиндексировать, а /index.php?p=1 можно проиндексировать.Конечно, это полезно только в очень определенных обстоятельствах, а также довольно опасно: легко разблокировать то, что вы на самом деле не хотели разблокировать.

Нестандартные директивы сканирования robots.txt

Помимо директив Disallow и User-agent , вы можете использовать еще несколько директив сканирования. Эти директивы поддерживаются не всеми сканерами поисковых систем, поэтому убедитесь, что вы знаете об их ограничениях.

Разрешающая директива

Хотя это и не входило в исходную «спецификацию», очень рано говорилось о директиве allow .Кажется, что большинство поисковых систем понимают это, и он допускает простые и очень удобочитаемые директивы, например:

 Запретить: / wp-admin / 
Разрешить: /wp-admin/admin-ajax.php

Единственный другой способ достичь того же результата без директивы allow — это специально запретить каждый отдельный файл в папке wp-admin .

Директива хоста

Поддерживаемая Яндексом (а не Google, несмотря на то, что говорится в некоторых сообщениях), эта директива позволяет вам решить, хотите ли вы, чтобы поисковая система показывала пример .com или www.example.com . Просто укажите это так:

 хост: example.com 

Но поскольку только Яндекс поддерживает директиву host , мы не советуем вам полагаться на нее, тем более что она не позволяет вам определять схему (http или https). Лучшее решение, которое работает для всех поисковых систем, — это 301 перенаправление имен хостов, которые не нужны для в индексе, на версию, которая нужна вам .В нашем случае мы перенаправляем www.yoast.com на yoast.com.

Директива задержки сканирования

Bing и Яндекс иногда могут быть довольно голодными, но, к счастью, все они реагируют на директиву crawl-delay , которая их замедляет. И хотя эти поисковые системы имеют несколько разные способы чтения директивы, конечный результат в основном тот же.

Строка, подобная приведенной ниже, заставит эти поисковые системы изменить частоту запроса страниц на вашем сайте.

 задержка сканирования: 10 
Различные интерпретации

Обратите внимание, что Bing интерпретирует это как инструкцию подождать 10 секунд после сканирования, в то время как Яндекс интерпретирует ее как указание на доступ к вашему сайту только один раз в 10 секунд. Это небольшая разница, но все же интересно узнать.

Будьте осторожны при использовании директивы crawl-delay . Установив задержку сканирования в 10 секунд, вы разрешите этим поисковым системам доступ только к 8 640 страницам в день.Для небольшого сайта этого может показаться много, но для крупных сайтов не так уж много. С другой стороны, если вы почти не получаете трафика от этих поисковых систем, это хороший способ сэкономить часть полосы пропускания.

Директива карты сайта для XML-файлов Sitemap

Используя директиву sitemap , вы можете указать поисковым системам, в частности, Bing, Яндекс и Google, где найти вашу карту сайта в формате XML. Вы, конечно, также можете отправить свои XML-карты сайта в каждую поисковую систему, используя соответствующие решения инструментов для веб-мастеров, и мы настоятельно рекомендуем вам это сделать, потому что программы инструментов для веб-мастеров поисковых систем предоставят вам много ценной информации о вашем сайте.Если вы не хотите этого делать, добавление строки sitemap в файл robots.txt — хорошая быстрая альтернатива.

 Карта сайта: https://www.example.com/my-sitemap.xml 

Проверьте свой robots.txt

Существуют различные инструменты, которые могут помочь вам проверить файл robots.txt, но когда дело доходит до проверки директив сканирования, мы всегда предпочитаем обращаться к источнику. У Google есть инструмент тестирования robots.txt в своей консоли поиска Google (в меню «Старая версия»), и мы настоятельно рекомендуем его использовать:

Обязательно тщательно протестируйте свои изменения, прежде чем вводить их в действие! Вы не станете первым, кто случайно воспользуется роботами.txt, чтобы заблокировать весь ваш сайт и уйти в небытие поисковой системы!

Увидеть код

В июле 2019 года Google объявил, что делает свой парсер robots.txt открытым исходным кодом. Это означает, что, если вы действительно хотите разобраться в деталях, вы можете пойти и посмотреть, как работает их код (и даже использовать его самостоятельно или предложить модификации).

User-Agent — HTTP | MDN

Заголовок запроса User-Agent представляет собой характеристическую строку, которая позволяет серверам и одноранговым сетевым узлам идентифицировать приложение, операционную систему, поставщика и / или версию запрашивающего пользовательского агента.

  User-Agent: <продукт> / <версия-продукта> <комментарий>  

Общий формат для веб-браузеров:

  User-Agent: Mozilla / 5.0 ()  ()   

Директивы

Идентификатор продукта — его название или кодовое название разработки.
<версия-продукта>
Номер версии продукта.
<комментарий>
Ноль или более комментариев, содержащих более подробную информацию; информация о субпродукте, например.

Дополнительную информацию о строках пользовательских агентов на основе Firefox и Gecko см. В справочнике по строкам пользовательских агентов Firefox. Строка UA Firefox разбита на 4 компонента:

 Mozilla / 5.0 (  платформа  ; rv:   geckoversion  ) Gecko /   geckotrail   Firefox /   firefoxversion   
  1. Mozilla / 5.0 — это общий токен, который говорит, что браузер совместим с Mozilla. По историческим причинам почти каждый браузер сегодня его отправляет.
  2. платформа описывает собственную платформу, на которой работает браузер (Windows, Mac, Linux, Android и т. Д.), И если это мобильный телефон. Телефоны с Firefox OS говорят Mobile — Интернет — это платформа. Обратите внимание, что платформа может состоять из нескольких маркеров, разделенных «; ». См. Ниже подробности и примеры.
  3. rv: geckoversion указывает версию выпуска Gecko (например, « 17.0 »). В последних браузерах geckoversion совпадает с firefoxversion .
  4. Gecko / geckotrail указывает, что браузер основан на Gecko. (На рабочем столе geckotrail всегда является фиксированной строкой 20100101 .)
  5. Firefox / firefoxversion указывает, что браузером является Firefox, и предоставляет версию (например, « 17.0 «).

Примеры

 Mozilla / 5.0 (Windows NT 6.1; Win64; x64; rv: 47.0) Gecko / 20100101 Firefox / 47.0
Mozilla / 5.0 (Macintosh; Intel Mac OS X  x.y ; rv: 42.0) Gecko / 20100101 Firefox / 42.0
 

Строка пользовательского агента Chrome (или движков на основе Chromium / Blink) аналогична строке пользовательского агента Firefox. Для совместимости он добавляет строки вроде KHTML, например Gecko и Safari .

Примеры

 Mozilla / 5.0 (X11; Linux x86_64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / 51.0.2704.103 Safari / 537.36 

Браузер Opera также основан на движке Blink, поэтому он выглядит почти так же, но добавляет "OPR / " .

Примеры

 Mozilla / 5.0 (X11; Linux x86_64) AppleWebKit / 537.36 (KHTML, например Gecko) Chrome / 51.0.2704.106 Safari / 537.36 OPR / 38.0.2220.41 

Использованы более старые версии Opera на основе Presto:

 Opera / 9.80 (Macintosh; Intel Mac OS X; U; en) Presto / 2.2.15 Версия / 10.00
Opera / 9.60 (Windows NT 6.0; U; en) Presto / 2.1.1 

В этом примере строка пользовательского агента представляет собой версию мобильного Safari. Он содержит слово «Мобильный» .

Примеры

 Mozilla / 5.0 (iPhone; CPU iPhone OS 13_5_1, как Mac OS X) AppleWebKit / 605.1.15 (KHTML, например, Gecko) Версия / 13.1.1 Mobile / 15E148 Safari / 604.1 

Примеры

 Mozilla / 5.0 (совместимо; MSIE 9.0; Windows Phone OS 7.5; Trident / 5.0; IEMobile / 9.0) 

Примеры

 Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) 
 Mozilla / 5.0 (совместимый; YandexAccessibilityBot / 3.0; + http: //yandex.com/bots) 

Примеры

 curl / 7.64.1 
 PostmanRuntime / 7.26.5 

Таблицы BCD загружаются только в браузере

Robots.txt — Все, что нужно знать SEO

В этом разделе нашего руководства по директивам роботов мы более подробно рассмотрим роботов . txt и как его можно использовать для инструктирования поисковых роботов.Этот файл особенно полезен для управления бюджетом сканирования и проверки того, что поисковые системы проводят время на вашем сайте эффективно и сканируют только важные страницы.

Для чего используется txt-файл robots?

Файл robots.txt предназначен для того, чтобы сообщить сканерам и роботам, какие URL-адреса им не следует посещать на вашем веб-сайте. Это важно, чтобы помочь им избежать сканирования страниц низкого качества или застревания в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например, раздел календаря, который создает новый URL-адрес для каждого дня.

Как объясняет Google в своем руководстве по спецификациям robots.txt , формат файла должен быть простым текстом в кодировке UTF-8. Записи (или строки) файла должны быть разделены CR, CR / LF или LF.

Следует помнить о размере файла robots.txt, поскольку поисковые системы имеют свои собственные ограничения на максимальный размер файла. Максимальный размер для Google — 500 КБ.

Где должен находиться файл robots.txt?

Файл robots.txt всегда должен существовать в корне домена, например:

Этот файл относится к протоколу и полному домену, поэтому файл robots.txt на https://www.example.com не влияет на сканирование https://www.example.com или https://subdomain.example.com ; у них должны быть собственные файлы robots.txt.

Когда следует использовать правила robots.txt?

Как правило, веб-сайты должны стараться как можно реже использовать robots.txt для контроля сканирования. Лучшее решение — улучшить архитектуру вашего веб-сайта и сделать его чистым и доступным для поисковых роботов.Однако рекомендуется использовать файл robots.txt там, где это необходимо, чтобы предотвратить доступ сканеров к некачественным разделам сайта, если эти проблемы не могут быть устранены в краткосрочной перспективе.

Google рекомендует использовать robots.txt только при возникновении проблем с сервером или при проблемах с эффективностью сканирования, например, когда робот Google тратит много времени на сканирование неиндексируемых разделов сайта.

Вот несколько примеров страниц, сканирование которых может быть нежелательно:

  • Страницы категорий с нестандартной сортировкой , так как это обычно создает дублирование со страницей основной категории
  • Пользовательский контент , который нельзя модерировать
  • Страницы с конфиденциальной информацией
  • Внутренние поисковые страницы , так как таких страниц результатов может быть бесконечное количество, что создает неудобства для пользователей и расходует краулинговый бюджет

Когда нельзя использовать robots.текст?

Файл robots.txt — полезный инструмент при правильном использовании, однако в некоторых случаях это не лучшее решение. Вот несколько примеров того, когда не следует использовать robots.txt для управления сканированием:

1. Блокировка Javascript / CSS

Поисковые системы должны иметь доступ ко всем ресурсам на вашем сайте, чтобы правильно отображать страницы, что является необходимой частью поддержания хорошего рейтинга. Файлы JavaScript, которые кардинально меняют взаимодействие с пользователем, но запрещены для сканирования поисковыми системами, могут привести к ручным или алгоритмическим штрафам.

Например, если вы показываете рекламное межстраничное объявление или перенаправляете пользователей с помощью JavaScript, к которому поисковая система не имеет доступа, это может рассматриваться как маскировка, и рейтинг вашего контента может быть соответственно скорректирован.

2. Параметры блокировки URL

Вы можете использовать robots.txt для блокировки URL-адресов, содержащих определенные параметры, но это не всегда лучший способ действий. Лучше обрабатывать их в консоли поиска Google, поскольку там есть больше параметров для конкретных параметров, чтобы сообщить Google о предпочтительных методах сканирования.

Вы также можете поместить информацию во фрагмент URL ( / page # sort = price ), так как поисковые системы не сканируют его. Кроме того, если необходимо использовать параметр URL, ссылки на него могут содержать атрибут rel = nofollow, чтобы предотвратить попытки поисковых роботов получить к нему доступ.

3. Блокировка URL с обратными ссылками

Запрет URL-адресов в файле robots.txt предотвращает передачу ссылочного веса на веб-сайт. Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит авторитет, который передаются по этим ссылкам, и, как следствие, вы не сможете получить такой же высокий рейтинг в целом.

4. Получение деиндексированных проиндексированных страниц

Использование Disallow не приводит к деиндексированию страниц, и даже если URL-адрес заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы все равно могут быть проиндексированы. Это связано с тем, что процессы сканирования и индексирования в значительной степени разделены.

5. Установка правил, игнорирующих поисковые роботы социальных сетей

Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети имели доступ к этим страницам, чтобы можно было создать фрагмент страницы.Например, Facebook будет пытаться посетить каждую страницу, размещенную в сети, чтобы предоставить соответствующий фрагмент. Помните об этом при настройке правил robots.txt.

6. Блокировка доступа с промежуточных или разработчиков сайтов

Использование robots.txt для блокировки всего промежуточного сайта — не лучшая практика. Google рекомендует не индексировать страницы, но разрешить их сканирование, но в целом лучше сделать сайт недоступным для внешнего мира.

7. Когда нечего блокировать

Некоторым веб-сайтам с очень чистой архитектурой не нужно блокировать поисковые роботы с каких-либо страниц.В этой ситуации совершенно приемлемо не иметь файла robots.txt и возвращать статус 404 по запросу.

Синтаксис и форматирование Robots.txt

Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте взглянем на стандартизированный синтаксис и правила форматирования, которых следует придерживаться при написании файла robots.txt.

Комментарии

Комментарии — это строки, которые полностью игнорируются поисковыми системами и начинаются с # .Они существуют, чтобы вы могли писать заметки о том, что делает каждая строка вашего robots.txt, почему она существует и когда была добавлена. В общем, рекомендуется задокументировать назначение каждой строки вашего файла robots.txt, чтобы ее можно было удалить, когда она больше не нужна, и не изменять, пока она все еще необходима.

Указание агента пользователя

Блок правил может быть применен к определенным пользовательским агентам с помощью директивы « User-agent ». Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Яндексу; но не Facebook и рекламные сети, этого можно достичь, указав токен пользовательского агента, к которому применяется набор правил.

У каждого поискового робота есть собственный токен агента пользователя, который используется для выбора совпадающих блоков.

Поисковые роботы

будут следовать наиболее конкретным правилам пользовательского агента, установленным для них с именами, разделенными дефисами, а затем будут использовать более общие правила, если точное соответствие не найдено. Например, Googlebot News будет искать соответствие « googlebot-news «, затем « googlebot «, затем « * «.

Вот некоторые из наиболее распространенных токенов пользовательских агентов, с которыми вы можете столкнуться:

  • * — Правила применяются к каждому боту, если нет более конкретного набора правил
  • Googlebot — Все сканеры Google
  • Googlebot-News — Поисковый робот для новостей Google
  • Googlebot-Image — сканер изображений Google
  • Mediapartners-Google — поисковый робот Google AdSense
  • Bingbot — гусеничный робот Bing
  • Яндекс — поисковый робот Яндекса
  • Baiduspider — гусеничный трактор Baidu
  • Facebot — поисковый робот Facebook
  • Twitterbot — поисковый робот Twitter

Этот список токенов пользовательских агентов ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых сканерах, взгляните на документацию, опубликованную Google , Bing , Yandex , Baidu , Facebook и Twitter .

При сопоставлении токена пользовательского агента с блоком robots.txt регистр не учитывается. Например. «Googlebot» будет соответствовать токену пользовательского агента Google «Googlebot».

URL с сопоставлением с шаблоном

У вас может быть определенная строка URL-адреса, которую вы хотите заблокировать от сканирования, поскольку это намного эффективнее, чем включение полного списка полных URL-адресов, которые следует исключить в файле robots.txt.

Чтобы помочь вам уточнить пути URL-адресов, вы можете использовать символы * и $. Вот как они работают:

  • * — Это подстановочный знак, представляющий любое количество любого символа.Он может быть в начале или в середине пути URL, но не обязателен в конце. В строке URL-адреса можно использовать несколько подстановочных знаков, например, « Disallow: * / products? * Sort = ». Правила с полными путями не должны начинаться с подстановочного знака.
  • $ — этот символ обозначает конец строки URL-адреса, поэтому « Disallow: * / dress $ » будет соответствовать только URL-адресам, заканчивающимся на « / dress », а не « / dress? Параметр ».

Стоит отметить, что robots.txt чувствительны к регистру, что означает, что если вы запретите URL-адреса с параметром « search » (например, « Disallow: *? search = »), роботы все равно могут сканировать URL-адреса с разными заглавными буквами, например «? Search = что-нибудь ».

Правила директивы сопоставляются только с путями URL и не могут включать протокол или имя хоста. Косая черта в начале директивы совпадает с началом пути URL. Например. « Disallow: / start » будет соответствовать www.example.com/starts .

Если вы не добавите начало директивы, совпадающей с / или * , она ни с чем не будет соответствовать. Например. « Disallow: start » никогда ни с чем не будет соответствовать.

Чтобы помочь наглядно представить, как работают правила для разных URL, мы собрали для вас несколько примеров:

Robots.txt Ссылка на карту сайта

Директива карты сайта в файле robots.txt сообщает поисковым системам, где найти карту сайта XML, которая помогает им обнаруживать все URL-адреса на веб-сайте.Чтобы узнать больше о файлах Sitemap, ознакомьтесь с нашим руководством по по аудиту файлов Sitemap и расширенной настройке .

При включении файлов Sitemap в файл robots.txt следует использовать абсолютные URL-адреса (например, https://www.example.com/sitemap.xml ) вместо относительных URL (например, /sitemap.xml ). Это также Стоит отметить, что карты сайта не обязательно должны располагаться в одном корневом домене, они также могут размещаться во внешнем домене.

Поисковые системы обнаружат и могут сканировать карты сайта, перечисленные в вашем файле robots.txt, однако эти карты сайта не будут отображаться в Google Search Console или Bing Webmaster Tools без отправки вручную.

Robots.txt Блокирует

Правило запрета в файле robots.txt может использоваться разными способами для различных пользовательских агентов. В этом разделе мы рассмотрим некоторые из различных способов форматирования комбинаций блоков.

Важно помнить, что директивы в файле robots.txt — это всего лишь инструкции. Вредоносные сканеры проигнорируют ваших роботов.txt и сканировать любую часть вашего сайта, которая является общедоступной, поэтому запрет не следует использовать вместо надежных мер безопасности.

Несколько блоков пользовательского агента

Вы можете сопоставить блок правил с несколькими пользовательскими агентами, указав их перед набором правил, например, следующие запрещающие правила будут применяться как к Googlebot, так и к Bing в следующем блоке правил:

User-agent: googlebot
User-agent: bing
Disallow: / a

Расстояние между блоками директив

Google игнорирует пробелы между директивами и блоками.В этом первом примере будет выбрано второе правило, даже если есть пробел, разделяющий две части правила:

[код]
Пользовательский агент: *
Disallow: / disallowed /

Запретить: / test1 / robots_excluded_blank_line
[/ code]

Во втором примере робот Googlebot-mobile унаследует те же правила, что и Bingbot:

[код]
User-agent: googlebot-mobile

User-agent: bing
Disallow: / test1 / deepcrawl_excluded
[/ code]

Блоки раздельные комбинированные

Объединяются несколько блоков с одним и тем же пользовательским агентом.Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Googlebot будет запрещено сканировать « / b » и « / a ».

Пользовательский агент: googlebot
Disallow: / b

User-agent: bing
Disallow: / a

User-agent: googlebot
Disallow: / a

Robots.txt Разрешить

«Разрешающее» правило robots.txt явно дает разрешение на сканирование определенных URL. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи запрещающего правила.Например, если « / location » не разрешено, вы можете разрешить сканирование « / locations / london » с помощью специального правила « Allow: / locations / london ».

Robots.txt Приоритизация

Когда к URL-адресу применяется несколько разрешающих и запрещающих правил, применяется самое длинное правило сопоставления. Давайте посмотрим, что произойдет с URL « / home / search / shirts » при следующих правилах:

Disallow: / home
Allow: * search / *
Disallow: * рубашки

В этом случае сканирование URL разрешено, поскольку правило разрешения содержит 9 символов, а правило запрета — только 7.Если вам нужно разрешить или запретить конкретный URL-путь, вы можете использовать *, чтобы сделать строку длиннее. Например:

Disallow: ******************* / рубашки

Если URL-адрес соответствует и разрешающему правилу, и запрещающему правилу, но правила имеют одинаковую длину, будет выполнено запрещение. Например, URL-адрес « / search / shirts » будет запрещен в следующем сценарии:

Disallow: / search
Allow: * рубашки

Роботы.txt Директивы

Директивы уровня страницы (которые мы рассмотрим позже в этом руководстве) являются отличными инструментами, но проблема с ними заключается в том, что поисковые системы должны сканировать страницу, прежде чем смогут прочитать эти инструкции, что может потребовать бюджета сканирования.

Директивы Robots.txt могут помочь снизить нагрузку на бюджет сканирования, поскольку вы можете добавлять директивы непосредственно в файл robots.txt, а не ждать, пока поисковые системы просканируют страницы, прежде чем принимать меры. Это решение намного быстрее и проще в использовании.

Следующие директивы robots.txt работают так же, как директивы allow и disallow, в том, что вы можете указать подстановочные знаки ( * ) и использовать символ $ для обозначения конца строки URL.

Robots.txt NoIndex

Robots.txt noindex — полезный инструмент для управления индексированием поисковой системы без использования краулингового бюджета. Запрещение страницы в robots.txt не означает, что она удаляется из индекса, поэтому для этой цели гораздо эффективнее использовать директиву noindex.

Google официально не поддерживает noindex в robots.txt, и вам не следует полагаться на него, потому что, хотя он работает сегодня, он может не работать завтра. Этот инструмент может быть полезен и должен использоваться в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексами, но не в качестве критически важной директивы. Взгляните на тесты, проведенные ohgm и Stone Temple , которые доказывают, что эта функция работает эффективно.

Вот пример использования robots.txt noindex:

[код]
Агент пользователя: *
NoIndex: / directory
NoIndex: / *? * Sort =
[/ code]

Помимо noindex, Google в настоящее время неофициально подчиняется нескольким другим директивам индексирования, когда они помещаются в robots.txt. Важно отметить, что не все поисковые системы и сканеры поддерживают эти директивы, а те, которые поддерживают, могут перестать поддерживать их в любой момент — не следует полагаться на их постоянную работу.

Общие роботы.txt, проблемы

Есть несколько ключевых проблем и соображений, касающихся файла robots.txt и его влияния на производительность сайта. Мы нашли время, чтобы перечислить некоторые ключевые моменты, которые следует учитывать при работе с robots.txt, а также некоторые из наиболее распространенных проблем, которых вы, надеюсь, можете избежать.

  1. Иметь запасной блок правил для всех ботов — Использование блоков правил для определенных строк пользовательского агента без резервного блока правил для каждого другого бота означает, что ваш сайт в конечном итоге встретит бота, у которого нет никаких наборов правил для следить.
  2. I t Важно, чтобы robots.txt поддерживался в актуальном состоянии. — Относительно распространенная проблема возникает, когда robots.txt устанавливается на начальной стадии разработки веб-сайта, но не обновляется по мере роста веб-сайта, а это означает, что потенциально полезные страницы запрещены.
  3. Помните о перенаправлении поисковых систем через запрещенные URL-адреса — например, / продукт > / запрещенный > / категория
  4. Чувствительность к регистру может вызвать множество проблем — Веб-мастера могут ожидать, что какой-то раздел веб-сайта не будет сканироваться, но эти страницы могут сканироваться из-за альтернативного регистра i.е. «Disallow: / admin» существует, но поисковые системы сканируют « / ADMIN ».
  5. Не запрещать URL-адреса с обратными ссылками — Это предотвращает переход PageRank на ваш сайт от других пользователей, которые ссылаются на вас.
  6. Задержка сканирования может вызвать проблемы с поиском — Директива « crawl-delay » заставляет сканеры посещать ваш веб-сайт медленнее, чем им хотелось бы, а это означает, что ваши важные страницы могут сканироваться реже, чем это необходимо. Эта директива не соблюдается Google или Baidu, но поддерживается Bing и Яндексом.
  7. Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт не работает. — Возвращение кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт закрыт на техническое обслуживание. Обычно это означает, что они попытаются сканировать веб-сайт еще раз позже.
  8. Disallow Robots.txt переопределяет инструмент удаления параметров. — Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие подсказки по индексации, которые вы могли дать поисковым системам.
  9. Разметка окна поиска дополнительных ссылок будет работать с заблокированными страницами внутреннего поиска. — Страницы внутреннего поиска на сайте не должны сканироваться, чтобы разметка окна поиска дополнительных ссылок работала.
  10. Запрещение перенесенного домена повлияет на успех миграции — Если вы запретите перенесенный домен, поисковые системы не смогут отслеживать перенаправления со старого сайта на новый, поэтому миграция маловероятна. быть успешным.

Роботы для тестирования и аудита.txt

Учитывая, насколько опасным может быть файл robots.txt, если содержащиеся в нем директивы не обрабатываются должным образом, есть несколько различных способов проверить его, чтобы убедиться, что он настроен правильно. Взгляните на это руководство о том, как проверять URL-адреса, заблокированные файлом robots.txt , а также на эти примеры:

  • Используйте DeepCrawl Запрещенные страницы и Запрещенные URL (не просканированные) Отчеты могут показать вам, какие страницы блокируются поисковыми системами вашими роботами.txt файл.
  • Используйте Google Search Console — с помощью инструмента GSC robots.txt тестера вы можете увидеть последнюю кэшированную версию страницы, а также использовать инструмент Fetch and Render для просмотра рендеров от пользовательского агента Googlebot, а также пользовательский агент браузера. На заметку: GSC работает только с пользовательскими агентами Google, и можно тестировать только отдельные URL-адреса.
  • Попробуйте объединить выводы обоих инструментов, выбрав выборочную проверку запрещенных URL-адресов, которые DeepCrawl пометил в роботах GSC.txt tester, чтобы уточнить конкретные правила, которые приводят к запрету.

Мониторинг изменений файла Robots.txt

Когда над сайтом работает много людей и возникают проблемы, которые могут возникнуть, если хотя бы один символ неуместен в файле robots.txt, постоянный мониторинг вашего robots.txt имеет решающее значение. Вот несколько способов проверить наличие проблем:

  • Проверьте Google Search Console, чтобы увидеть текущий файл robots.txt, который использует Google. Иногда robots.txt может быть доставлен условно на основе пользовательских агентов, поэтому это единственный способ увидеть, что именно видит Google.
  • Проверьте размер файла robots.txt, если вы заметили значительные изменения, чтобы убедиться, что он не превышает установленный Google размер 500 КБ.
  • Перейдите к отчету о статусе индекса в Google Search Console в расширенном режиме, чтобы проверить изменения файла robots.txt с количеством запрещенных и разрешенных URL-адресов на вашем сайте.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *