Robots txt пример: Как создать правильный файл robots.txt, настройка, директивы

Содержание

Как создать правильный файл robots.txt, настройка, директивы

Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере.

Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.

Простой пример:

User-agent: *
Allow: /

Здесь роботс полностью разрешает индексацию всего сайта.

Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:

ваш_сайт.ru/robots.txt

Для размещения файла в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.

Если файл доступен, то вы увидите содержимое в браузере.

Для чего нужен robots.txt

Сформированный файл для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы, например директива Host или Sitemap, но об этом ниже.

Как создать robots.txt

Поскольку это текстовый файл, нужно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt

. Все просто, и создание файла не должно вызвать проблем даже у новичков. О том, как составить и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых: скачать в уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, 

как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.

Чтобы понять, как сделать правильный robots txt, для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.

Правильный robots.txt начинается с директивы User-agent, которая указывает, к какому роботу обращены конкретные директивы.

Примеры User-agent в robots.txt:

# Указывает директивы для всех роботов одновременно
User-agent: *

# Указывает директивы для всех роботов Яндекса
User-agent: Yandex

# Указывает директивы для только основного индексирующего робота Яндекса
User-agent: YandexBot

# Указывает директивы для всех роботов Google
User-agent: Googlebot

Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.

Пример robots.txt с несколькими вхождениями User-agent:

# Будет использована всеми роботами Яндекса
User-agent: Yandex
Disallow: /*utm_

# Будет использована всеми роботами Google
User-agent: Googlebot
Disallow: /*utm_

# Будет использована всеми роботами кроме роботов Яндекса и Google
User-agent: *
Allow: /*utm_

Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».

Пример неправильного перевода строки в robots.txt:

User-agent: Yandex

Disallow: /*utm_

Allow: /*id=

User-agent: *

Disallow: /*utm_

Allow: /*id=

Пример правильного перевода строки в robots.txt:

User-agent: Yandex
Disallow: /*utm_
Allow: /*id=

User-agent: *
Disallow: /*utm_
Allow: /*id=

Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».

Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.

Пример совместного использования директив в robots.txt:

User-agent: *
Allow: /blog/page
Disallow: /blog

Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».

Прошлый пример robots.txt в правильной сортировке:

User-agent: *
Disallow: /blog
Allow: /blog/page

Сначала запрещаем весь раздел, потом разрешаем некоторые его части.

Еще один правильный пример robots.txt с совместными директивами:

User-agent: *
Allow: /
Disallow: /blog
Allow: /blog/page

Обратите внимание на правильную последовательность директив в данном robots.txt.

Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».

Пример директивы «Disallow/Allow» без параметров:

User-agent: *
Disallow: # равнозначно Allow: /
Disallow: /blog
Allow: /blog/page

Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.

Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы

создать идеальный robots txt своими руками.

Синтаксис robots.txt

Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.

Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:

  1. Каждая директива начинается с новой строки;
  2. Не указывайте больше одной директивы в одной строке;
  3. Не ставьте пробел в начало строки;
  4. Параметр директивы должен быть в одну строку;
  5. Не нужно обрамлять параметры директив в кавычки;
  6. Параметры директив не требуют закрывающих точки с запятой;
  7. Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
  8. Допускаются комментарии в robots.txt после знака решетки #;
  9. Пустой перевод строки может трактоваться как окончание директивы User-agent;
  10. Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
  11. В директивах «Allow», «Disallow» указывается не более одного параметра;
  12. Название файла robots.txt не допускает наличие заглавных букв, ошибочное написание названия файла — Robots.txt или ROBOTS.TXT;
  13. Написание названия директив и параметров заглавными буквами считается плохим тоном и если по стандарту, robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий;
  14. Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
  15. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
  16. Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
  17. Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
  18. В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
  19. Использование любых символов национальных алфавитов в robots.txt не допускается.

Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».

В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.

Как проверить robots.txt

Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:

Проверка файла robots.txt в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml

Проверка файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru

Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию. Иначе, сервис может сообщить, что не удалось загрузить robots.txt. Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.

Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.

Robots.txt vs Яндекс и Google

Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить

запрет индексации в robots.txt для Яндекса, но, например не для Google.

Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.

Запретить индексацию: robots.txt Disallow

Disallow — запрещающая директива, которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.

Пример как в robots.txt запретить индексацию сайта:

User-agent: *
Disallow: /

Данный пример закрывает от индексации весь сайт для всех роботов.

В параметре директивы Disallow допускается использование специальных символов * и $:

* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:

User-agent: Yandex
Disallow: /page
User-agent: Yandex
Disallow: /page*

$ — указывает на точное соответствие исключения значению параметра:

User-agent: Googlebot
Disallow: /page$

В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.

Если закрыть индексацию сайта robots.txt, в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы, можно воспользоваться не только robots txt, но и аналогичными html-тегами:

  • <meta name=»robots» content=»noindex»/> — не индексировать содержимое страницы;
  • <meta name=»robots» content=»nofollow»/> — не переходить по ссылкам на странице;
  • <meta name=»robots» content=»none»/> — запрещено индексировать содержимое и переходить по ссылкам на странице;
  • <meta name=»robots» content=»noindex, nofollow»/> — аналогично content=»none».

Разрешить индексацию: robots.txt Allow

Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.

Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:

User-agent: *
Disallow: /
Allow: /page

Запрещается индексировать весь сайт, кроме страниц, начинающихся с /page.

Disallow и Allow с пустым значением параметра

Пустая директива Disallow:

User-agent: *
Disallow:

Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:

User-agent: *
Allow: /

Пустая директива Allow:

User-agent: *
Allow:

Разрешить ничего или полный запрет индексации сайта, равнозначно:

User-agent: *
Disallow: /

Главное зеркало сайта: robots.txt Host

Директива Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Из всех популярных поисковых систем, директива Host распознаётся только роботами Яндекса. Директива Host полезна в том случае, если ваш сайт доступен по нескольким доменам, например:

mysite.ru
mysite.com

Или для определения приоритета между:

mysite.ru
www.mysite.ru

Роботу Яндекса можно указать, какое зеркало является главным. Директива Host указывается в блоке директивы «User-agent: Yandex» и в качестве параметра, указывается предпочтительный адрес сайта без «http://».

Пример robots.txt с указанием главного зеркала:

User-agent: Yandex
Disallow: /page
Host: mysite.ru

В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.

User-agent: Yandex
Disallow: /page
Host: www.mysite.ru

В качестве основного зеркала указывается доменное имя www.mysite.ru.

Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.

Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.

Карта сайта: robots.txt sitemap

При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте файла карты сайта sitemap.xml.

Пример robots.txt с указанием адреса карты сайта:

User-agent: *
Disallow: /page
Sitemap: http://www.mysite.ru/sitemap.xml

Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.

Директива Clean-param

Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.

Синтаксис директивы Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]

Рассмотрим на примере страницы со следующим URL:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Пример robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # только для page.html

или

Clean-param: parm1&parm2&parm3 / # для всех

Директива Crawl-delay

Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.

Пример robots.txt Crawl-delay:

User-agent: Yandex
Disallow: /page
Crawl-delay: 3

В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.

Комментарии в robots.txt

Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.

Примеры комментариев в robots.txt:

User-agent: *
# Комментарий может идти от начала строки
Disallow: /page # А может быть продолжением строки с директивой
# Роботы
# игнорируют
# комментарии
Host: www.mysite.ru

В заключении

Файл robots.txt — очень важный и нужный инструмент взаимодействия с поисковыми роботами и один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно и с умом.

Если у вас есть вопросы — пишите в комментариях.
Рекомендуйте статью друзьям и не забывайте подписываться на блог.
Новые интересные статьи каждый день.

30+ примеров настройки robots.txt

Как настроить корректную индексацию сайта поисковыми роботами? Как закрыть доступ сканирующих роботов к техническим файлам сайта?

Файл robots.txt ограничивает доступ поисковых роботов к файлам на сервере - в файле написаны инструкции для сканирующих роботов. Поисковый робот проверяет возможность индексации очередной страницы сайта - есть ли подходящее исключение. Чтобы поисковые роботы имели доступ к robots.txt, он должен быть доступен в корне сайта по адресу mysite.ru/robots.txt.

Пример полного доступа на индексацию сайта без ограничений:


User-agent: *
Allow: /

Применение в SEO

По умолчанию поисковые роботы сканируют все страницы сайта, к которым они имеют доступ. Попасть на страницу поисковый робот может из карты сайта, ссылки на другой странице, наличии трафика на данной странице и т.п.. Не все страницы, которые были найден поисковым роботом следует показывать в результатах поиска.

Файл robots.txt позволяет закрыть от индексации дубли страниц, технические файлы, страницы фильтрации и поиска. Любая страница на сайте может быть закрыта от индексации, если на это есть необходимость..

Правила синтаксиса robots.txt

Логика и структура файла robots.txt должны строго соблюдаться и не содержать лишних данных:

  • Любая новая директива начинается с новой строки.
  • В начале строки не должно быть пробелов.
  • Все значения одной директивы должны быть размещены на этой же строке.
  • Не использовать кавычки для параметров директив.
  • Не использовать запятые и точки с запятыми для указания параметров.
  • Все комментарии пишутся после символа #.
  • Пустая строка обозначает конец действия текущего User-agent.
  • Каждая директива закрытия индексации или открытия содержит только один параметр.
  • Название файла должно быть написано прописными буквами, файлы Robots.txt или ROBOTS.TXT являются другими файлами и игнорируются поисковыми роботами.
  • Если директива относится к категории, то название категории оформляется слешами "/categorya/".
  • Размер файла robots.txt не должен превышать 32 кб, иначе он трактуется как разрешающий индексацию всего.
  • Пустой файл robots.txt считается разрешающим индексацию всего сайта.
  • При указании нескольких User-agent без пустой строки между ними обрабатываться будет только первая

Проверка robots.txt

Поисковые системы Яндекс и Google дают возможность проверить корректность составления robots.txt:

  • В Вебмастер.Яндекс - анализ robots.txt.
  • В Google Search Console - ссылка, необходимо сначала добавить сайт в систему.

Примеры настройки robots.txt

Первой строкой в robots.txt является директива, указывающая для какого робота написаны исключения.

Директива User-agent


# Все сканирующие роботы 
User-agent: *
# Все роботы Яндекса
User-agent: Yandex
# Основной индексирующий робот Яндекса
User-agent: YandexBot
# Все роботы Google
User-agent: Googlebot

Все директивы следующие ниже за User-agent распространяют свое действие только на указанного робота. Для указания данных другому роботу следует еще раз написать директиву User-agent. Пример с несколькими User-agent:

Использование нескольких User-agent


# Будет использована основным роботом Яндекса
User-agent: YandexBot
Disallow: *request_* # Будет использована всеми роботами Google
User-agent: Googlebot
Disallow: *elem_id* # Будет использована всеми роботами Mail.ru
User-agent: Mail.Ru
Allow: *SORT_*

Сразу после указания User-agent следует написать инструкции для выбранного робота. Нельзя указывать пустые сроки между командами в robots.txt, это будет не правильно понято сканирующими роботами.

Разрешающие и запрещающие директивы

Для запрета индексации используется директива "Disallow", для разрешения индексации "Allow":


User-agent: *
Allow: /abc/
Disallow: /blog/

Указано разрешение на индексацию раздела /abc/ и запрет на индексацию /blog/. По умолчанию все страницы сайта разрешены на индексацию и не нужно указывать для всех папок директиву Allow. Директива Allow необходима при открытии на индексацию подраздела. Например открыть индексацию для подраздела с ужатыми изображениями, но не открывать доступ к другим файлам в папке:


User-agent: *
Disallow: /upload/
Allow: /upload/resize_image/

Последовательность написания директив имеет значение. Сначала закрывается все папка от индексации, а затем открывается её подраздел.

Запрещение индексации - Disallow

Директива для запрета на сканирование - Disallow, индексация запрещается в зависимости от параметров, указанных в директиве.

Полный запрет индексации


User-agent: *
Disallow: /

Сайт закрывается от сканирования всех роботов.

Существуют специальные символы "*" и "$", которые позволяют производить более тонкое управление индексацией:


Disallow: /cat* 
Disallow: /cat

Символ звездочка означает любое количество любых символов, которые могут идти следом. Вторая директива имеет тот же смысл.


Disallow: *section_id*

Запрещает индексацию всех Url, где встречается значение внутри звездочек.


Disallow: /section/

Закрывает от индексации раздел и все вложенные файлы и подразделы.

Разрешение индексации - Allow

Задача директивы Allow открывать для индексации url, которые подходят под условие. Синтаксис Allow сходен с синтаксисом Disallow.


User-agent: *
Disallow: /
Allow: /fuf/

Весь сайт закрыт от индексации, кроме раздел /fuf/.

Директива Host

Данная директива нужна для роботов поисковой системы Яндекс. Она указывает главное зеркало сайта. Если сайт доступен по нескольким доменам, то это позволяет поисковой системе определить дубли и не включать их в поисковый индекс.


User-agent: *
Disallow: /bitrix/
Host: mysite.ru

В файле robots.txt директиву Host следует использовать только один раз, последующие указания игнорируются.

Если сайт работает по защищенному протоколу https, то следует указывать домен с полным адресом:


User-agent: *
Disallow: /bitrix/
Host: https://domain.ru

Директива Sitemap

Для ускорения индексации страниц сайта поисковым роботам можно передать карту сайта в формате xml. Директива Sitemap указывает адрес, по которому карта сайта доступна для скачивания.


User-agent: *
Disallow: /bitrix/
Sitemap: http://domain.ru/sitemap.xml

Исключение страниц с динамическими параметрами

Директива Clean-param позволяет бороться с динамическими дублями страниц, когда содержимое страницы не меняется, но добавление Get-параметра делает Url уникальным. При составлении директивы сначала указывается название параметра, а затем область применения данной директивы:


Clean-param: get1[&get2&get3&get4&..&getN] [Путь]

Простой пример для страницы http://domain.ru/catalog/?&get1=1&get2=2&get3=3. Директива будет иметь вид:


Clean-param: get1&get2&get3 /catalog/

Данная директива будет работать для раздела /catalog/, можно сразу прописать действие директивы на весь сайт:


Clean-param: get1&get2&get3 /

Снижение нагрузки - Crawl-delay

Если сервер не выдерживает частое обращение поисковых роботов, то директива Crawl-delay поможет снизить нагрузку на сервер. Поисковая система Яндекс поддерживает данную директиву с 2008 года.


User-agent: *
Disallow: /search/
Crawl-delay: 4

Поисковый робот будет делать один запрос, затем ждать 4 секунды и снова делать запрос.

Типовой robots.txt для сайта на Bitrix

В заключении полноценный файл robots.txt для системы 1С-Битрикс, который включает все типовые разделы:


User-agent: *
Disallow: /bitrix/
Disallow: /admin/
Disallow: /auth/
Disallow: /personal/
Disallow: /cgi-bin/
Disallow: /search/
Disallow: /upload/
Allow: /upload/resize_cache/
Allow: /upload/iblock/
Disallow: *bxajaxid*
Sitemap: http://domain.ru/sitemap.xml
Host: domain.ru

Правильное заполнение файла robots.txt

Эффективное продвижение сайта невозможно без совершенствования его технических параметров, в том числе файла robots. Robots.txt — это текстовый файл, находящийся в корневом каталоге сайта. Он состоит из набора инструкций для индексирования и сканирования файлов, страниц и каталогов сайта для поисковых машин.

Сразу оговоримся, что присутствие файла robots.txt на сервере обязательно. Даже если вы полностью открываете ресурс для индексации.

Индексация robots.txt

Первое, что индексируют и сканируют поисковые системы на ресурсе, — файл robots.txt. Есть условия действительности файла:

  • Название. Исключительно robots.txt. Помните, что URL-адреса чувствительны к регистру.
  • Местоположение. Файл должен находиться в корневом каталоге верхнего уровня хоста и быть единственным.
  • Протокол. Поддерживаются все протоколы на основе URI — HTTP и HTTPS. Поисковые боты делают обычный GET-запрос, на который должен поступить ответ со статусом 200 OK. Возможна обработка файла с FTP-серверов: доступ осуществляется с использованием анонимного входа.
  • Формат. Файл должен быть в текстовом формате. Его можно создать в любом текстовом редакторе с поддержкой кодировки UTF-8. Не рекомендуем использовать текстовые процессоры, так как они могут сохранять файлы в проприетарном формате и добавлять дополнительные символы, не распознаваемые поисковыми роботами.
  • Размер. Для Google значение не должно превышать 500 килобайт, а для Яндекса — 32 КБ. Гугл переходит к файлу, но сканирует первые 500 килобайт, а Яндекс сразу смотрит на размер и, если лимит превышен, считает, что доступ к содержимому сайта закрыт. При успешном сканировании и индексировании файла Яндекс исполняет инструкции в течение 2 недель, а для Google они являются рекомендуемыми и не обязательны к исполнению.

Настройка robots.txt

Чтобы правильно заполнить robots.txt, в первую очередь нужно придерживаться правил, заданных поисковиками. Особенно это касается директив.

Директивы

Поисковые роботы Google, Яндекс. Bing, Yahoo и Ask поддерживают следующие директивы:

Директива Описание

User-agent

Обязательная директива. Указывает на поискового робота, которому адресованы правила. Учитывается название бота или *, которая адресует правила ко всем ботам. Наиболее популярные в России:

  1. Google: APIs-Google, Mediapartners-Google, AdsBot-Google-Mobile, Googlebot-Image, Googlebot-News, Googlebot-Video, Googlebot – смотреть полную строку агента пользователя.
  2. Яндекс: Yandex, YandexBot, YandexDirect, YandexImages, YandexMetrika, YandexMobileBot, YandexMedia, YandexNews, YandexPagechecker, YandexMarket, YandexCalenda, YandexDirectDyn, YaDirectFetcher, YandexAccessibilityBot, YandexScreenshotBot, YandexVideoParser, YandexSearchShop, YandexOntoDBAPI.
  3. Остальные: Baiduspider — китайский поисковик Baidu, Cliqzbot — анонимная ПС Cliqz, AhrefsBot — сервис Ahrefs, BingBot — ПС Bing от Microsoft, Slurp — ПС Yahoo, DuckDuckBot — ПС DuckDuckGo, facebot — краулер от Facebook, MSNBot — ПС MSN, Mail.Ru — ПС Mail.ru, Teoma — сервис ASK.

Рекомендуем периодически просматривать логи сайта и закрыть доступ для агрессивных ботов, которых развелось очень много.

Allow и Disallow

Разрешает и запрещает индексирование и сканирование отдельных файлов, страниц и каталогов ресурса. Если не указан запрет, то по умолчанию сканирование разрешено.

Используйте запрет для:

  • конфиденциальных данных;
  • результатов поиска по ресурсу;
  • статистики посещаемости;
  • дублей;
  • логов;
  • страницы баз данных.

Их можно использовать совместно в одном блоке. Приоритет отдается более длинному правилу. Если префиксы одинаковой длины, то при конфликте приоритет отдается Allow.

Sitemap

Указывает путь к одноименному файлу.

Clean-param

Указывает параметры страницы, которые не нужно учитывать. Существует два типа параметров URL:

  1. Параметры отслеживания — UTM-метки;
  2. Параметры, влияющие на контент, — например, результаты фильтрации.

Не стоит очищать параметры, влияющие на контент, поскольку их можно использовать как точку входа при SEO-продвижении.

Crawl-delay

Указывает время в секундах, через которое необходимо приступить к загрузке следующей страницы.

Host

Указывает на домен с протоколом и портами. Указывайте нужный протокол – HTTP или HTTPS. Если порт не отличается от стандартного, то его не нужно указывать.

Отметим, что Яндекс отказался от этой директивы и заменил ее 301 редиректом. Однако веб-мастера не торопятся удалять Host из файла, поскольку работе поисковых роботов это не мешает.


Синтаксис и примеры

Помимо директив, чтобы правильно настроить robots.txt, нужно соблюдать правила синтаксиса.

Разберем на примерах.

  1. Указания чувствительны к регистру. Пример: http://site-example.ru/file.html и http://site-example.ru/File.html — это разные пути.

  2. Для кириллических адресов используйте Punycode.

    #НЕВЕРНО
    Disallow: /корзина

    #ВЕРНО:
    Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

  3. Для комментирования используйте #. Как в предыдущем пункте.

  4. Хотя бы одна Allow или Disallow должна быть в группе. Пример:

    #Блокировка доступа ко всему ресурсу определенному боту
    User-agent: Googlebot #сюда указывается токен бота
    Disallow: /

    #Блокировка доступа ко всему ресурсу всем ботам
    User-agent: * #звездочка означает «любой бот»
    Disallow: /

  5. Обязательно указывайте Sitemap. Хоть эта директива необязательна, мы советуем ее указывать, поскольку адрес может отличаться от стандартного и боты могут ее не найти. Пример:

    User-agent: *
    Allow: /
    Sitemap: https://site-example.ru/sitemap.xml

  6. Для переноса строки используйте знак $.Пример:

    User-agent: *
    Disallow: https://site-example.ru/здесь-будет-очень-длинный-$
    адрес-сайта
    Sitemap: https://site-example.ru/sitemap.xml
    Host: https://site-example.ru

  7. Можно запретить доступ к отдельному файлу, странице или категории. Пример:

    User-agent: *
    Disallow: /page-example.html #не нужно указывать весь путь ресурса
    Disallow: /images/image-example.png #любой файл: картинка, документ, все что угодно
    Disallow: /*.js$ #запретить определенный тип файла
    Disallow: /category-example/
    Allow: /category-example/subcategory-example/ #прошлой строкой запретили раздел и его последующие подкатегории и файлы, но далее можно разрешить сканировать другой раздел

Не бойтесь совершить ошибку — файлы robots.txt можно проверить на валидность с помощью специальных сервисов.

Проверка robots.txt на валидность

Чтобы убедиться в правильности составления файла robots.txt воспользуйтесь инструментами проверки от поисковых систем:

  1. Проверка в Google Search Console. Нужно авторизоваться в аккаунте с подтвержденными правами на сайт. Далее перейти в «Сканирование», а затем в «Инструмент проверки файла robots.txt». Проверить можно только сайт, в котором вы авторизовались.
  2. Проверка в инструменте Яндекса. Авторизация не нужна, просто укажите адрес сайта или загрузите исходный код файла. Проверить можно любой сайт.

В сервисах проверки можно загрузить несколько страниц одновременно, увидеть все ошибки, исправить их прямо в инструменте и перенести готовый файл на сайт.

Как составить robots.txt самостоятельно

Как правильно составить robots.txt и зачем он нужен, как закрыть индексацию через robots.txt и бесплатно проверить robots.txt с помощью онлайн-инструментов.

Как поисковики сканируют страницу

Роботы-краулеры Яндекса и Google посещают страницы сайта, оценивают содержимое, добавляют новые ресурсы и информацию о страницах в индексную базу поисковика. Боты посещают страницы регулярно, чтобы переносить в базу обновления контента, отмечать появление новых ссылок и их доступность.

Зачем нужно сканирование:
  1. Собрать данные для построения индекса — информацию о новых страницах и обновлениях на старых.
  2. Сравнить URL в индексе и в списке для сканирования.
  3. Убрать из очереди дублирующиеся URL, чтобы не скачивать их дважды.

Боты смотрят не все страницы сайта. Количество ограничено краулинговым бюджетом, который складывается из количества URL, которое может просканировать бот-краулер. Бюджета на объемный сайт может не хватить. Есть риск, что краулинговый бюджет уйдет на сканирование неважных или «мусорных» страниц, а чтобы такого не произошло, веб-мастеры направляют краулеров с помощью файла robots.txt.

Боты переходят на сайт и находят в корневом каталоге файл robots.txt, анализируют доступ к страницам и переходят к карте сайта — Sitemap, чтобы сократить время сканирования, не обращаясь к закрытым ссылкам. После изучения файла боты идут на главную страницу и оттуда переходят в глубину сайта.

Какие страницы краулер просканирует быстрее:
  1. Находятся ближе к главной.
    Чем меньше кликов с главной ведет до страницы, тем она важнее и тем вероятнее ее посетит краулер. Количество переходов от главной до текущей страницы называется Click Distance from Index (DFI).
  2. Имеют много ссылок.
    Если многие ссылаются на страницу, значит она полезная и имеет хорошую репутацию. Нормальным считается около 11-20 ссылок на страницу, перелинковка между своими материалами тоже считается.
  3. Быстро загружаются.
    Проверьте скорость загрузки инструментом, если она медленная — оптимизируйте код верхней части и уменьшите вес страницы.

Все посещения ботов-краулеров не фиксируют такие инструменты, как Google Analytics, но поведение ботов можно отследить в лог-файлах. Некоторые SEO-проблемы крупных сайтов можно решить с помощью анализа лог-файлов который также поможет увидеть проблемы со ссылками и распределение краулингового бюджета.

Посмотреть на сайт глазами поискового бота

Robots.txt для Яндекса и Google

Веб-мастеры могут управлять поведением ботов-краулеров на сайте с помощью файла robots.txt. Robots.txt — это текстовый файл для роботов поисковых систем с указаниями по индексированию. В нем написано какие страницы и файлы на сайте нельзя сканировать, что позволяет ботам уменьшить количество запросов к серверу и не тратить время на неинформативные, одинаковые и неважные страницы.

В robots.txt можно открыть или закрыть доступ ко всем файлам или отдельно прописать, какие файлы можно сканировать, а какие нет.

Требования к robots.txt:
  • файл называется "robots.txt", название написано только строчными буквами, "Robots.TXT" и другие вариации не поддерживаются;
  • располагается только в корневом каталоге — https://site.com/robots.txt, в подкаталоге быть не может;
  • на сайте в единственном экземпляре;
  • имеет формат .txt;
  • весит до 32 КБ;
  • в ответ на запрос отдает HTTP-код со статусом 200 ОК;
  • каждый префикс URL на отдельной строке;
  • содержит только латиницу.

Если домен на кириллице, для robots.txt переведите все кириллические ссылки в Punycode с помощью любого Punycode-конвертера: "сайт.рф" — "xn--80aswg.xn--p1ai".

Robots.txt действует для HTTP, HTTPS и FTP, имеет кодировку UTF-8 или ASCII и направлен только в отношении хоста, протокола и номера порта, где находится.

Его можно добавлять к адресам с субдоменами — http://web.site.com/robots.txt или нестандартными портами — http://site.com:8181/robots.txt. Если у сайта несколько поддоменов, поместите файл в корневой каталог каждого из них.

Как исключить страницы из индексации с помощью robots.txt

В файле robots.txt можно запретить ботам индексацию некоторого контента.

Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol). Веб-мастер может скрыть содержимое от индексирования ботами Яндекса, указав директиву "disallow". Тогда при очередном посещении сайта робот загрузит файл robots.txt, увидит запрет и проигнорирует страницу. Другой вариант убрать страницу из индекса — прописать в HTML-коде мета-тег "noindex" или "none".

Google предупреждает, что robots.txt не предусмотрен для блокировки показа страниц в результатах выдачи. Он позволяет запретить индексирование только некоторых типов контента: медиафайлов, неинформативных изображений, скриптов или стилей. Исключить страницу из выдачи Google можно с помощью пароля на сервере или элементов HTML — "noindex" или атрибута "rel" со значением "nofollow".

Если на этом или другом сайте есть ссылка на страницу, то она может оказаться в индексе, даже если к ней закрыт доступ в файле robots.txt.

Закройте доступ к странице паролем или "nofollow" , если не хотите, чтобы она попала в выдачу Google. Если этого не сделать, ссылка попадет в результаты но будет выглядеть так:

Доступная для пользователей ссылка

Такой вид ссылки означает, что страница доступна пользователям, но бот не может составить описание, потому что доступ к ней заблокирован в robots.txt.

Содержимое файла robots.txt — это указания, а не команды. Большинство поисковых ботов, включая Googlebot, воспринимают файл, но некоторые системы могут его проигнорировать.

Если нет доступа к robots.txt

Если вы не имеете доступа к robots.txt и не знаете, доступна ли страница в Google или Яндекс, введите ее URL в строку поиска.

На некоторых сторонних платформах управлять файлом robots.txt нельзя. К примеру, сервис Wix автоматически создает robots.txt для каждого проекта на платформе. Вы сможете посмотреть файл, если добавите в конец домена "/robots.txt".

В файле будут элементы, которые относятся к структуре сайтов на этой платформе, к примеру "noflashhtml" и "backhtml". Они не индексируются и никак не влияют на SEO.

Если нужно удалить из выдачи какие-то из страниц ресурса на Wix, используйте "noindex".

Как составить robots.txt правильно

Файл можно составить в любом текстовом редакторе и сохранить в формате txt. В нем нужно прописать инструкцию для роботов: указание, каким роботам реагировать, и разрешение или запрет на сканирование файлов.

Инструкции отделяют друг от друга переносом строки.

Символы robots.txt

"*" — означает любую последовательность символов в файле.

"$" — ограничивает действия "*", представляет конец строки.

"/" — показывает, что закрывают для сканирования.

"/catalog/" — закрывают раздел каталога;

"/catalog" — закрывают все ссылки, которые начинаются с "/catalog".

"#" — используют для комментариев, боты игнорируют текст с этим символом.

User-agent: *
Disallow: /catalog/
#запрещаем сканировать каталог

Директивы robots.txt

Директивы, которые распознают все краулеры:

User-agent

На первой строчке прописывают правило User-agent — указание того, какой робот должен реагировать на рекомендации. Если запрещающего правила нет, считается, что доступ к файлам открыт.

Для разного типа контента поисковики используют разных ботов:

  • Google: основной поисковый бот называется Googlebot, есть Googlebot News для новостей, отдельно Googlebot Images, Googlebot Video и другие;
  • Яндекс: основной бот называется YandexBot, есть YandexDirect для РСЯ, YandexImages, YandexCalendar, YandexNews, YandexMedia для мультимедиа, YandexMarket для Яндекс.Маркета и другие.

Для отдельных ботов можно указать свою директиву, если есть необходимость в рекомендациях по типу контента.

User-agent: * — правило для всех поисковых роботов;

User-agent: Googlebot — только для основного поискового бота Google;

User-agent: YandexBot — только для основного бота Яндекса;

User-agent: Yandex — для всех ботов Яндекса. Если любой из ботов Яндекса обнаружит эту строку, то другие правила User-agent: * учитывать не будет.

Sitemap

Указывает ссылку на карту сайта — файл со структурой сайта, в котором перечислены страницы для индексации:

User-agent: *
Sitemap: http://site.com/sitemap.xml

Некоторые веб-мастеры не делают карты сайтов, это не обязательное требование, но лучше составить Sitemap — этот файл краулеры воспринимают как структуру страниц, которые не можно, а нужно индексировать.

Disallow

Правило показывает, какую информацию ботам сканировать не нужно.

Если вы еще работаете над сайтом и не хотите, чтобы он появился в незавершенном виде, можно закрыть от сканирования весь сайт:

User-agent: *
Disallow: /

После окончания работы над сайтом не забудьте снять блокировку.

Разрешить всем ботам сканировать весь сайт:

User-agent: *
Disallow:

Для этой цели можно оставить robots.txt пустым.

Чтобы запретить одному боту сканировать, нужно только прописать запрет с упоминанием конкретного бота. Для остальных разрешение не нужно, оно идет по умолчанию:

Пользователь-агент: BadBot 
Disallow: /

Чтобы разрешить одному боту сканировать сайт, нужно прописать разрешение для одного и запрет для остальных:

User-agent: Googlebot
Disallow: 
User-agent: * 
Disallow: /

Запретить ботам сканировать страницу:

User-agent: *
Disallow: /page.html

Запретить сканировать конкретную папку с файлами:

User-agent: *
Disallow: /name/

Запретить сканировать все файлы, которые заканчиваются на ".pdf":

User-agent: *
Disallow: /*.pdf$

Запретить сканировать раздел http://site.com/about/:

User-agent: *
Disallow: /about/

Запись формата "Disallow: /about" без закрывающего "/" запретит доступ и к разделу http://site.com/about/, к файлу http://site.com/about.php и к другим ссылкам, которые начинаются с "/about".

Если нужно запретить доступ к нескольким разделам или папкам, для каждого нужна отдельная строка с Disallow:

User-agent: *
Disallow: /about
Disallow: /info
Disallow: /album1
Allow

Директива определяет те пути, которые доступны для указанных поисковых ботов. По сути, это Disallow-наоборот — директива, разрешающая сканирование. Для роботов действует правило: что не запрещено, то разрешено, но иногда нужно разрешить доступ к какому-то файлу и закрыть остальную информацию.

Разрешено сканировать все, что начинается с "/catalog", а все остальное запрещено:

User-agent: *
Allow: /catalog 
Disallow: /

Сканировать файл "photo.html" разрешено, а всю остальную информацию в каталоге /album1/ запрещено:

User-agent: *
Allow: /album1/photo.html 
Disallow: /album1/

Заблокировать доступ к каталогам "site.com/catalog1/" и "site.com/catalog2/" но разрешить к "catalog2/subcatalog1/":

User-agent: * 
Disallow: /catalog1/ 
Disallow: /catalog2/ 
Allow: /catalog2/subcatalog1/

Бывает, что для страницы оказываются справедливыми несколько правил. Тогда робот будет отсортирует список от меньшего к большему по длине префикса URL и будет следовать последнему правилу в списке.

Директивы, которые распознают боты Яндекса:

Clean-param

Некоторые страницы дублируются с разными GET-параметрами или UTM-метками, которые не влияют на содержимое. К примеру, если в каталоге товаров использовали сортировку или разные id.

Чтобы отследить, с какого ресурса делали запрос страницы с книгой book_id=123, используют ref:

"www.site. com/some_dir/get_book.pl?ref=site_1& book_id=123"
"www.site. com/some_dir/get_book.pl?ref=site_2& book_id=123"
"www.site. com/some_dir/get_book.pl?ref=site_3& book_id=123"

Страница с книгой одна и та же, содержимое не меняется. Чтобы бот не сканировал все варианты таких страниц с разными параметрами, используют правило Clean-param:

User-agent: Yandex 
Disallow: 
Clean-param: ref/some_dir/get_book.pl

Робот Яндекса сведет все адреса страницы к одному виду:

"www.example. com/some_dir/get_book.pl? book_id=123"

Для адресов вида:
"www.example2. com/index.php? page=1&sid=2564126ebdec301c607e5df"
"www.example2. com/index.php? page=1&sid=974017dcd170d6c4a5d76ae"

robots.txt будет содержать:

User-agent: Yandex
Disallow:
Clean-param: sid/index.php

Для адресов вида

"www.example1. com/forum/showthread.php? s=681498b9648949605&t=8243"
"www.example1. com/forum/showthread.php? s=1e71c4427317a117a&t=8243"

robots.txt будет содержать:

User-agent: Yandex 
Disallow: 
Clean-param: s/forum/showthread.php

Если переходных параметров несколько:
"www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311"
"www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896"

robots.txt будет содержать:

User-agent: Yandex 
Disallow: 
Clean-param: s&ref/forum*/showthread.php
Host

Правило показывает, какое зеркало учитывать при индексации. URL нужно писать без "http://" и без закрывающего слэша "/".

User-agent: Yandex
Disallow: /about
Host: www.site.com

Сейчас эту директиву уже не используют, если в ваших robots.txt она есть, можно удалять. Вместо нее нужно на всех не главных зеркалах сайта поставить 301 редирект.

Crawl-delay

Раньше частая загрузка страниц нагружала сервер, поэтому для ботов устанавливали Crawl-delay — время ожидания робота в секундах между загрузками. Эту директиву можно не использовать, мощным серверам она не требуется.

Время ожидания — 4 секунды:

User-agent: *
Allow: /album1 
Disallow: /
Crawl-delay: 4
Только латиница

Напомним, что все кириллические ссылки нужно перевести в Punycode с помощью любого конвертера.

Неправильно:

User-agent: Yandex 
Disallow: /каталог

Правильно:

User-agent: Yandex
Disallow: /xn--/-8sbam6aiv3a
Пример robots.txt

Запись означает, что правило справедливо для всех роботов: запрещено сканировать ссылки из корзины, из встроенного поиска и админки, карта сайта находится по ссылке http://site.com/sitemap, ref не меняет содержание страницы get_book:

User-agent: *
Disallow: /bin/ 
Disallow: /search/ 
Disallow: /admin/ 
Sitemap: http://site.com/sitemap
Clean-param: ref/some_dir/get_book.pl

Составить robots.txt бесплатно поможет инструмент для генерации robots.txt от PR-CY, он позволит закрыть или открыть весь сайт для ботов, указать путь к карте сайта, настроить ограничение на посещение страниц, закрыть доступ некоторым роботам и установить задержку:

Графы инструмента для заполнения

Для проверки файла robots.txt на ошибки у поисковиков есть собственные инструменты:

Инструмент проверки файла robots.txt от Google позволит проверить, как бот видит конкретный URL. В поле нужно ввести проверяемый URL, а инструмент покажет, доступна ли ссылка.

Инструмент проверки от Яндекса покажет, правильно ли заполнен файл. Нужно указать сайт, для которого создан robots.txt, и перенести его содержимое в поле.


Файл robots.txt не подходит для блокировки доступа к приватным файлам, но направляет краулеров к карте сайта и дает рекомендации для быстрого сканирования важных материалов ресурса.

Robots.txt - Как создать правильный robots.txt

Файл robots.txt является одним из самых важных при оптимизации любого сайта. Его отсутствие может привести к высокой нагрузке на сайт со стороны поисковых роботов и медленной индексации и переиндексации, а неправильная настройка к тому, что сайт полностью пропадет из поиска или просто не будет проиндексирован. Следовательно, не будет искаться в Яндексе, Google и других поисковых системах. Давайте разберемся во всех нюансах правильной настройки robots.txt.

Для начала короткое видео, которое создаст общее представление о том, что такое файл robots.txt.

Как влияет robots.txt на индексацию сайта

Поисковые роботы будут индексировать ваш сайт независимо от наличия файла robots.txt. Если же такой файл существует, то роботы могут руководствоваться правилами, которые в этом файле прописываются. При этом некоторые роботы могут игнорировать те или иные правила, либо некоторые правила могут быть специфичными только для некоторых ботов. В частности, GoogleBot не использует директиву Host и Crawl-Delay, YandexNews с недавних пор стал игнорировать директиву Crawl-Delay, а YandexDirect и YandexVideoParser игнорируют более общие директивы в роботсе (но руководствуются теми, которые указаны специально для них).

Подробнее об исключениях:
Исключения Яндекса
Стандарт исключений для роботов (Википедия)

Максимальную нагрузку на сайт создают роботы, которые скачивают контент с вашего сайта. Следовательно, указывая, что именно индексировать, а что игнорировать, а также с какими временны́ми промежутками производить скачивание, вы можете, с одной стороны, значительно снизить нагрузку на сайт со стороны роботов, а с другой стороны, ускорить процесс скачивания, запретив обход ненужных страниц.

К таким ненужным страницам относятся скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и т.д., формы заказа и корзина со всеми шагами оформления покупки, функционал поиска, личный кабинет, админка.

Для большинства роботов также желательно отключить индексацию всех JS и CSS. Но для GoogleBot и Yandex такие файлы нужно оставить для индексирования, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования (пруф Google, пруф Яндекс).

Директивы robots.txt

Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. Однако не все поисковые системы и роботы поддерживают те или иные директивы. В связи с этим для нас полезнее будет знать не стандарт, а то, как руководствуются теми или иными директивы основные роботы.

Давайте рассмотрим по порядку.

User-agent

Это самая главная директива, определяющая для каких роботов далее следуют правила.

Для всех роботов:
User-agent: *

Для конкретного бота:
User-agent: GoogleBot

Обратите внимание, что в robots.txt не важен регистр символов. Т.е. юзер-агент для гугла можно с таким же успехом записать соледующим образом:
user-agent: googlebot

Ниже приведена таблица основных юзер-агентов различных поисковых систем.

Бот Функция
Google
Googlebot основной индексирующий робот Google
Googlebot-News Google Новости
Googlebot-Image Google Картинки
Googlebot-Video видео
Mediapartners-Google Google AdSense, Google Mobile AdSense
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google проверка качества целевой страницы
AdsBot-Google-Mobile-Apps Робот Google для приложений
Яндекс
YandexBot основной индексирующий робот Яндекса
YandexImages Яндекс.Картинки
YandexVideo Яндекс.Видео
YandexMedia мультимедийные данные
YandexBlogs робот поиска по блогам
YandexAddurl робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexFavicons робот, индексирующий пиктограммы сайтов (favicons)
YandexDirect Яндекс.Директ
YandexMetrika Яндекс.Метрика
YandexCatalog Яндекс.Каталог
YandexNews Яндекс.Новости
YandexImageResizer робот мобильных сервисов
Bing
Bingbot основной индексирующий робот Bing
Yahoo!
Slurp основной индексирующий робот Yahoo!
Mail.Ru
Mail.Ru основной индексирующий робот Mail.Ru
Rambler
StackRambler Ранее основной индексирующий робот Rambler. Однако с 23.06.11 Rambler перестает поддерживать собственную поисковую систему и теперь использует на своих сервисах технологию Яндекса. Более не актуально.

Disallow и Allow

Disallow закрывает от индексирования страницы и разделы сайта.
Allow принудительно открывает для индексирования страницы и разделы сайта.

Но здесь не все так просто.

Во-первых, нужно знать дополнительные операторы и понимать, как они используются — это *, $ и #.

* — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.

Примеры использования:

Disallow: *?s=
Disallow: /category/$

Следующие ссылки будут закрыты от индексации:
http://site.ru/?s=
http://site.ru/?s=keyword
http://site.ru/page/?s=keyword
http://site.ru/category/

Следующие ссылки будут открыты для индексации:
http://site.ru/category/cat1/
http://site.ru/category-folder/

Во-вторых, нужно понимать, каким образом выполняются вложенные правила.
Помните, что порядок записи директив не важен. Наследование правил, что открыть или закрыть от индексации определяется по тому, какие директории указаны. Разберем на примере.

Allow: *.css
Disallow: /template/

http://site.ru/template/ — закрыто от индексирования
http://site.ru/template/style.css — закрыто от индексирования
http://site.ru/style.css — открыто для индексирования
http://site.ru/theme/style.css — открыто для индексирования

Если нужно, чтобы все файлы .css были открыты для индексирования придется это дополнительно прописать для каждой из закрытых папок. В нашем случае:

Allow: *.css
Allow: /template/*.css
Disallow: /template/

Повторюсь, порядок директив не важен.

Sitemap

Директива для указания пути к XML-файлу Sitemap. URL-адрес прописывается так же, как в адресной строке.

Например,

Sitemap: http://site.ru/sitemap.xml

Директива Sitemap указывается в любом месте файла robots.txt без привязки к конкретному user-agent. Можно указать несколько правил Sitemap.

Host

Директива для указания главного зеркала сайта (в большинстве случаев: с www или без www). Обратите внимание, что главное зеркало указывается БЕЗ http://, но С https://. Также если необходимо, то указывается порт.
Директива поддерживается только ботами Яндекса и Mail.Ru. Другими роботами, в частности GoogleBot, команда не будет учтена. Host прописывается только один раз!

Пример 1:
Host: site.ru

Пример 2:
Host: https://site.ru

Crawl-delay

Директива для установления интервала времени между скачиванием роботом страниц сайта. Поддерживается роботами Яндекса, Mail.Ru, Bing, Yahoo. Значение может устанавливаться в целых или дробных единицах (разделитель — точка), время в секундах.

Пример 1:
Crawl-delay: 3

Пример 2:
Crawl-delay: 0.5

Если сайт имеет небольшую нагрузку, то необходимости устанавливать такое правило нет. Однако если индексация страниц роботом приводит к тому, что сайт превышает лимиты или испытывает значительные нагрузки вплоть до перебоев работы сервера, то эта директива поможет снизить нагрузку.

Чем больше значение, тем меньше страниц робот загрузит за одну сессию. Оптимальное значение определяется индивидуально для каждого сайта. Лучше начинать с не очень больших значений — 0.1, 0.2, 0.5 — и постепенно их увеличивать. Для роботов поисковых систем, имеющих меньшее значение для результатов продвижения, таких как Mail.Ru, Bing и Yahoo можно изначально установить бо́льшие значения, чем для роботов Яндекса.

Clean-param

Это правило сообщает краулеру, что URL-адреса с указанными параметрами не нужно индексировать. Для правила указывается два аргумента: параметр и URL раздела. Директива поддерживается Яндексом.

Пример 1:

Clean-param: author_id http://site.ru/articles/

http://site.ru/articles/?author_id=267539 — индексироваться не будет

Пример 2:

Clean-param: author_id&sid http://site.ru/articles/

http://site.ru/articles/?author_id=267539&sid=0995823627 — индексироваться не будет

Яндекс также рекомендует использовать эту директиву для того, чтобы не учитывались UTM-метки и идентификаторы сессий. Пример:

Clean-Param: utm_source&utm_medium&utm_campaign

Другие параметры

В расширенной спецификации robots.txt можно найти еще параметры Request-rate и Visit-time. Однако они на данный момент не поддерживаются ведущими поисковыми системами.

Смысл директив:
Request-rate: 1/5 — загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 — загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Закрывающий robots.txt

Если вам нужно настроить, чтобы ваш сайт НЕ индексировался поисковыми роботами, то вам нужно прописать следующие директивы:

User-agent: *
Disallow: /

Проверьте, чтобы на тестовых площадках вашего сайта были прописаны эти директивы.

Правильная настройка robots.txt

Для России и стран СНГ, где доля Яндекса ощутима, следует прописывать директивы для всех роботов и отдельно для Яндекса и Google.

Чтобы правильно настроить robots.txt воспользуйтесь следующим алгоритмом:

  1. Закройте от индексирования админку сайта
  2. Закройте от индексирования личный кабинет, авторизацию, регистрацию
  3. Закройте от индексирования корзину, формы заказа, данные по доставке и заказам
  4. Закройте от индексирования ajax, json-скрипты
  5. Закройте от индексирования папку cgi
  6. Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google
  7. Закройте от индексирования функционал поиска
  8. Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов)
  9. Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS)
  10. Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения
  11. Закройте от индексирования страницы с параметрами UTM-меток и сессий
  12. Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
  13. Укажите Sitemap и Host
  14. По необходимости пропишите Crawl-Delay и Clean-Param
  15. Проверьте корректность robots.txt через инструменты Google и Яндекса (описано ниже)
  16. Через 2 недели перепроверьте, появились ли в поисковой выдаче новые страницы, которые не должны индексироваться. В случае необходимости повторить выше перечисленные шаги.

Пример robots.txt

# Пример файла robots.txt для настройки гипотетического сайта https://site.ru
User-agent: *
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Crawl-Delay: 5

User-agent: GoogleBot
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /plugins/*.png
Allow: /plugins/*.jpg
Allow: /plugins/*.gif

User-agent: Yandex
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /plugins/*.png
Allow: /plugins/*.jpg
Allow: /plugins/*.gif
Clean-Param: utm_source&utm_medium&utm_campaign
Crawl-Delay: 0.5

Sitemap: https://site.ru/sitemap.xml
Host: https://site.ru

Как добавить и где находится robots.txt

После того как вы создали файл robots.txt, его необходимо разместить на вашем сайте по адресу site.ru/robots.txt — т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt

Как проверить robots.txt

Проверка robots.txt осуществляется по следующим ссылкам:

Типичные ошибки в robots.txt

В конце статьи приведу несколько типичных ошибок файла robots.txt

  • robots.txt отсутствует
  • в robots.txt сайт закрыт от индексирования (Disallow: /)
  • в файле присутствуют лишь самые основные директивы, нет детальной проработки файла
  • в файле не закрыты от индексирования страницы с UTM-метками и идентификаторами сессий
  • в файле указаны только директивы
    Allow: *.css
    Allow: *.js
    Allow: *.png
    Allow: *.jpg
    Allow: *.gif
    при этом файлы css, js, png, jpg, gif закрыты другими директивами в ряде директорий
  • директива Host прописана несколько раз
  • в Host не указан протокол https
  • путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта

P.S.

Если у вас есть дополнения к статье или вопросы, пишите ниже в комментариях.
Если у вас сайт на CMS WordPress, вам будет полезна статья «Как настроить правильный robots.txt для WordPress».

P.S.2

Полезное видео от Яндекса (Внимание! Некоторые рекомендации подходят только для Яндекса).

Robots.txt – важные этапы при создании и проверке

Почему это важно

Robots.txt – это текстовый файл с набором инструкций для поисковых роботов, который управляет правилами индексации сайтов. С его помощью можно обозначить для поисковых систем, какие страницы стоит проиндексировать в первую очередь (например, раздел «Новости компании», так как он часто обновляется) и какие страницы закрыты для индексирования (например, результаты внутреннего поиска, так как это может привести к дублированию данных в поисковой системе и ухудшению показателей ранжирования сайта). Подробней о дубликатах данных читайте в Рыбе «Дублируемый контент – как вовремя найти и обезвредить дубли».

Файл Robots.txt должен находиться в корне сайта и быть доступен по адресу:

http://site.ru/robots.txt

Если у вашего сайта несколько поддоменов (это сайты 3-го уровня, например: http://ru.site.com), то для каждого поддомена следует писать свой robots.txt.

Как создать robots.txt?

Robots.txt – простой текстовый файл. Внимание: имя файла должно содержать только маленькие буквы (то есть имена «Robots.txt» и «ROBOTS.TXT» -  неправильные). Ещё одно ограничение robots.txt – размер файла. У Google это до 500 кб, у Яндекса до 32 кб. Если ваш robots.txt превышает эти размеры, то он может работать некорректно.

Более подробные требования к оформлению файла прописаны в справках поисковых систем: для Google и для «Яндекс».

Какие директивы существуют?

Директива «User-agent»

Директива, указывающая, для какого поискового робота написаны правила.

Примеры использования:

User-agent: * – для всех поисковых роботов

User-agent: Yandex – для поискового робота Yandex

User-agent: Googlebot – для поискового робота Google

User-agent: Yahoo – для поискового робота Yahoo

Рекомендуется использовать:

User-agent: *

Ниже мы рассмотрим примеры директив, как и для чего стоит их использовать.

Директива «Disallow»

Директива, запрещающая индексацию определённых файлов, страниц или категорий.

Эта директива применяется при необходимости закрыть дублирующие страницы (например, если это интернет-магазин, то страницы сортировки товаров, или же, если это новостной портал, то страницы печати новостей).

Также данная директива применима к «мусорным для поисковых роботов страницам». Такие страницы, как: «регистрация», «забыли пароль», «поиск» и тому подобные, – не несут полезности для поискового робота.

Примеры использования:

Disallow: /*sort – при помощи спец символа «*», мы даём понять поисковому роботу, что любой url, содержащий «SORT», будет исключён из индекса поисковой системы. Таким образом, в интернет-магазине мы сразу избавимся от всех страниц сортировки (учтите, что в некоторых CMS системах построение url сортировок может отличаться).

Disallow: /*print.php – аналогично сортировке мы исключаем все страницы «версия для печати».

Disallow: */telefon/ – в данном случае мы исключаем категорию «телефон», то есть url, содержащие «/telefon/».

Пример исключённых в данном случае url:

Пример не исключённых url в данном случае:

Disallow: /search – в данном случае мы исключим все страницы поиска, url которых начинаются с «/search». Давайте рассмотрим на примере исключенных страниц поиска:

Примеры не исключённых url в данном случае:

Disallow: / – закрыть весь сайт от индексации.

Рекомендуется использовать Disallow со специальным символом «*» для исключения большого количества страниц дублей.

Директива «Allow»

Директива, разрешающая индексировать страницы (по умолчанию поисковой системе открыт весь сайт для индексации). Данная директива используется с директивой «Disallow».

Важно: директива «allow» всегда должна быть выше директивы «disallow».

Пример №1 использования директив:

Allow: /user/search

Disallow: *search

В данном случае мы запрещаем поисковому роботу индексировать страницы «поиска по сайту», за исключением страниц «поиска пользователей».

Пример №2 использование директив:

Allow: /nokia

Disallow: *telefon

В данном случае, если url-структура страниц такого типа:

Мы закрываем все телефоны от индексации, за исключением телефонов «nokia».

Такая методика, как правило, редко используется.

Директива «sitemap»

Данная директива указывает поисковому роботу путь к карте сайта в формате «XML».

Директива должна содержать в себе полный путь к файлу.

Sitemap: http://site.ru/sitemap.xml

Рекомендации по использованию данной директивы: проверьте правильность указанного адреса.

Директива «Host»

Данная директива позволяет указать главное зеркало сайта. Ведь для поисковой системы это два разных сайта.

В данной директиве необходимо указывать главное зеркало сайта в виде:

Host: www.site.ru

Либо:

Host: site.ru

Пример полноценного robots.txt

User-Agent: *

Disallow: /cgi-bin

Disallow: /*sort=*

Sitemap: http://www.site.ru/sitemap.xml

Host: www.site.ru

Корректность работы файла проверяется согласно правилам поисковых систем, в которых указаны правильные и актуальные директивы (ПС могут обновлять требования, поэтому важно следить за тем, чтобы ваш robots.txt оставался актуальным). Конечную проверку файла можно провести с помощью верификатора. В Google – это robots.txt Tester в панели инструментов для веб-мастеров, в ПС «Яндекс» - Анализ robots.txt.

Выводы

Инструкция robots.txt – важный момент в процессе оптимизации сайта. Файл позволяет указать поисковому роботу, какие страницы не следует индексировать. Это, в свою очередь, позволяет ускорить индексации нужных страниц, отчего повышается общая скорость индексации сайта.

Необходимо помнить, что robots.txt – это не указания, а только рекомендации поисковым системам.

Файл Robots txt - настройка, как создать и проверить: пример robots txt на сайте, директивы

Текстовый файл, записывающий специальные инструкции для поискового робота, ограничивающие доступ к содержимому на http сервере, находящийся в корневой директории веб-сайта и имеющий путь относительно имени самого сайта (/robots.txt ).

Robots.txt - как создать правильный файл robots.txt

Файл robots.txt позволяет управлять индексацией вашего сайта. Закрыть какой-либо раздел можно директивой disallow, открыть - allow. Проверка и анализ robots.txt.

Выгрузить в xls, файл, индексация, сайт, директива, яндекс, настройка, запрет, проверка, пример, генератор, анализ, страница, правильный, закрыть, создать, добавить, проверить, задать, запретить, сделать, robots, txt, host, закрытый, где, disallow

Robots.txt — текстовый файл, содержащий инструкции для поисковых роботов, как нужно индексировать сайт.

Почему важно создавать файл robots.txt для сайта

В 2011 году случилось сразу несколько громких скандалов, связанных с нахождением в поиске Яндекса нежелательной информации.

Сначала в выдаче Яндекса оказалось более 8 тысяч SMS-сообщений, отправленных пользователями через сайт компании «МегаФон». В результатах поиска отображались тексты сообщений и телефонные номера, на которые они были отправлены.

Заместитель генерального директора «МегаФона» Валерий Ермаков заявил, что причиной публичного доступа к данным могло стать наличие у клиентов «Яндекс.Бара», который считывал информацию и отправлял поисковому роботу Яндекса.

У Яндекса было другое объяснение:

«Еще раз можем подтвердить, что страницы с SMS с сайта МегаФона были публично доступны всем поисковым системам... Ответственность за размещение информации в открытом доступе лежит на том, кто её разместил или не защитил должным образом...

Особо хотим отметить, что никакие сервисы Яндекса не виноваты в утечке данных с сайта МегаФона. Ни Яндекс.Бар, ни Яндекс.Метрика не скачивают содержимое веб-страниц. Если страница закрыта для индексации в файле robots.txt или защищена логином и паролем, то она недоступна и поисковым роботам, то есть информация, размещенная на ней, никогда не окажется в какой-либо поисковой системе».

Вскоре после этого пользователи нашли в Яндексе несколько тысяч страниц со статусами заказов в онлайн-магазинах книг, игр, секс-товаров и т.д. По ссылкам с результатов поиска можно было увидеть ФИО, адрес и контактные данные клиента магазина, IP-адрес, наименование его покупки, дату и время заказа. И снова причиной утечки стал некорректно составленный (или вообще отсутствующий) файл robots.txt.

Чтобы не оказаться в подобных ситуациях, лучше заранее составить правильный robots.txt файл для сайта. Как сделать robots.txt в соответствии с рекомендациями поисковых систем, расскажем ниже.

Как создать robots.txt для сайта

Настройка robots.txt начинается с создания текстового файла с именем «robots.txt». После заполнения этот файл нужно будет сохранить в корневом каталоге сайта, поэтому лучше заранее проверить, есть ли к нему доступ.

Основные директивы robots.txt

В простейшем файле robots.txt используются следующие директивы:

  • User-agent
  • Disallow
  • Allow

Директива User-agent

Здесь указываются роботы, которые должны следовать указанным инструкциям. Например, User-agent: Yandex означает, что команды будут распространяться на всех роботов Яндекса. User-agent: YandexBot – только на основного индексирующего робота. Если в данном пункте мы поставим *, правило будет распространяться на всех роботов.

Директива Disallow

Эта команда сообщает роботу user-agent, какие URL не нужно сканировать. При составлении файла robots.txt важно помнить, что эта директива будет относиться только к тем роботам, которые были перед этим указаны в директиве user-agent. Если подразумеваются разные запреты для разных роботов, то в файле нужно указать отдельно каждого робота и директиву disallow для него.

Как закрыть части сайта с помощью директивы Disallow:

  • Если нужно закрыть от сканирования весь сайт, необходимо использовать косую черту (/): Disallow: /
  • Если нужно закрыть от сканирования каталог со всем его содержимым, необходимо ввести его название и косую черту в конце: Disallow: /events/
  • Если нужно закрыть страницу, необходимо указать название страницы после косой черты: Disallow: /file.html

Директива Allow

Разрешает роботу сканировать сайт или отдельные URL.

В примере ниже robots.txt запрещает роботам Яндекса сканировать весь сайт за исключением страниц, начинающихся с «events»:

User-agent: Yandex

Allow: /events

Disallow: /

Спецсимволы в директивах

Для директив Allow и Disallow используются спецсимволы «*» и «$».

  • Звездочка (*) подразумевает собой любую последовательность символов. Например, если нужно закрыть подкаталоги, начинающиеся с определенных символов: Disallow: /example*/
  • По умолчанию символ * ставится в конце каждой строки. Если нужно закончить строку определенным символом, используется спецсимвол $. Например, если нужно закрыть URL, заканчивающиеся на doc: Disallow: /*.doc$
  • Спецсимвол # используется для написания комментариев и не учитывается роботами.

Дополнительные директивы robots.txt

Директива Host

Директива Host в robots.txt используется, чтобы указать роботу на главное зеркало сайта.

Пример:

https://www.glavnoye-zerkalo.ru является главным зеркалом сайта, и для всех сайтов из группы зеркал необходимо прописать в robots.txt:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: https://www.glavnoye-zerkalo.ru

Правила использования директивы Host:

  • В файле robots.txt может быть только одна директива Host. Робот всегда ориентируется на первую директиву, даже если их указано несколько.
  • Если зеркало доступно по защищенному каналу, нужно добавить протокол HTTPS,
  • Должно быть указано одно доменное имя и номер порта в случае необходимости.

Если директива Host прописана неправильно, роботы ее проигнорируют.

Директива Crawl-delay

Директива Crawl-delay задает для робота промежуток времени, с которым он должен загружать страницы. Пригодится в случае сильной нагрузки на сервер.

Например, если нужно задать промежуток в 3 секунды между загрузкой страниц:

User-agent: *

Disallow: /search

Crawl-delay: 3

Директива Clean-param

Пригодится для сайтов, страницы которых содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий). Директива позволяет роботам не перезагружать дублирующуюся информацию, что положительно сказывается на нагрузке на сервер.

Использование кириллицы

При составлении файла robots.txt нельзя использовать кириллические символы. Допускается использование Punycode для доменов.

Как проверить robots.txt

Для проверки файла robots.txt можно использовать Яндекс.Вебмастер (Анализ robots.txt) или Google Search Console (Инструмент проверки файла Robots.txt).

Как добавить файл robots.txt на сайт

Как только файл robots.txt написан и проверен, его нужно сохранить в виде текстового файла с названием robots.txt и загрузить в каталог верхнего уровня сайта или в корневой каталог.


Синонимы: нет
Все термины на букву «R»
Все термины в глоссарии

(Голосов: 5, Рейтинг: 5)

Создайте и отправьте файл robots.txt

Если вы используете службу хостинга сайтов, такую ​​как Wix или Blogger , вам может не понадобиться (или иметь возможность) редактировать файл robots.txt напрямую. Вместо этого ваш провайдер может открыть поиск страницу настроек или какой-либо другой механизм, чтобы сообщить поисковым системам, сканировать ли ваш страница.

Если вы хотите скрыть или показать одну из своих страниц от поисковых систем, ищите инструкции об изменении видимости вашей страницы в поисковых системах на вашем хостинге, например, выполните поиск по запросу «wix скрыть страницу от поисковых систем».

Ты можешь контролировать, к каким файлам могут обращаться сканеры на вашем сайте с помощью файла robots.txt. Файл robots.txt находится в корне вашего сайта. Так, для сайта www.example.com файл robots.txt находится по адресу www.example.com/robots.txt . robots.txt - это простой текстовый файл, следующий за Стандарт исключения роботов. Файл robots.txt состоит из одного или нескольких правил. Каждое правило блокирует или разрешает доступ для данного поискового робота на указанный путь к файлу на этом веб-сайте.Если вы не укажете иное в своем robots.txt, все файлы неявно разрешены для сканирования.

Вот простой файл robots.txt с двумя правилами:

Пользовательский агент: Googlebot
Запретить: / nogooglebot /

Пользовательский агент: *
Позволять: /

Карта сайта: http://www.example.com/sitemap.xml 

Вот что означает этот файл robots.txt:

  1. Пользовательскому агенту с именем Googlebot не разрешено сканировать URL-адреса, начинающиеся с http: // example.com / nogooglebot / .
  2. Всем остальным пользовательским агентам разрешено сканировать весь сайт. Это могло быть пропущено и результат будет таким же; по умолчанию пользовательские агенты могут сканировать весь сайт.
  3. Файл карты сайта находится по адресу http://www.example.com/sitemap.xml .

Дополнительные примеры см. В разделе синтаксиса.

Основные принципы создания файла robots.txt файл

Чтобы создать файл robots.txt и сделать его общедоступным и полезным, нужно выполнить четыре шага:

  1. Создайте файл с именем robots.txt.
  2. Добавьте правила в файл robots.txt.
  3. Загрузите файл robots.txt на свой сайт.
  4. Протестируйте файл robots.txt.

Создайте файл robots.txt

Вы можете использовать практически любой текстовый редактор для создания файла robots.txt. Например, Блокнот, TextEdit, vi и emacs могут создавать действительных роботов.txt файлы. Не используйте текстовый процессор; слово процессоры часто сохраняют файлы в проприетарном формате и могут добавлять неожиданные символы, такие как фигурные цитаты, которые могут вызвать проблемы у роботов. Обязательно сохраните файл с UTF-8 кодировка, если это будет предложено в диалоговом окне сохранения файла.

Правила формата и размещения:

  • Файл должен называться robots.txt.
  • На вашем сайте может быть только один файл robots.txt.
  • Роботы.txt должен находиться в корне хоста веб-сайта, чтобы который применяется. Например, для управления сканированием всех URL-адресов ниже https://www.example.com/ , файл robots.txt должен находиться по адресу https://www.example.com/robots.txt . Это не может быть помещено в подкаталог (например, https://example.com/pages/robots.txt ). Если ты не знаете, как получить доступ к корню вашего веб-сайта или вам нужны разрешения для этого, обратитесь к своему веб-сайту провайдер хостинг-услуг.Если у вас нет доступа к корню вашего сайта, используйте альтернативную блокировку метод, такой как метатеги.
  • Файл robots.txt может применяться к субдоменам (например, https: // сайт .example.com / robots.txt ) или на нестандартных порты (например, http://example.com: 8181 /robots.txt ).
  • Файл robots.txt должен быть текстовым файлом в кодировке UTF-8 (включая ASCII). Google может игнорировать символы, не входящие в диапазон UTF-8, что может привести к рендерингу robots.текст правила недействительны.

Добавить правила в файл robots.txt

Правила - это инструкции для поисковых роботов о том, какие части вашего сайта они могут сканировать. Следовать эти рекомендации при добавлении правил в файл robots.txt:

  • Файл robots.txt состоит из одной или нескольких групп.
  • Каждая группа состоит из нескольких правил или директивы (инструкции), по одной директиве на строку. Каждая группа начинается с User-agent строка, указывающая цель групп.
  • Группа предоставляет следующую информацию:
    • Кому относится группа (пользовательский агент).
    • К каким каталогам или файлам может обращаться агент . .
    • К каким каталогам или файлам агент не может получить доступ. .
  • Поисковые роботы обрабатывают группы сверху вниз. Пользовательский агент может соответствовать только одному набору правил, который это первая, наиболее конкретная группа, которая соответствует данному пользовательскому агенту.
  • По умолчанию предполагается, что пользовательский агент может сканировать любую страницу или каталог, не заблокированный запретить правило .
  • Правила чувствительны к регистру. Например, disallow: /file.asp применяется к https://www.example.com/file.asp , но не https://www.example.com/FILE.asp .
  • Символ # отмечает начало комментария.

Сканеры Google поддерживают следующие директивы в robots.txt файлы:

  • user-agent: [Обязательно, один или несколько на группу] директива определяет имя автоматического клиента, известного как сканер поисковой системы, который правило применяется к. Это первая строка для любой группы правил. Имена пользовательских агентов Google: перечисленные в Список пользовательских агентов Google. Использование звездочки ( * ) соответствует всем сканерам, кроме различных сканеров AdsBot, который должен быть назван явно.Например:
    # Пример 1. Заблокировать только Googlebot
    Пользовательский агент: Googlebot
    Запретить: /
    
    # Пример 2. Блокировка роботов Google и Adsbot
    Пользовательский агент: Googlebot
    Пользовательский агент: AdsBot-Google
    Запретить: /
    
    # Пример 3. Блокировка всех сканеров, кроме AdsBot
    Пользовательский агент: *
    Disallow: / 
  • запретить: [По крайней мере один или несколько запретить или разрешить записей на правило] Каталог или страница относительно корневого домена, что вы не хотите, чтобы пользовательский агент сканировал.Если правило относится к странице, это должно быть полное имя страницы, как показано в браузере. Он должен начинаться с символа /, и если он относится к каталогу, он должен заканчиваться знаком /.
  • разрешить: [По крайней мере один или несколько запретить или разрешить записей на правило] Каталог или страница относительно корневого домена, которые могут сканироваться только что упомянутым пользовательским агентом. Это используется для отмены disallow директива, разрешающая сканирование подкаталога или страницы в запрещенном каталог.Для одной страницы полное имя страницы, отображаемое в браузере, должно быть указано. В случае каталога правило должно заканчиваться отметкой /.
  • карта сайта: [Необязательно, ноль или более на файл] расположение карты сайта для этого веб-сайта. URL-адрес карты сайта должен быть полным URL-адресом; Google не предполагает и не проверяет альтернативы http / https / www.non-www. Файлы Sitemap - хороший способ указать, какой контент должен сканировать Google, а не какой контент он может или не может сканировать .Узнайте больше о файлах Sitemap. Пример:
    Карта сайта: https://example.com/sitemap.xml
    Карта сайта: http://www.example.com/sitemap.xml 

Все директивы, кроме sitemap , поддерживают подстановочный знак * для пути префикс, суффикс или целая строка.

Строки, не соответствующие ни одной из этих директив, игнорируются.

Прочтите нашу страницу о Интерпретация Google файла robots.txt спецификация для полного описания каждой директивы.

Загрузите файл robots.txt

После того, как вы сохранили файл robots.txt на свой компьютер, вы готовы сделать его доступным для поисковые роботы. Нет ни одного инструмента, который мог бы помочь вам в этом, потому что как вы загрузка файла robots.txt на ваш сайт зависит от архитектуры вашего сайта и сервера. Залезай свяжитесь с вашей хостинговой компанией или выполните поиск в документации вашей хостинговой компании; для Например, выполните поиск по запросу «загрузить файлы инфоманьяк».

После загрузки файла robots.txt проверьте, является ли он общедоступным и может ли Google проанализируйте это.

Тестовая разметка robots.txt

Чтобы проверить, является ли ваш недавно загруженный файл robots.txt общедоступным, откройте окно приватного просмотра (или аналогичный) в своем браузере и перейдите в папку с файлом robots.txt. Для например, https://example.com/robots.txt . Если вы видите содержимое своего роботы.txt, вы готовы протестировать разметку.

Google предлагает два варианта тестирования разметки robots.txt:

  1. В robots.txt Тестер в Search Console. Вы можете использовать этот инструмент только для файлов robots.txt. которые уже доступны на вашем сайте.
  2. Если вы разработчик, проверьте и создайте Библиотека Google с открытым исходным кодом robots.txt, который также используется в поиске Google. Вы можете использовать этот инструмент для тестирования роботов.txt файлы локально на твоем компьютере.

Отправить файл robots.txt в Google

После того, как вы загрузите и протестируете файл robots.txt, поисковые роботы Google автоматически найдут и начните использовать свой файл robots.txt. Вам не нужно ничего делать. Если вы обновили свой robots.txt, и вам нужно как можно скорее обновить кешированную копию Google, узнайте как отправить обновленный файл robots.txt.

Полезные роботы.txt правила

Вот несколько общих полезных правил robots.txt:

Полезные правила
Запретить сканирование всего сайта

Имейте в виду, что в некоторых случаях URL-адреса с веб-сайта все еще могут быть проиндексированы, даже если они не сканировались.

Это не соответствует различные сканеры AdsBot, который должен быть назван явно.
Пользовательский агент: *
Disallow: / 
Запретить сканирование каталога и его содержимого

Добавьте косую черту к имени каталога, чтобы запретить сканирование всего каталог.

Помните, что вы не должны использовать robots.txt для блокировки доступа к приватным содержание: вместо этого используйте правильную аутентификацию.URL-адреса, запрещенные файлом robots.txt может быть проиндексирован без сканирования, а файл robots.txt может быть просмотрен кто угодно, потенциально раскрывающий местонахождение вашего личного контента.
Пользовательский агент: *
Запретить: / календарь /
Disallow: / junk / 
.
Разрешить доступ одному сканеру

Только googlebot-news может сканировать весь сайт.

User-agent: Googlebot-news
Позволять: /

Пользовательский агент: *
Disallow: / 
Разрешить доступ всем, кроме одного сканера

Ненужный бот не может сканировать сайт, все остальные боты могут.

Пользовательский агент: Ненужный бот
Запретить: /

Пользовательский агент: *
Разрешить: / 

Запретить сканирование отдельной веб-страницы

Например, запретите бесполезный_файл.html стр.

Пользовательский агент: *
Запретить: /useless_file.html 

Заблокировать определенное изображение в Картинках Google

Например, запретите изображение dogs.jpg .

Пользовательский агент: Googlebot-Image
Запретить: /images/dogs.jpg 

Заблокировать все изображения на вашем сайте из Картинок Google

Google не может индексировать изображения и видео без их сканирования.

Пользовательский агент: Googlebot-Image
Disallow: / 

Запретить сканирование файлов определенного типа

Например, запретить сканирование всех файлов .gif .

Пользовательский агент: Googlebot
Disallow: /*.gif$ 

Запретить сканирование всего сайта, но разрешить Mediapartners-Google

Эта реализация скрывает ваши страницы от результатов поиска, но Поисковый робот Mediapartners-Google все еще может проанализировать их, чтобы решить, что объявления для показа посетителям на вашем сайте.

Пользовательский агент: *
Запретить: /

Пользовательский агент: Mediapartners-Google
Разрешить: / 
Используйте $ для сопоставления URL-адресов, заканчивающихся определенной строкой

Например, запретить все файлов .xls .

Пользовательский агент: Googlebot
Disallow: /*.xls$ 

Robots.txt Введение и руководство | Центр поиска Google

Роботы.txt сообщает сканерам поисковых систем, к каким URL-адресам сканер может получить доступ на вашем сайте. Это используется в основном для того, чтобы избежать перегрузки вашего сайта запросами; это не механизм для защиты веб-страницы от Google . Чтобы веб-страница не попала в Google, вы должен блокировать индексацию с помощью noindex или защитите страницу паролем.

Для чего используется файл robots.txt?

Файл robots.txt используется в первую очередь для управления трафиком сканеров на ваш сайт, а также обычно для хранения файла вне Google, в зависимости от типа файла:

роботов.txt для разных типов файлов
Веб-страница

Вы можете использовать файл robots.txt для веб-страниц (HTML, PDF или другие мультимедийные форматы, которые может читать Google), для управления обходным трафиком, если вы думаете, что ваш сервер будет перегружен запросами от поискового робота Google или чтобы не сканировать неважные или похожие страницы вашего сайта.

Не используйте robots.txt, чтобы скрыть свои веб-страницы от поиска Google. полученные результаты.

Если другие страницы указывают на вашу страницу с описательным текстом, Google все равно может проиндексировать URL без посещения страницы. Если вы хотите заблокировать свою страницу из поиска результатов, используйте другой метод, например защиту паролем или noindex .

Если ваша веб-страница заблокирована файлом robots.txt , его URL-адрес все еще может появляются в результатах поиска, но результат поиска будет нет описания. Файлы изображений, видеофайлы, PDF-файлы и другие файлы, отличные от HTML, будут исключены. Если ты видишь этот результат поиска для вашей страницы и хотите исправить это, удалите запись robots.txt блокировка страницы. Если вы хотите полностью скрыть страницу от поиска, используйте другой метод.

Медиа-файл

Используйте robots.txt для управления трафиком сканирования, а также для предотвращения изображений, видео и аудиофайлы не появляются в результатах поиска Google. Это не помешает другим страницам или пользователей от ссылки на ваше изображение / видео / аудио файл.

Файл ресурсов Вы можете использовать файл robots.txt для блокировки файлов ресурсов, таких как неважное изображение, сценарий, или файлы стилей, , если вы считаете, что страницы, загруженные без этих ресурсов, не будут существенно повлияет потеря .Однако если их отсутствие ресурсы затрудняют понимание страницы поисковым роботом Google, вам следует не блокировать их, иначе Google не будет хорошо анализировать страницы, зависящие от эти ресурсы.

Ознакомьтесь с ограничениями файла robots.txt

Прежде чем создавать или редактировать файл robots.txt, вы должны знать ограничения этой блокировки URL. метод. В зависимости от ваших целей и ситуации вы можете рассмотреть другие механизмы убедитесь, что ваши URL-адреса не могут быть найдены в Интернете.

  • Директивы robots.txt могут поддерживаться не всеми поисковыми системами.
    Инструкции в файлах robots.txt не могут обеспечить поведение сканера на вашем сайте; работает гусеницу подчиняться им. Хотя робот Googlebot и другие уважаемые веб-сканеры подчиняются инструкции в файле robots.txt, другие сканеры не могут. Поэтому, если вы хотите сохранить информация защищена от веб-сканеров, лучше использовать другие методы блокировки, такие как защита паролем личных файлов на вашем сервере.
  • Разные сканеры по-разному интерпретируют синтаксис
    Несмотря на то, что уважаемые поисковые роботы следуют директивам в файле robots.txt, каждый поисковый робот могут по-разному интерпретировать директивы. Вы должны знать правильный синтаксис для адресации разные поисковые роботы, так как некоторые могут не понимать определенные инструкции.
  • Роботизированная страница может по-прежнему будет индексироваться, если на него ссылаются с других сайтов
    Пока Google не будет сканировать или индексировать контент, заблокированный файлом robots.txt, мы все еще можем найти и проиндексировать запрещенный URL, если на него есть ссылки из других мест в Интернете. Как результат, URL-адрес и, возможно, другая общедоступная информация, например текст привязки в ссылках на страницу все еще может отображаться в результатах поиска Google. Чтобы правильно предотвратить ваш URL от появления в результатах поиска Google, защитить паролем файлы на вашем сервере, используйте метатег noindex или заголовок ответа, или удалите страницу полностью.
Важно : объединение нескольких директив сканирования и индексирования может вызвать некоторые директивы для противодействия другим директивам. Узнайте, как совместить сканирование с директивами индексирования и обслуживания.

Создайте файл robots.txt

Если вы решили, что он вам нужен, узнайте, как создайте файл robots.txt.

Файл Robots.txt [Примеры 2021] - Moz

Что такое файл robots.txt?

Роботы.txt - это текстовый файл, который веб-мастера создают, чтобы проинструктировать веб-роботов (обычно роботов поисковых систем), как сканировать страницы на своем веб-сайте. Файл robots.txt является частью протокола исключения роботов (REP), группы веб-стандартов, которые регулируют, как роботы сканируют Интернет, получают доступ и индексируют контент, а также предоставляют этот контент пользователям. REP также включает в себя такие директивы, как мета-роботы, а также инструкции для страницы, подкаталога или сайта о том, как поисковые системы должны обрабатывать ссылки (например, «следовать» или «nofollow»).

На практике файлы robots.txt указывают, могут ли определенные пользовательские агенты (программное обеспечение для веб-сканирования) сканировать части веб-сайта. Эти инструкции сканирования определяются как «запрещающие» или «разрешающие» поведение определенных (или всех) пользовательских агентов.

Базовый формат:
 User-agent: [имя user-agent] Disallow: [URL-строка не должна сканироваться] 

Вместе эти две строки считаются полным файлом robots.txt, хотя один файл robots может содержат несколько строк пользовательских агентов и директив (т.е., запрещает, разрешает, задержки сканирования и т. д.).

В файле robots.txt каждый набор директив пользовательского агента отображается как дискретный набор , разделенных разрывом строки:

В файле robots.txt с несколькими директивами пользовательского агента, каждое запрещающее или разрешающее правило только применяется к агенту (ам), указанному в этом конкретном наборе, разделенном разрывом строки. Если файл содержит правило, которое применяется более чем к одному пользовательскому агенту, поисковый робот будет , только обратит внимание (и будет следовать директивам в) наиболее конкретной группе инструкций .

Вот пример:

Msnbot, discobot и Slurp вызываются специально, поэтому эти пользовательские агенты только обратят внимание на директивы в своих разделах файла robots.txt. Все остальные пользовательские агенты будут следовать директивам в группе user-agent: *.

Пример robots.txt:

Вот несколько примеров использования robots.txt для сайта www.example.com:

URL файла Robots.txt: www.example.com/robots.txt
Блокировка всех поисковых роботов для доступа ко всему содержимому
 User-agent: * Disallow: / 

Использование этого синтаксиса в файле robots.txt укажет всем поисковым роботам не сканировать никакие страницы www.example .com, включая домашнюю страницу.

Разрешение всем поисковым роботам доступа ко всему контенту
 User-agent: * Disallow: 

Использование этого синтаксиса в файле robots.txt указывает поисковым роботам сканировать все страницы на www.example.com, включая домашнюю страницу.

Блокировка определенного поискового робота из определенной папки
 User-agent: Googlebot Disallow: / example-subfolder / 

Этот синтаксис предписывает только поисковому роботу Google (имя агента пользователя Googlebot) не сканировать страницы, которые содержать строку URL www.example.com/example-subfolder/.

Блокировка определенного поискового робота с определенной веб-страницы
 User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html 

Этот синтаксис сообщает только сканеру Bing (имя агента пользователя Bing) избегать сканирование конкретной страницы www.example.com/example-subfolder/blocked-page.html.

Как работает robots.txt?

Поисковые системы выполняют две основные задачи:

  1. Сканирование Интернета для обнаружения контента;
  2. Индексирование этого контента, чтобы его могли обслуживать искатели, ищущие информацию.

Чтобы сканировать сайты, поисковые системы переходят по ссылкам с одного сайта на другой - в конечном итоге просматривая многие миллиарды ссылок и веб-сайтов. Такое ползание иногда называют «пауками».”

После перехода на веб-сайт, но перед его сканированием поисковый робот будет искать файл robots.txt. Если он найдет его, сканер сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Поскольку файл robots.txt содержит информацию о , как должна сканировать поисковая система, найденная там информация будет указывать на дальнейшие действия сканера на этом конкретном сайте. Если файл robots.txt не содержит , а не содержат директив, запрещающих действия пользовательского агента (или если на сайте нет файла robots.txt), он продолжит сканирование другой информации на сайте.

Другой быстрый файл robots.txt, который необходимо знать:

(более подробно обсуждается ниже)

  • Чтобы его можно было найти, файл robots.txt должен быть помещен в каталог верхнего уровня веб-сайта.

  • Robots.txt чувствителен к регистру: файл должен называться «robots.txt» (не Robots.txt, robots.TXT и т. Д.).

  • Некоторые пользовательские агенты (роботы) могут игнорировать ваш robots.txt файл. Это особенно характерно для более гнусных поисковых роботов, таких как вредоносные роботы или парсеры адресов электронной почты.

  • Файл /robots.txt является общедоступным: просто добавьте /robots.txt в конец любого корневого домена, чтобы увидеть директивы этого веб-сайта (если на этом сайте есть файл robots.txt!). Это означает, что любой может видеть, какие страницы вы хотите или не хотите сканировать, поэтому не используйте их для сокрытия личной информации пользователя.

  • Каждый субдомен в корневом домене использует отдельных роботов.txt файлы. Это означает, что и blog.example.com, и example.com должны иметь свои собственные файлы robots.txt (по адресу blog.example.com/robots.txt и example.com/robots.txt).

  • Обычно рекомендуется указывать расположение любых карт сайта, связанных с этим доменом, в нижней части файла robots.txt. Вот пример:


Выявление критических предупреждений robots.txt с помощью Moz Pro

Функция сканирования сайта Moz Pro проверяет ваш сайт на наличие проблем и выделяет срочные ошибки, которые могут помешать вам появиться в Google.Воспользуйтесь 30-дневной бесплатной пробной версией и посмотрите, чего вы можете достичь:

Начать бесплатную пробную версию


Технический синтаксис robots.txt

Синтаксис Robots.txt можно рассматривать как «язык» файлов robots.txt . Есть пять общих терминов, которые вы, вероятно, встретите в файле robots. К ним относятся:

  • User-agent: Конкретный поисковый робот, которому вы даете инструкции для сканирования (обычно это поисковая система). Список большинства пользовательских агентов можно найти здесь.

  • Disallow: Команда, используемая для указания агенту пользователя не сканировать определенный URL. Для каждого URL разрешена только одна строка «Disallow:».

  • Разрешить (применимо только для робота Googlebot): команда, сообщающая роботу Googlebot, что он может получить доступ к странице или подпапке, даже если его родительская страница или подпапка могут быть запрещены.

  • Crawl-delay: Сколько секунд сканер должен ждать перед загрузкой и сканированием содержимого страницы.Обратите внимание, что робот Googlebot не подтверждает эту команду, но скорость сканирования можно установить в консоли поиска Google.

  • Карта сайта: Используется для вызова местоположения любых XML-файлов Sitemap, связанных с этим URL. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.

Сопоставление с образцом

Когда дело доходит до фактических URL-адресов, которые нужно заблокировать или разрешить, файлы robots.txt могут стать довольно сложными, поскольку они позволяют использовать сопоставление с образцом для охвата диапазона возможных вариантов URL.И Google, и Bing соблюдают два регулярных выражения, которые можно использовать для идентификации страниц или подпапок, которые SEO хочет исключить. Эти два символа - звездочка (*) и знак доллара ($).

  • * - это подстановочный знак, который представляет любую последовательность символов.
  • $ соответствует концу URL-адреса

Google предлагает здесь большой список возможных синтаксисов и примеров сопоставления с образцом.

Где находится файл robots.txt на сайте?

Когда бы они ни заходили на сайт, поисковые системы и другие роботы, сканирующие Интернет (например, сканер Facebook Facebot), знают, что нужно искать роботов.txt файл. Но они будут искать этот файл в только в одном конкретном месте : в основном каталоге (обычно в корневом домене или на домашней странице). Если пользовательский агент посещает www.example.com/robots.txt и не находит там файла роботов, он будет считать, что на сайте его нет, и продолжит сканирование всего на странице (и, возможно, даже на всем сайте. ). Даже если страница robots.txt действительно существует, , скажем, по адресу example.com/index/robots.txt или www.example.com/homepage/robots.txt, он не будет обнаружен пользовательскими агентами, и поэтому сайт будет обрабатываться так, как если бы на нем вообще не было файла robots.

Чтобы гарантировать, что ваш файл robots.txt найден, всегда включает его в свой основной каталог или корневой домен.

Зачем нужен robots.txt?

Файлы Robots.txt управляют доступом поискового робота к определенным областям вашего сайта. Хотя это может быть очень опасно, если вы случайно запретите роботу Google сканировать весь ваш сайт (!!), в некоторых ситуациях файл robots.txt может быть очень кстати.

Некоторые распространенные варианты использования включают:

  • Предотвращение появления дублированного контента в результатах поиска (обратите внимание, что мета-роботы часто являются лучшим выбором для этого)
  • Сохранение конфиденциальности целых разделов веб-сайта (например, промежуточного сайта вашей группы инженеров)
  • Предотвращение показа страниц результатов внутреннего поиска в общедоступной поисковой выдаче
  • Указание местоположения карты (ов) сайта
  • Запрет поисковым системам индексировать определенные файлы на вашем веб-сайте (изображения, PDF-файлы и т.)
  • Указание задержки сканирования для предотвращения перегрузки ваших серверов, когда сканеры загружают сразу несколько частей контента

Если на вашем сайте нет областей, к которым вы хотите контролировать доступ агента пользователя, вы не можете вообще нужен файл robots.txt.

Проверка наличия файла robots.txt

Не уверены, есть ли у вас файл robots.txt? Просто введите свой корневой домен, а затем добавьте /robots.txt в конец URL-адреса. Например, файл роботов Moz находится по адресу moz.ru / robots.txt.

Если страница .txt не отображается, значит, у вас нет (активной) страницы robots.txt.

Как создать файл robots.txt

Если вы обнаружили, что у вас нет файла robots.txt или вы хотите изменить свой, создание его - простой процесс. В этой статье от Google рассматривается процесс создания файла robots.txt, и этот инструмент позволяет вам проверить, правильно ли настроен ваш файл.

Хотите попрактиковаться в создании файлов роботов? В этом сообщении блога рассматриваются некоторые интерактивные примеры.

Рекомендации по поисковой оптимизации

  • Убедитесь, что вы не блокируете какой-либо контент или разделы своего веб-сайта, которые нужно просканировать.

  • Ссылки на страницах, заблокированных файлом robots.txt, переходить не будут. Это означает 1.) Если на них также не ссылаются другие страницы, доступные для поисковых систем (т. Е. Страницы, не заблокированные через robots.txt, мета-роботы или иным образом), связанные ресурсы не будут сканироваться и не могут быть проиндексированы. 2.) Никакой ссылочный капитал не может быть передан с заблокированной страницы на место назначения ссылки.Если у вас есть страницы, на которые вы хотите передать средства, используйте другой механизм блокировки, отличный от robots.txt.

  • Не используйте robots.txt для предотвращения появления конфиденциальных данных (например, личной информации пользователя) в результатах поисковой выдачи. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию (таким образом, в обход директив robots.txt в вашем корневом домене или домашней странице), она все равно может быть проиндексирована. Если вы хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например защиту паролем или метадирективу noindex.

  • Некоторые поисковые системы имеют несколько пользовательских агентов. Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов из одной и той же поисковой системы следуют одним и тем же правилам, поэтому нет необходимости указывать директивы для каждого из нескольких сканеров поисковой системы, но возможность делать это позволяет вам точно настроить способ сканирования содержания вашего сайта.

  • Поисковая машина кэширует содержимое robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день.Если вы изменили файл и хотите обновить его быстрее, чем это происходит, вы можете отправить URL-адрес robots.txt в Google.

Robots.txt против мета-роботов против x-роботов

Так много роботов! В чем разница между этими тремя типами инструкций для роботов? Во-первых, robots.txt - это фактический текстовый файл, тогда как meta и x-robots - это метадирективы. Помимо того, чем они являются на самом деле, все три выполняют разные функции. Файл robots.txt определяет поведение сканирования сайта или всего каталога, тогда как мета и x-роботы могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).


Продолжайте учиться

Приложите свои навыки к работе

Moz Pro может определить, блокирует ли ваш файл robots.txt наш доступ к вашему веб-сайту. Попробовать >>

Как создать идеальный файл Robots.txt для SEO

Все любят «хаки».

Я не исключение - мне нравится находить способы сделать свою жизнь лучше и проще.

Вот почему техника, о которой я расскажу вам сегодня, - одна из моих самых любимых.Это законный SEO-прием, которым вы можете сразу же начать пользоваться.

Это способ улучшить ваше SEO за счет использования естественной части каждого веб-сайта, о которой редко говорят. Реализовать тоже несложно.

Это файл robots.txt (также называемый протоколом исключения роботов или стандартом).

Этот крошечный текстовый файл есть на каждом веб-сайте в Интернете, но большинство людей даже не знают о нем.

Он разработан для работы с поисковыми системами, но, что удивительно, это источник сока SEO, который только и ждет, чтобы его разблокировали.

Я видел, как клиент за клиентом отклонялись назад, пытаясь улучшить свое SEO. Когда я говорю им, что они могут редактировать небольшой текстовый файл, они мне почти не верят.

Однако существует множество несложных или трудоемких методов улучшения SEO, и это один из них.

Для использования всех возможностей robots.txt не требуется никакого технического опыта. Если вы можете найти исходный код для своего веб-сайта, вы можете использовать его.

Итак, когда вы будете готовы, следуйте за мной, и я покажу вам, как именно изменить ваших роботов.txt, чтобы он понравился поисковым системам.

Почему важен файл robots.txt

Во-первых, давайте посмотрим, почему файл robots.txt вообще так важен.

Файл robots.txt, также известный как протокол или стандарт исключения роботов, представляет собой текстовый файл, который сообщает веб-роботам (чаще всего поисковым системам), какие страницы вашего сайта сканировать.

Он также сообщает веб-роботам, какие страницы , а не сканировать.

Допустим, поисковая система собирается посетить сайт.Перед посещением целевой страницы он проверяет robots.txt на наличие инструкций.

Существуют разные типы файлов robots.txt, поэтому давайте рассмотрим несколько различных примеров того, как они выглядят.

Допустим, поисковая система находит этот пример файла robots.txt:

Это базовый скелет файла robots.txt.

Звездочка после «user-agent» означает, что файл robots.txt применяется ко всем веб-роботам, посещающим сайт.

Косая черта после «Запретить» указывает роботу не посещать никакие страницы сайта.

Вы можете спросить, зачем кому-то мешать веб-роботам посещать свой сайт.

В конце концов, одна из основных целей SEO - заставить поисковые системы легко сканировать ваш сайт, чтобы повысить ваш рейтинг.

Вот где кроется секрет этого SEO-взлома.

У вас наверняка много страниц на сайте? Даже если вы так не думаете, пойдите и проверьте. Вы можете быть удивлены.

Если поисковая система просканирует ваш сайт, она просканирует каждую из ваших страниц.

А если у вас много страниц, боту поисковой системы потребуется некоторое время, чтобы их просканировать, что может отрицательно повлиять на ваш рейтинг.

Это потому, что у Googlebot (робота поисковой системы Google) есть «краулинговый бюджет».

Он состоит из двух частей. Первый - это ограничение скорости сканирования. Вот как Google объясняет это:

Вторая часть - требование сканирования:

По сути, краулинговый бюджет - это «количество URL-адресов, которые робот Googlebot может и хочет просканировать.”

Вы хотите помочь роботу Googlebot оптимально расходовать бюджет сканирования для вашего сайта. Другими словами, он должен сканировать ваши самые ценные страницы.

Есть определенные факторы, которые, по мнению Google, «негативно повлияют на сканирование и индексирование сайта».

Вот эти факторы:

Итак, вернемся к robots.txt.

Если вы создаете правильную страницу robots.txt, вы можете указать роботам поисковых систем (и особенно роботу Googlebot) избегать определенных страниц.

Подумайте о последствиях. Если вы укажете роботам поисковых систем сканировать только ваш самый полезный контент, они будут сканировать и индексировать ваш сайт только на основе этого контента.

По словам Google:

«Вы не хотите, чтобы ваш сервер был перегружен поисковым роботом Google или тратил бюджет сканирования на сканирование неважных или похожих страниц вашего сайта».

Правильно используя robots.txt, вы можете указать роботам поисковых систем разумно расходовать свои краулинговые бюджеты.Именно это делает файл robots.txt таким полезным в контексте SEO.

Заинтригованы силой robots.txt?

Так и должно быть! Поговорим о том, как его найти и использовать.

Поиск файла robots.txt

Если вы просто хотите быстро просмотреть свой файл robots.txt, есть очень простой способ просмотреть его.

На самом деле этот метод будет работать для любого сайта . Так что вы можете заглянуть в файлы других сайтов и увидеть, что они делают.

Все, что вам нужно сделать, это ввести основной URL-адрес сайта в строку поиска вашего браузера (например,g., neilpatel.com, quicksprout.com и т. д.). Затем добавьте в конец /robots.txt.

Произойдет одна из трех ситуаций:

1) Вы найдете файл robots.txt.

2) Вы найдете пустой файл.

Например, у Disney не хватает файла robots.txt:

3) Вы получите 404.

Метод возвращает 404 для robots.txt:

Найдите секунду и просмотрите файл robots.txt своего сайта.

Если вы найдете пустой файл или ошибку 404, вы захотите это исправить.

Если вы найдете действительный файл, вероятно, для него установлены настройки по умолчанию, которые были созданы при создании вашего сайта.

Мне особенно нравится этот метод просмотра файлов robots.txt других сайтов. После того, как вы изучите все тонкости robots.txt, это может стать полезным упражнением.

Теперь давайте посмотрим, как на самом деле изменить файл robots.txt.

Поиск файла robots.txt

Ваши следующие шаги будут зависеть от того, есть ли у вас robots.txt файл. (Проверьте, делаете ли вы это, используя метод, описанный выше.)

Если у вас нет файла robots.txt, вам придется создать его с нуля. Откройте текстовый редактор, например Блокнот (Windows) или TextEdit (Mac).

Используйте для этого только текстовый редактор . Если вы используете такие программы, как Microsoft Word, программа может вставлять дополнительный код в текст.

Editpad.org - отличный бесплатный вариант, и вы увидите, что я использую в этой статье.

Вернуться к роботам.текст. Если у вас есть файл robots.txt, вам нужно найти его в корневом каталоге вашего сайта.

Если вы не привыкли ковыряться в исходном коде, то найти редактируемую версию файла robots.txt может быть немного сложно.

Обычно вы можете найти свой корневой каталог, перейдя на сайт своей учетной записи хостинга, войдя в систему и перейдя в раздел управления файлами или FTP вашего сайта.

Вы должны увидеть что-то вроде этого:

Найдите своих роботов.txt и откройте его для редактирования. Удалите весь текст, но сохраните файл.

Примечание. Если вы используете WordPress, вы можете увидеть файл robots.txt при переходе на yoursite.com/robots.txt, но вы не сможете найти его в своих файлах.

Это связано с тем, что WordPress создает виртуальный файл robots.txt, если в корневом каталоге нет файла robots.txt.

Если это произойдет с вами, вам нужно будет создать новый файл robots.txt.

Создание файла robots.txt

Вы можете создать новый robots.txt с помощью любого текстового редактора по вашему выбору. (Помните, используйте только текстовый редактор.)

Если у вас уже есть файл robots.txt, убедитесь, что вы удалили текст (но не файл).

Во-первых, вам нужно познакомиться с некоторым синтаксисом, используемым в файле robots.txt.

У Google есть хорошее объяснение некоторых основных терминов robots.txt:

Я покажу вам, как создать простой файл robot.txt, а затем мы рассмотрим, как настроить его для SEO.

Начните с установки термина пользовательского агента. Мы собираемся настроить его так, чтобы он применялся ко всем веб-роботам.

Сделайте это, поставив звездочку после термина пользовательского агента, например:

Затем введите «Disallow:», но после этого ничего не вводите.

Поскольку после запрета нет ничего, веб-роботы будут направлены на сканирование всего вашего сайта. Прямо сейчас все на вашем сайте - это честная игра.

На данный момент ваш файл robots.txt должен выглядеть так:

Я знаю, что это выглядит очень просто, но эти две строчки уже многое делают.

Вы также можете добавить ссылку на свою карту сайта XML, но это не обязательно. Если хотите, вот что нужно набрать:

Вы не поверите, но именно так выглядит базовый файл robots.txt.

А теперь давайте перейдем на новый уровень и превратим этот маленький файл в средство повышения SEO.

Оптимизация robots.txt для SEO

Как вы оптимизируете robots.txt, все зависит от содержания вашего сайта. Есть много способов использовать robots.txt в ваших интересах.

Я рассмотрю некоторые из наиболее распространенных способов его использования.

(Имейте в виду, что вам следует , а не , использовать robots.txt для блокировки страниц от поисковых систем . Это большой запрет)

Одно из лучших применений файла robots.txt - увеличить бюджеты сканирования поисковых систем, запретив им сканировать те части вашего сайта, которые не отображаются для публики.

Например, если вы посетите файл robots.txt для этого сайта (neilpatel.com), вы увидите, что страница входа запрещена (wp-admin).

Поскольку эта страница используется только для входа в серверную часть сайта, роботам поисковых систем не имеет смысла тратить время на ее сканирование.

(Если у вас WordPress, вы можете использовать ту же самую запрещающую строку.)

Вы можете использовать аналогичную директиву (или команду), чтобы запретить ботам сканировать определенные страницы. После запрета введите часть URL-адреса после .com. Поместите это между двумя косыми чертами.

Итак, если вы хотите запретить боту сканировать вашу страницу http://yoursite.com/page/, введите следующее:

Вам может быть интересно, какие типы страниц исключить из индексации. Вот несколько распространенных сценариев, в которых это может произойти:

Умышленное дублирование контента. Хотя дублированный контент - это в большинстве случаев плохо, в некоторых случаях это необходимо и приемлемо.

Например, если у вас есть версия страницы для печати, технически у вас дублированное содержимое.В этом случае вы можете сказать ботам, чтобы они не сканировали одну из этих версий (обычно это версия для печати).

Это также удобно, если вы тестируете страницы с одинаковым содержанием, но с разным дизайном.

Страницы с благодарностью. Страница благодарности - одна из любимых страниц маркетологов, потому что она означает нового лида.

… Верно?

Как оказалось, некоторые страницы благодарности доступны через Google . Это означает, что люди могут получить доступ к этим страницам без прохождения процесса захвата лидов, и это плохие новости.

Блокируя страницы с благодарностью, вы можете быть уверены, что их видят только квалифицированные лиды.

Допустим, ваша страница с благодарностью находится по адресу https://yoursite.com/thank-you/. В вашем файле robots.txt блокировка этой страницы будет выглядеть так:

Поскольку не существует универсальных правил для запрещенных страниц, ваш файл robots.txt будет уникальным для вашего сайта. Используйте здесь свое суждение.

Вам следует знать еще две директивы: noindex и nofollow .

Вы знаете эту директиву запрета, которую мы использовали? Фактически это не препятствует индексации страницы.

Итак, теоретически вы можете запретить страницу, но она все равно может оказаться в индексе.

Как правило, вы этого не хотите.

Вот почему вам нужна директива noindex. Он работает с директивой disallow, чтобы роботы не посещали или , индексируя определенные страницы.

Если у вас есть страницы, которые вы не хотите индексировать (например, эти драгоценные страницы с благодарностью), вы можете использовать директиву disallow и noindex:

Теперь эта страница не будет отображаться в поисковой выдаче.

Наконец, есть директива nofollow. Фактически это то же самое, что и ссылка nofollow. Короче говоря, он сообщает веб-роботам, чтобы они не сканировали ссылки на странице.

Но директива nofollow будет реализована немного иначе, потому что на самом деле она не является частью файла robots.txt.

Однако директива nofollow все еще инструктирует веб-роботов, так что это та же концепция. Единственная разница в том, где это происходит.

Найдите исходный код страницы, которую хотите изменить, и убедитесь, что вы находитесь между тегами .

Затем вставьте эту строку:

Вот так должно получиться:

Убедитесь, что вы не помещаете эту строку между другими тегами - только тегами .

Это еще один хороший вариант для страниц с благодарностью, поскольку веб-роботы не будут сканировать ссылки на какие-либо лид-магниты или другой эксклюзивный контент.

Если вы хотите добавить директивы noindex и nofollow, используйте эту строку кода:

Это даст веб-роботам сразу обе директивы.

Проверяем все

Наконец, проверьте файл robots.txt, чтобы убедиться, что все в порядке и работает правильно.

Google предоставляет бесплатный тестер robots.txt как часть инструментов для веб-мастеров.

Сначала войдите в свою учетную запись для веб-мастеров, нажав «Войти» в правом верхнем углу.

Выберите свой ресурс (например, веб-сайт) и нажмите «Сканировать» на левой боковой панели.

Вы увидите «robots.txt Tester. " Щелкните по нему.

Если в поле уже есть какой-либо код, удалите его и замените новым файлом robots.txt.

Щелкните «Тест» в правой нижней части экрана.

Если текст «Тест» изменится на «Разрешено», это означает, что ваш robots.txt действителен.

Вот еще немного информации об инструменте, чтобы вы могли подробно узнать, что все означает.

Наконец, загрузите файл robots.txt в корневой каталог (или сохраните его там, если он у вас уже есть).Теперь у вас есть мощный файл, и ваша видимость в результатах поиска должна повыситься.

Заключение

Мне всегда нравится делиться малоизвестными «хитростями» SEO, которые могут дать вам реальное преимущество сразу несколькими способами.

Правильно настроив файл robots.txt, вы не просто улучшите свой собственный SEO. Вы также помогаете своим посетителям.

Если роботы поисковых систем могут разумно расходовать свои бюджеты сканирования, они будут организовывать и отображать ваш контент в поисковой выдаче наилучшим образом, а это значит, что вы будете более заметны.

Также не требуется много усилий для настройки файла robots.txt. В основном это однократная настройка, и при необходимости вы можете вносить небольшие изменения.

Независимо от того, запускаете ли вы свой первый или пятый сайт, использование robots.txt может иметь большое значение. Я рекомендую попробовать, если вы не делали этого раньше.

Каков ваш опыт создания файлов robots.txt?

Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт

  • SEO - разблокируйте огромное количество SEO-трафика.Смотрите реальные результаты.
  • Контент-маркетинг - наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
  • Paid Media - эффективные платные стратегии с четким ROI.

Заказать звонок

Robots.txt и SEO: Полное руководство

Что такое Robots.txt?

Robots.txt - это файл, который сообщает паукам поисковых систем не сканировать определенные страницы или разделы веб-сайта. Большинство основных поисковых систем (включая Google, Bing и Yahoo) признают и уважают роботов.txt запросы.

Почему важен файл robots.txt?

Большинству веб-сайтов не нужен файл robots.txt.

Это потому, что Google обычно может найти и проиндексировать все важные страницы вашего сайта.

И они автоматически НЕ будут индексировать несущественные страницы или дублировать версии других страниц.

Тем не менее, есть 3 основные причины, по которым вы хотите использовать файл robots.txt.

Блокировать закрытые страницы. Иногда на вашем сайте есть страницы, которые вы не хотите индексировать.Например, у вас может быть промежуточная версия страницы. Или страницу входа в систему. Эти страницы должны существовать. Но вы же не хотите, чтобы на них садились случайные люди. Это тот случай, когда вы использовали robots.txt, чтобы заблокировать эти страницы от поисковых роботов и роботов.

Максимальный бюджет сканирования. Если вам сложно проиндексировать все страницы, возможно, у вас проблема с бюджетом сканирования. Блокируя неважные страницы с помощью robots.txt, робот Googlebot может тратить большую часть вашего краулингового бюджета на действительно важные страницы.

Предотвращение индексации ресурсов: использование метадиректив может работать так же хорошо, как и Robots.txt для предотвращения индексации страниц. Однако метадирективы плохо работают с мультимедийными ресурсами, такими как файлы PDF и изображения. Вот где в игру вступает robots.txt.

В нижней строке? Robots.txt сообщает паукам поисковых систем, чтобы они не сканировали определенные страницы вашего сайта.

Вы можете проверить, сколько страниц вы проиндексировали, в Google Search Console.

Если число совпадает с количеством страниц, которые вы хотите проиндексировать, вам не нужно беспокоиться о роботах.txt файл.

Но если это число выше, чем вы ожидали (и вы заметили проиндексированные URL-адреса, которые не следует индексировать), то пора создать файл robots.txt для вашего веб-сайта.

Лучшие Лрактики

Создание файла Robots.txt

Ваш первый шаг - создать файл robots.txt.

Будучи текстовым файлом, вы можете создать его с помощью блокнота Windows.

И независимо от того, как вы в конечном итоге создаете свой файл robots.txt, формат точно такой же:

Агент пользователя: X
Запрещено: Y

User-agent - это конкретный бот, с которым вы разговариваете.

И все, что идет после «запретить», - это страницы или разделы, которые вы хотите заблокировать.

Вот пример:

User-agent: googlebot
Disallow: / images

Это правило указывает роботу Googlebot не индексировать папку изображений на вашем веб-сайте.

Вы также можете использовать звездочку (*), чтобы общаться со всеми ботами, которые останавливаются на вашем сайте.

Вот пример:

User-agent: *
Disallow: / images

Знак «*» говорит всем паукам НЕ сканировать папку с изображениями.

Это лишь один из многих способов использования файла robots.txt. В этом полезном руководстве от Google есть дополнительная информация о различных правилах, которые вы можете использовать для блокировки или разрешения ботам сканировать разные страницы вашего сайта.

Упростите поиск файла Robots.txt

Когда у вас есть файл robots.txt, самое время запустить его.

Технически вы можете разместить файл robots.txt в любом основном каталоге вашего сайта.

Но чтобы увеличить вероятность того, что ваш файл robots.txt будет найден, я рекомендую разместить его по адресу:

https: // пример.com / robots.txt

(обратите внимание, что ваш файл robots.txt чувствителен к регистру. Поэтому обязательно используйте строчную букву «r» в имени файла)

Проверка ошибок и ошибок

ДЕЙСТВИТЕЛЬНО важно, чтобы ваш файл robots.txt был настроен правильно. Одна ошибка - и весь ваш сайт может быть деиндексирован.

К счастью, вам не нужно надеяться, что ваш код настроен правильно. У Google есть отличный инструмент для тестирования роботов, который вы можете использовать:

Он показывает ваш файл robots.txt… и все обнаруженные ошибки и предупреждения:

Как видите, мы не позволяем паукам сканировать нашу страницу администратора WP.

Мы также используем robots.txt, чтобы блокировать сканирование страниц с автоматически созданными тегами WordPress (для ограничения дублирования контента).

Robots.txt и мета-директивы

Зачем вам использовать robots.txt, если вы можете блокировать страницы на уровне страницы с помощью метатега «noindex»?

Как я упоминал ранее, тег noindex сложно реализовать в мультимедийных ресурсах, таких как видео и PDF-файлы.

Кроме того, если у вас есть тысячи страниц, которые вы хотите заблокировать, иногда проще заблокировать весь раздел этого сайта с помощью robots.txt вместо того, чтобы вручную добавлять тег noindex на каждую страницу.

Есть также крайние случаи, когда вы не хотите тратить бюджет сканирования на целевые страницы Google с тегом noindex.

Тем не менее:

Помимо этих трех крайних случаев, я рекомендую использовать метадирективы вместо robots.txt. Их проще реализовать. И меньше шансов на катастрофу (например, блокировку всего вашего сайта).

Узнать больше

Узнайте о роботах.txt: полезное руководство по использованию и интерпретации файла robots.txt.

Что такое файл Robots.txt? (Обзор SEO + Key Insight): подробное видео о различных вариантах использования robots.txt.

Создайте лучший с помощью этого руководства на 2021 год

Robots.txt вкратце

Файл robots.txt содержит директивы для поисковых систем. Вы можете использовать его, чтобы запретить поисковым системам сканировать определенные части вашего веб-сайта и дать поисковым системам полезные советы о том, как они могут лучше всего сканировать ваш сайт.Файл robots.txt играет большую роль в SEO.

При внедрении robots.txt помните о следующих передовых методах:

  • Будьте осторожны при внесении изменений в свой robots.txt: этот файл может сделать большие части вашего веб-сайта недоступными для поисковых систем.
  • Файл robots.txt должен находиться в корне вашего веб-сайта (например, http://www.example.com/robots.txt ).
  • Файл robots.txt действителен только для всего домена, в котором он находится, включая протокол ( http или https ).
  • Разные поисковые системы по-разному интерпретируют директивы. По умолчанию всегда побеждает первая соответствующая директива. Но с Google и Bing побеждает специфика.
  • По возможности избегайте использования директивы задержки сканирования для поисковых систем.

Что такое файл robots.txt?

Файл robots.txt сообщает поисковым системам, каковы правила взаимодействия с вашим сайтом. Большая часть SEO - это отправка правильных сигналов поисковым системам и роботам.txt - это один из способов сообщить поисковым системам о ваших предпочтениях сканирования.

В 2019 году мы наблюдали некоторые изменения, связанные со стандартом robots.txt: Google предложила расширение для протокола исключения роботов и открыла исходный код своего парсера robots.txt.

TL; DR

  • Интерпретатор Google robots.txt довольно гибкий и на удивление снисходительный.
  • В случае возникновения путаницы в директивах Google перестраховывается и предполагает, что разделы должны быть ограничены, а не неограничены.
Файл robots.txt сообщает поисковым системам, к каким URL нельзя обращаться.

Поисковые системы регулярно проверяют файл robots.txt веб-сайта, чтобы узнать, есть ли какие-либо инструкции по сканированию веб-сайта. Мы называем эти инструкции директивами .

Если файл robots.txt отсутствует или нет применимых директив, поисковые системы будут сканировать весь веб-сайт.

Хотя все основные поисковые системы уважают файл robots.txt, поисковые системы могут игнорировать (части) ваших роботов.txt файл. Хотя директивы в файле robots.txt являются сильным сигналом для поисковых систем, важно помнить, что файл robots.txt представляет собой набор дополнительных директив для поисковых систем, а не мандат.

robots.txt - самый конфиденциальный файл во вселенной SEO. Один персонаж может сломать весь сайт.

Терминология, связанная с файлом robots.txt

Файл robots.txt является реализацией стандарта исключения роботов , также называемого протоколом исключения роботов .

Зачем вам нужен файл robots.txt?

Файл robots.txt играет важную роль с точки зрения SEO. Он сообщает поисковым системам, как им лучше всего сканировать ваш сайт.

Используя файл robots.txt, вы можете запретить поисковым системам доступ к определенным частям вашего веб-сайта , предотвратить дублирование контента и дать поисковым системам полезные советы о том, как может сканировать ваш веб-сайт более эффективно .

Будьте осторожны, , при внесении изменений в роботов.txt: этот файл может сделать большую часть вашего сайта недоступной для поисковых систем.

Robots.txt часто слишком часто используется для уменьшения дублирования контента, тем самым убивая внутренние ссылки, поэтому будьте с ними очень осторожны. Мой совет - всегда использовать его только для файлов или страниц, которые поисковые системы никогда не должны видеть или которые могут существенно повлиять на сканирование, будучи допущенными к ним. Типичные примеры: области входа в систему, которые генерируют много разных URL-адресов, тестовые области или где может существовать многогранная навигация.И обязательно следите за своим файлом robots.txt на предмет любых проблем или изменений.

Подавляющее большинство проблем, которые я вижу с файлами robots.txt, распадаются на три сегмента:

  1. Неправильная обработка подстановочных знаков. Довольно часто можно увидеть заблокированные части сайта, которые должны были быть заблокированы. Иногда, если вы не будете осторожны, директивы также могут конфликтовать друг с другом.
  2. Кто-то, например разработчик, неожиданно внес изменения (часто при добавлении нового кода) и случайно изменил robots.txt без вашего ведома.
  3. Включение директив, которых нет в файле robots.txt. Robots.txt является веб-стандартом и имеет некоторые ограничения. Я часто вижу, как разработчики создают директивы, которые просто не работают (по крайней мере, для подавляющего большинства поисковых роботов). Иногда это безобидно, иногда не очень.

Пример

Давайте рассмотрим пример, чтобы проиллюстрировать это:

У вас есть веб-сайт электронной коммерции, и посетители могут использовать фильтр для быстрого поиска по вашим товарам.Этот фильтр генерирует страницы, которые в основном показывают то же содержание, что и другие страницы. Это отлично работает для пользователей, но сбивает с толку поисковые системы, поскольку создает дублированный контент.

Вы не хотите, чтобы поисковые системы индексировали эти отфильтрованные страницы и тратили свое драгоценное время на эти URL с отфильтрованным содержимым. Поэтому вам следует установить правила Disallow , чтобы поисковые системы не получали доступ к этим отфильтрованным страницам продуктов.

Предотвращение дублирования контента также можно сделать с помощью канонического URL-адреса или мета-тега robots, однако они не адресуются, позволяя поисковым системам сканировать только те страницы, которые имеют значение.

Использование канонического URL или метатега robots не помешает поисковым системам сканировать эти страницы. Это только помешает поисковым системам показывать эти страницы в результатах поиска. Поскольку поисковые системы имеют ограниченное время для сканирования веб-сайта, это время следует потратить на страницы, которые вы хотите отображать в поисковых системах.

Ваш robots.txt работает против вас?

Неправильно настроенный файл robots.txt может сдерживать эффективность SEO. Сразу же проверьте, так ли это на вашем сайте!

Это очень простой инструмент, но файл robots.txt может вызвать множество проблем, если он неправильно настроен, особенно для крупных веб-сайтов. Очень легко сделать ошибки, например заблокировать весь сайт после развертывания нового дизайна или CMS или не заблокировать разделы сайта, которые должны быть приватными. Для крупных веб-сайтов очень важно обеспечить эффективное сканирование Google, и хорошо структурированный файл robots.txt является важным инструментом в этом процессе.

Вам нужно потратить время, чтобы понять, какие разделы вашего сайта лучше всего держать подальше от Google, чтобы они тратили как можно больше своих ресурсов на сканирование страниц, которые вам действительно интересны.

Как выглядит файл robots.txt?

Пример того, как может выглядеть простой файл robots.txt для веб-сайта WordPress:

  Агент пользователя: *
Disallow: / wp-admin /  

Давайте объясним анатомию файла robots.txt на основе приведенного выше примера:

  • User-agent: user-agent указывает, для каких поисковых систем предназначены следующие директивы.
  • * : это указывает на то, что директивы предназначены для всех поисковых систем.
  • Disallow : это директива, указывающая, какой контент недоступен для пользовательского агента .
  • / wp-admin / : это путь , который недоступен для пользовательского агента .

В итоге: этот файл robots.txt сообщает всем поисковым системам, чтобы они не заходили в каталог / wp-admin / .

Давайте разберем различные компоненты файлов robots.txt более подробно:

User-agent в robots.txt

Каждая поисковая система должна идентифицировать себя с помощью пользовательского агента . Роботы Google идентифицируются как Googlebot , например, роботы Yahoo - как Slurp , а робот Bing - как BingBot и так далее.

Запись пользовательского агента определяет начало группы директив. Все директивы между первым пользовательским агентом и следующей записью пользовательского агента обрабатываются как директивы для первого пользовательского агента .

Директивы

могут применяться к определенным пользовательским агентам, но они также могут применяться ко всем пользовательским агентам. В этом случае используется подстановочный знак: User-agent: * .

Директива Disallow в robots.txt

Вы можете запретить поисковым системам получать доступ к определенным файлам, страницам или разделам вашего веб-сайта. Это делается с помощью директивы Disallow . За директивой Disallow следует путь , к которому не следует обращаться. Если путь не определен, директива игнорируется.

Пример
  Агент пользователя: *
Disallow: / wp-admin /  

В этом примере всем поисковым системам предлагается не обращаться к каталогу / wp-admin / .

Директива Allow в robots.txt

Директива Allow используется для противодействия директиве Disallow . Директива Allow поддерживается Google и Bing. Используя вместе директивы Allow и Disallow , вы можете сообщить поисковым системам, что они могут получить доступ к определенному файлу или странице в каталоге, который иначе запрещен.За директивой Allow следует путь , к которому можно получить доступ. Если путь не определен, директива игнорируется.

Пример
  Агент пользователя: *
Разрешить: /media/terms-and-conditions.pdf
Disallow: / media /  

В приведенном выше примере всем поисковым системам не разрешен доступ к каталогу / media / , за исключением файла /media/terms-and-conditions.pdf .

Важно: при одновременном использовании директив Allow и Disallow не используйте подстановочные знаки, поскольку это может привести к конфликту директив.

Пример конфликтующих директив
  Агент пользователя: *
Разрешить: / каталог
Disallow: * .html  

Поисковые системы не будут знать, что делать с URL-адресом http://www.domain.com/directory.html . Для них неясно, разрешен ли им доступ. Когда директивы не ясны для Google, они будут использовать наименее ограничительную директиву, что в данном случае означает, что они фактически получат доступ к http://www.domain.com/directory.html .

Запрещающие правила в файле robots.txt сайта невероятно эффективны, поэтому с ними следует обращаться осторожно. Для некоторых сайтов предотвращение сканирования определенных URL-адресов поисковыми системами имеет решающее значение для обеспечения возможности сканирования и индексации нужных страниц, но неправильное использование правил запрета может серьезно повредить SEO сайта.

Отдельная строка для каждой директивы

Каждая директива должна быть на отдельной строке, иначе поисковые системы могут запутаться при парсинге robots.txt файл.

Пример неверного файла robots.txt

Предотвратить появление файла robots.txt, подобного этому:

  Агент пользователя: * Disallow: / directory-1 / Disallow: / directory-2 / Disallow: / directory-3/ 

Robots.txt - одна из тех функций, которые я чаще всего вижу реализованными неправильно, поэтому он не блокирует то, что они хотели заблокировать, или блокирует больше, чем они ожидали, и оказывает негативное влияние на их веб-сайт. Robots.txt - очень мощный инструмент, но слишком часто он неправильно настраивается.

Использование подстановочного знака *

Подстановочный знак можно использовать не только для определения пользовательского агента , но и для сопоставления URL-адресов. Подстановочный знак поддерживается Google, Bing, Yahoo и Ask.

Пример
  Агент пользователя: *
Запретить: *?  

В приведенном выше примере всем поисковым системам не разрешен доступ к URL-адресам, содержащим вопросительный знак (? ).

Разработчики или владельцы сайтов часто думают, что могут использовать всевозможные регулярные выражения в файле robots.txt, тогда как на самом деле допустимо только очень ограниченное количество сопоставлений с образцом - например, подстановочные знаки ( * ). Кажется, время от времени возникает путаница между файлами .htaccess и robots.txt.

Использование конца URL $

Чтобы указать конец URL-адреса, вы можете использовать знак доллара ( $ ) в конце пути .

Пример
  Агент пользователя: *
Disallow: * .php $  

В приведенном выше примере поисковым системам не разрешен доступ ко всем URL-адресам, которые заканчиваются на.php. URL-адреса с параметрами, например https://example.com/page.php?lang=en не будет запрещен, поскольку URL-адрес не заканчивается после .php .

Добавьте карту сайта в robots.txt

Несмотря на то, что файл robots.txt был изобретен, чтобы указывать поисковым системам, какие страницы не сканировать , файл robots.txt также можно использовать для направления поисковым системам на карту сайта XML. Это поддерживается Google, Bing, Yahoo и Ask.

На карту сайта XML следует ссылаться как на абсолютный URL.URL-адрес , а не должен находиться на том же хосте, что и файл robots.txt.

Ссылка на карту сайта XML в файле robots.txt - одна из лучших практик, которую мы советуем вам всегда делать, даже если вы уже отправили свою карту сайта XML в Google Search Console или Bing Webmaster Tools. Помните, что существует больше поисковых систем.

Обратите внимание, что можно ссылаться на несколько карт сайта XML в файле robots.txt.

Примеры

Несколько файлов Sitemap XML, определенных в файле robots.txt файл:

  Агент пользователя: *
Запретить: / wp-admin /
Карта сайта: https://www.example.com/sitemap1.xml
Карта сайта: https://www.example.com/sitemap2.xml  

В приведенном выше примере говорится, что все поисковые системы не обращаются к каталогу / wp-admin / и что есть две карты сайта XML, которые можно найти по адресу https://www.example.com/sitemap1.xml и https://www.example.com/sitemap2.xml .

Одна карта сайта XML, определенная в файле robots.txt:

  Агент пользователя: *
Запретить: / wp-admin /

Карта сайта: https: // www.example.com/sitemap_index.xml  

В приведенном выше примере говорится, что все поисковые системы не должны обращаться к каталогу / wp-admin / и что карту сайта XML можно найти по адресу https://www.example.com/sitemap_index .xml .

Часто задаваемые вопросы

Комментарии

Комментарии предшествуют # и могут быть помещены в начало строки или после директивы в той же строке. Все, что находится после # , будет проигнорировано.Эти комментарии предназначены только для людей.

Пример 1
  # Не разрешать доступ к каталогу / wp-admin / для всех роботов.
Пользовательский агент: *
Disallow: / wp-admin /  
Пример 2
  User-agent: * # Применимо ко всем роботам
Disallow: / wp-admin / # Не разрешать доступ к каталогу / wp-admin /.  

В приведенных выше примерах передается одно и то же сообщение.

Задержка сканирования в robots.txt

Директива Crawl-delay - это неофициальная директива, используемая для предотвращения перегрузки серверов слишком большим количеством запросов.Если поисковые системы могут перегружать сервер, добавление Crawl-delay в ваш файл robots.txt является лишь временным решением. Дело в том, что ваш сайт работает в плохой среде хостинга и / или ваш сайт неправильно настроен, и вы должны исправить это как можно скорее.

Пример robots.txt с указанной задержкой сканирования для Bing

. Способ обработки поисковыми системами Crawl-delay отличается. Ниже мы объясним, как с этим справляются основные поисковые системы.

Часто задаваемые вопросы

Crawl-delay и Google

Сканер Google, робот Google, не поддерживает директиву Crawl-delay , поэтому не беспокойтесь об определении задержки сканирования Google.

Однако Google поддерживает определение скорости сканирования (или «скорости запросов», если хотите) в консоли поиска Google.

Установка скорости сканирования в GSC

  1. Войдите в старую Google Search Console (откроется в новой вкладке).
  2. Выберите веб-сайт, для которого нужно определить скорость сканирования.
  3. Есть только один параметр, который вы можете настроить: Скорость сканирования , с ползунком, где вы можете установить предпочтительную скорость сканирования. По умолчанию для скорости сканирования установлено значение «Разрешить Google оптимизировать мой сайт (рекомендуется)».

Вот как это выглядит в Google Search Console:

Задержка сканирования и Bing, Yahoo и Яндекс

Bing, Yahoo и Яндекс поддерживают директиву Crawl-delay для ограничения сканирования веб-сайта. Однако их интерпретация задержки сканирования немного отличается, поэтому обязательно проверьте их документацию:

Директива Crawl-delay должна быть размещена сразу после директив Disallow или Allow .

Пример:
  Агент пользователя: BingBot
Disallow: / private /
Задержка сканирования: 10  

Задержка сканирования и Baidu

Baidu не поддерживает директиву crawl-delay , однако можно зарегистрировать учетную запись Baidu Webmaster Tools, в которой вы можете контролировать частоту сканирования, аналогично Google Search Console.

Когда использовать файл robots.txt?

Мы рекомендуем всегда использовать файл robots.txt.В его наличии нет абсолютно никакого вреда, и это отличное место, чтобы передать директивы поисковым системам о том, как они могут лучше всего сканировать ваш сайт.

Файл robots.txt может быть полезен для предотвращения сканирования и индексации определенных областей или документов на вашем сайте. Примерами являются, например, промежуточный сайт или PDF-файлы. Тщательно спланируйте, что нужно проиндексировать поисковыми системами, и помните, что контент, недоступный через robots.txt, все равно может быть найден поисковыми роботами, если на него есть ссылки из других областей веб-сайта.

Лучшие практики robots.txt

Лучшие практики robots.txt подразделяются на следующие категории:

Расположение и имя файла

Файл robots.txt всегда должен находиться в корне веб-сайта (в каталоге верхнего уровня хоста) и иметь имя файла robots.txt , например: https: //www.example .com / robots.txt . Обратите внимание, что URL-адрес файла robots.txt, как и любой другой URL-адрес, чувствителен к регистру.

Если файл robots.txt не может быть найден в расположении по умолчанию, поисковые системы сочтут, что директив нет, и уйдут на ваш сайт.

Порядок старшинства

Важно отметить, что поисковые системы по-разному обрабатывают файлы robots.txt. По умолчанию первая соответствующая директива всегда побеждает .

Однако с Google и Bing специфичность побеждает . Например: директива Allow имеет преимущество перед директивой Disallow , если ее длина символа больше.

Пример
  Агент пользователя: *
Разрешить: / about / company /
Запретить: / about /  

В приведенном выше примере всем поисковым системам, включая Google и Bing, не разрешен доступ к каталогу / about / , за исключением подкаталога / about / company / .

Пример
  Агент пользователя: *
Disallow: / about /
Разрешить: / about / company /  

В приведенном выше примере всем поисковым системам , кроме Google и Bing , запрещен доступ к каталогу / about / .Сюда входит каталог / about / company / .

Google и Bing имеют доступ к , потому что директива Allow длиннее директивы Disallow .

Только одна группа директив на робота

Для каждой поисковой системы можно определить только одну группу директив. Наличие нескольких групп директив для одной поисковой системы сбивает их с толку.

Будьте как можно более конкретными

Директива Disallow также срабатывает при частичных совпадениях.Будьте максимально конкретными при определении директивы Disallow , чтобы предотвратить непреднамеренное запрещение доступа к файлам.

Пример:
  Агент пользователя: *
Disallow: / directory  

В приведенном выше примере поисковым системам запрещен доступ к:

  • / каталог
  • / каталог /
  • / имя-каталога-1
  • / имя-каталога.html
  • / имя-каталога.php
  • / имя-каталога.pdf

Директивы для всех роботов, а также директивы для конкретного робота

Для робота действует только одна группа директив. В случае, если директивы, предназначенные для всех роботов, сопровождаются директивами для конкретного робота, будут приняты во внимание только эти конкретные директивы. Чтобы конкретный робот также выполнял директивы для всех роботов, вам необходимо повторить эти директивы для конкретного робота.

Давайте посмотрим на пример, который проясняет это:

Пример
  Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /

Пользовательский агент: googlebot
Disallow: / not-loaded-yet /  

В приведенном выше примере всем поисковым системам , кроме Google , запрещен доступ к / secret / , / test / и / not-loaded-yet / . Google только не разрешен доступ к / not-launch-until / , но разрешен доступ к / secret / и / test / .

Если вы не хотите, чтобы робот googlebot имел доступ к / secret / и / not-loaded-yet / , вам необходимо повторить эти директивы для googlebot , в частности:

  Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /

Пользовательский агент: googlebot
Disallow: / secret /
Запретить: / not-launch-yet /  

Обратите внимание, что ваш файл robots.txt общедоступен. Запрет на использование разделов сайта может быть использован злоумышленниками как вектор атаки.

Robots.txt может быть опасным. Вы не только указываете поисковым системам, куда не хотите, чтобы они смотрели, но и сообщаете людям, где скрываете свои грязные секреты.

Файл robots.txt для каждого (под) домена

Директивы Robots.txt применяются только к (под) домену, в котором размещен файл.

Примеры

http://example.com/robots.txt действителен для http://example.com , но не для http: // www.example.com или https://example.com .

Рекомендуется, чтобы в вашем (под) домене был доступен только один файл robots.txt.

Если у вас есть несколько файлов robots.txt, убедитесь, что они возвращают HTTP-статус 404 или 301 перенаправляют их в канонический файл robots.txt.

Противоречивые рекомендации: robots.txt и Google Search Console

Если ваш файл robots.txt конфликтует с настройками, определенными в Google Search Console, Google часто предпочитает использовать настройки, определенные в Google Search Console, вместо директив, определенных в robots.txt файл.

Следите за своим файлом robots.txt

Важно следить за изменениями в файле robots.txt. В ContentKing мы видим множество проблем, когда неправильные директивы и внезапные изменения в файле robots.txt вызывают серьезные проблемы с поисковой оптимизацией.

Это особенно актуально при запуске новых функций или нового веб-сайта, который был подготовлен в тестовой среде, поскольку они часто содержат следующий файл robots.txt:

  Агент пользователя: *
Disallow: /  

Мы построили роботов.txt, отслеживание изменений и оповещение по этой причине.

Как узнать об изменении файла robots.txt?

Мы видим это постоянно: файлы robots.txt меняются без ведома команды цифрового маркетинга. Не будь таким человеком. Начните отслеживать свой файл robots.txt, теперь получайте оповещения при его изменении!

Не используйте noindex в своем robots.txt

В течение многих лет Google уже открыто рекомендовал не использовать неофициальную директиву noindex (открывается в новой вкладке).Однако с 1 сентября 2019 года Google полностью прекратил его поддержку (открывается в новой вкладке).

Неофициальная директива noindex никогда не работала в Bing, что подтверждено Фредериком Дубутом в этом твите (открывается в новой вкладке):

Лучший способ сообщить поисковым системам, что страницы не следует индексировать, - это использовать метатег robots или X-Robots-Tag.

Часто задаваемые вопросы

Запретить спецификацию UTF-8 в файле robots.txt

BOM обозначает метку порядка байтов , невидимый символ в начале файла, используемый для обозначения кодировки Unicode текстового файла.

В то время как Google заявляет (открывается в новой вкладке), они игнорируют необязательную отметку порядка байтов Unicode в начале файла robots.txt, мы рекомендуем предотвращать "UTF-8 BOM", потому что мы видели, что это вызывает проблемы с интерпретацией файла robots.txt поисковыми системами.

Несмотря на то, что Google заявляет, что может с этим справиться, вот две причины, чтобы предотвратить спецификацию UTF-8:

  1. Вы не хотите, чтобы у вас была двусмысленность в ваших предпочтениях при сканировании в поисковые системы.
  2. Существуют и другие поисковые системы, которые могут быть не такими снисходительными, как утверждает Google.

Примеры robots.txt

В этой главе мы рассмотрим широкий спектр примеров файлов robots.txt:

Разрешить всем роботам доступ ко всему

Есть несколько способов сообщить поисковым системам, что они могут получить доступ ко всем файлам:

Или файл robots.txt пустой, или файл robots.txt вообще отсутствует.

Запретить всем роботам доступ ко всему

Пример robots.txt ниже сообщает всем поисковым системам, что они не должны заходить на весь сайт:

  Агент пользователя: *
Disallow: /  

Обратите внимание, что только ОДИН дополнительный символ может иметь решающее значение.

У всех ботов Google нет доступа

  Агент пользователя: googlebot
Disallow: /  

Обратите внимание, что запрет на использование робота Googlebot распространяется на всех роботов Googlebot. Сюда входят роботы Google, которые ищут, например, новости ( googlebot-news ) и изображения ( googlebot-images ).

Все боты Google, кроме новостей Googlebot, не имеют доступа

  Агент пользователя: googlebot
Запретить: /

Пользовательский агент: googlebot-news
Disallow:  

У Googlebot и Slurp нет доступа

  Агент пользователя: Slurp
Пользовательский агент: googlebot
Disallow: /  

У всех роботов нет доступа к двум каталогам

  Агент пользователя: *
Запретить: / admin /
Disallow: / private /  

У всех роботов нет доступа к одному конкретному файлу

  Агент пользователя: *
Запретить: / каталог / some-pdf.pdf  

Робот Googlebot не имеет доступа к / admin /, а Slurp не имеет доступа к / private /

.
  Агент пользователя: googlebot
Запретить: / admin /

Пользовательский агент: Slurp
Disallow: / private /  

Часто задаваемые вопросы

Файл robots.txt для WordPress

Приведенный ниже файл robots.txt специально оптимизирован для WordPress, при условии:

  • Вы не хотите, чтобы ваш раздел администратора сканировался.
  • Вы не хотите, чтобы ваши страницы результатов внутреннего поиска сканировались.
  • Вы не хотите, чтобы ваши страницы тегов и авторов сканировались.
  • Вы не хотите, чтобы ваша страница 404 сканировалась.
  Агент пользователя: *
Запретить: / wp-admin / # заблокировать доступ к разделу администратора
Запретить: /wp-login.php # заблокировать доступ в админку
Запретить: / search / # заблокировать доступ к страницам результатов внутреннего поиска
Запретить: *? S = * # заблокировать доступ к страницам результатов внутреннего поиска
Disallow: *? P = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Disallow: * & p = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Запретить: * & preview = * # заблокировать доступ к страницам предварительного просмотра
Запретить: / tag / # заблокировать доступ к страницам тегов
Запретить: / author / # заблокировать доступ к страницам авторов
Запретить: / 404-ошибка / # заблокировать доступ к странице 404

Карта сайта: https: // www.example.com/sitemap_index.xml  

Обратите внимание, что этот файл robots.txt будет работать в большинстве случаев, но вы должны всегда настраивать его и тестировать, чтобы убедиться, что он применим к вашей конкретной ситуации.

Файл robots.txt для Magento

Приведенный ниже файл robots.txt специально оптимизирован для Magento и сделает внутренние результаты поиска, страницы входа, идентификаторы сеансов и отфильтрованные наборы результатов, которые содержат критерии цена , цвет , материал и размер критерии недоступны для поисковых роботов. .

  Агент пользователя: *
Запретить: / catalogsearch /
Запретить: / поиск /
Запретить: / клиент / аккаунт / логин /
Запретить: / *? SID =
Запретить: / *? PHPSESSID =
Disallow: / *? Price =
Disallow: / * & price =
Запретить: / *? Color =
Запретить: / * & color =
Disallow: / *? Material =
Запретить: / * & материал =
Запретить: / *? Size =
Запретить: / * & size =

Карта сайта: https://www.example.com/sitemap_index.xml  

Обратите внимание, что этот файл robots.txt будет работать для большинства магазинов Magento, но вы должны всегда настраивать его и проверять, чтобы убедиться, что он применим к ваша точная ситуация.

Полезные ресурсы

Я бы всегда старался блокировать результаты внутреннего поиска в robots.txt на любом сайте, потому что эти типы поисковых URL-адресов представляют собой бесконечные и бесконечные пробелы. Робот Googlebot может попасть в ловушку поискового робота.

Каковы ограничения файла robots.txt?

Файл robots.txt содержит директивы

Несмотря на то, что robots.txt пользуется уважением в поисковых системах, он все же является директивой, а не предписанием.

Страницы по-прежнему отображаются в результатах поиска

Страницы, которые недоступны для поисковых систем из-за файла robots.txt, но имеют ссылки на них, могут по-прежнему отображаться в результатах поиска, если на них есть ссылки со страницы, которая просматривается. Пример того, как это выглядит:

Наконечник Pro

Эти URL-адреса можно удалить из Google с помощью инструмента удаления URL-адресов Google Search Console. Обратите внимание, что эти URL-адреса будут только временно «скрыты». Чтобы они не попадали на страницы результатов Google, вам необходимо отправлять запрос на скрытие URL-адресов каждые 180 дней.

Используйте robots.txt, чтобы заблокировать нежелательные и, вероятно, вредоносные обратные ссылки на партнерские программы. Не используйте robots.txt для предотвращения индексации контента поисковыми системами, поскольку это неизбежно приведет к сбою. Вместо этого при необходимости примените директиву noindex для роботов.

Файл robots.txt кэшируется до 24 часов

Google указал, что файл robots.txt обычно кэшируется на срок до 24 часов. Это важно учитывать при внесении изменений в файл robots.txt файл.

Неясно, как другие поисковые системы справляются с кэшированием robots.txt, но в целом лучше избегать кеширования файла robots.txt, чтобы поисковым системам требовалось больше времени, чем необходимо, чтобы они могли уловить изменения.

Размер файла robots.txt

Для файлов robots.txt Google в настоящее время поддерживает ограничение на размер файла в 500 кибибайт (512 килобайт). Любое содержимое после максимального размера файла может игнорироваться.

Неясно, есть ли у других поисковых систем максимальный размер файла для роботов.txt файлы.

Часто задаваемые вопросы о robots.txt

🤖 Как выглядит пример файла robots.txt?

Вот пример содержимого robots.txt: User-agent: * Disallow:. Это говорит всем сканерам, что они могут получить доступ ко всему.

⛔ Что делает Disallow all в robots.txt?

Когда вы устанавливаете robots.txt на «Запретить все», вы, по сути, говорите всем сканерам держаться подальше. Никакие сканеры, в том числе Google, не имеют доступа к вашему сайту.Это означает, что они не смогут сканировать, индексировать и оценивать ваш сайт. Это приведет к резкому падению органического трафика.

✅ Что делает Allow all в robots.txt?

Когда вы устанавливаете robots.txt на «Разрешить все», вы сообщаете каждому сканеру, что он может получить доступ к каждому URL-адресу на сайте. Правил приема просто нет. Обратите внимание, что это эквивалентно пустому файлу robots.txt или отсутствию файла robots.txt вообще.

🤔 Насколько важен robots.txt для SEO?

В общем, роботы.txt очень важен для SEO. Для более крупных веб-сайтов файл robots.txt необходим, чтобы дать поисковым системам очень четкие инструкции о том, к какому контенту нельзя обращаться.

Дополнительная литература

Полезные ресурсы

Часто задаваемые вопросы о robots.txt

Файлы Robots.txt

Файл /robots.txt - это текстовый файл, который инструктирует автоматизированных веб-ботов о том, как сканировать и / или индексировать веб-сайт. Веб-группы используют их, чтобы предоставить информацию о том, какие каталоги сайта следует или не следует сканировать, как быстро следует обращаться к контенту и какие боты приветствуются на сайте.

Как должен выглядеть мой файл robots.txt?

Пожалуйста, обратитесь к протоколу robots.txt (Внешняя ссылка) для получения подробной информации о том, как и где создать свой robots.txt. Ключевые моменты, о которых следует помнить:

  • Файл должен находиться в корне домена, и каждому поддомену нужен свой собственный файл.
  • Протокол robots.txt чувствителен к регистру.
  • Легко случайно заблокировать сканирование всего
    • Disallow: / означает запретить все
    • Disallow: означает ничего не запрещать, тем самым разрешая все
    • Разрешить: / означает разрешить все
    • Разрешить: означает ничего не разрешать, таким образом запрещая все
  • Инструкции в robots.txt - это руководство для ботов, а не обязательные требования.

Как мне оптимизировать свой robots.txt для Search.gov?

Задержка сканирования

Файл robots.txt может указывать директиву «задержки сканирования» для одного или нескольких пользовательских агентов, которая сообщает боту, как быстро он может запрашивать страницы с веб-сайта. Например, задержка сканирования, равная 10, означает, что поисковый робот не должен запрашивать новую страницу чаще, чем каждые 10 секунд.

  500 000 URL
     x 10 секунд между запросами
5 000 000 секунд на все запросы

5 000 000 секунд = 58 дней на однократное индексирование сайта. 

Мы рекомендуем задержку сканирования в 2 секунды для нашего пользовательского агента usasearch и установить более высокую задержку сканирования для всех остальных ботов. Чем меньше задержка сканирования, тем быстрее Search.gov сможет проиндексировать ваш сайт. В файле robots.txt это будет выглядеть так:

  Агент пользователя: usasearch
Задержка сканирования: 2

Пользовательский агент: *
Задержка сканирования: 10
  

XML-файлы Sitemap

В вашем файле robots.txt также должна быть указана одна или несколько ваших XML-карт сайта.Например:

  Карта сайта: https://www.exampleagency.gov/sitemap.xml
Карта сайта: https://www.exampleagency.gov/independent-subsection-sitemap.xml
  
  • Отображает только карты сайта для домена, в котором находится файл robots.txt. Карта сайта другого субдомена должна быть указана в файле robots.txt этого субдомена.

Разрешить только тот контент, который должен быть доступен для поиска

Мы рекомендуем запретить использование любых каталогов или файлов, которые не должны быть доступны для поиска.Например:

  Disallow: / archive /
Disallow: / новости-1997 /
Запретить: /reports/duplicative-page.html
  
  • Обратите внимание: если вы запретите использование каталога после того, как он был проиндексирован поисковой системой, это может не привести к удалению этого содержания из индекса. Чтобы запросить удаление, вам нужно будет открыть инструменты для веб-мастеров поисковой системы.
  • Также обратите внимание, что поисковые системы могут индексировать отдельные страницы в запрещенной папке, если поисковая система узнает об URL-адресе из метода без сканирования, например ссылки с другого сайта или вашей карты сайта.Чтобы гарантировать, что данная страница недоступна для поиска, установите на этой странице метатег robots.

Настройка параметров для разных ботов

Вы можете установить разные разрешения для разных ботов. Например, если вы хотите, чтобы мы проиндексировали ваш заархивированный контент, но не хотите, чтобы Google или Bing индексировали его, вы можете указать это:

  Агент пользователя: usasearch
Задержка сканирования: 2
Разрешить: / archive /

Пользовательский агент: *
Задержка сканирования: 10
Запретить: / архив /
  

Контрольный список Robots.txt

1.В корневом каталоге сайта создан файл robots.txt ( https://exampleagency.gov/robots.txt )

2.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *