Robots txt яндекс: Настройка правильного файла robots.txt — SEO на vc.ru

Настройка файла robots.txt — Виртуальный хостинг

robots.txt — это служебный файл с инструкциями для поисковых роботов, размещаемый в корневой директории сайта (/public_html/robots.txt). С его помощью можно запретить индексирование отдельных страниц (или всего сайта), ограничить доступ для определенных роботов, настроить частоту запросов роботов к сайту и др. Корректная настройка robots.txt позволит снизить нагрузку на сайт, создаваемую поисковыми роботами.

Формат robots.txt

Файл содержит набор правил (директив), каждое из которых записывается с новой строки в формате имя_директивы: значение (пробел после двоеточия необязателен, но допустим). Каждый блок правил начинается с директивы User-agent; внутри него не должно быть пустых строк. Новый блок правил отделяется от предыдущего пустой строкой.

В файле можно использовать примечания, отделяя их знаком #.

Файл должен называться именно robots.txt; написание Robots.txt или ROBOTS. TXT будет ошибочным. 

Некоторые роботы могут игнорировать отдельные директивы. Например, GoogleBot не учитывает директивы Host и Crawl-Delay; YandexDirect игнорирует общие директивы (заданные как User-agent: *), но учитывает правила, заданные через специально для него.

Проверить созданный robots.txt можно в вебмастер-сервисах Yandex или Google или в других подобных сервисах в сети.

Используемые директивы

User-agent

Все блоки правил начинаются с директивы User-agent, в которой указывается название робота, для которого задается правило. Запись вида User-agent: * означает, что правило задается для всех поисковых роботов.

Например, при следующей записи правило будет применено только к основному индексирующему боту Яндекса:

User-agent: YandexBot

Правило будет применено ко всем роботам Яндекса и Google:

User-agent: Yandex
User-agent: Googlebot

Правило будет применено вообще ко всем роботам:

User-agent: *

Disallow и Allow

Директивы используются, чтобы запретить и разрешить доступ к определенным разделам сайта.

Например, можно запретить индексацию всего сайта (Disallow: /), кроме определенного каталога (Allow: /catalog):

User-agent: имя_бота
Disallow: /
Allow: /catalog

Запретить индексацию страниц, начинающихся с /catalog, но разрешить для страниц, начинающихся с /catalog/auto и /catalog/new:

User-agent: имя_бота
Disallow: /catalog
Allow: /catalog/auto
Allow: /catalog/new

В каждой строке указывается только одна директория. Для запрещения (или разрешения) доступа к нескольким каталогам, для каждого требуется отдельная запись.

С помощью Disallow можно ограничить доступ к сайту для нежелательных ботов, тем самым снизив создаваемую ими нагрузку. Например, чтобы запретить доступ ко всему сайту для MJ12bot и AhrefsBot — ботов сервиса majestic.com и ahrefs.com — используйте:

User-agent: MJ12bot
User-agent: AhrefsBot
Disallow: /

Аналогичным образом устанавливается блокировка и для других ботов (скажем, DotBot, SemrushBot и других).

Примечания:

  • Пустая директива Disallow: равнозначна Allow: /, то есть «не запрещать ничего».
  • В директивах может использоваться символ $ для обозначения точного соответствия указанному параметру. Например, запись Disallow: /catalog аналогична Disallow: /catalog * и запретит доступ ко всем страницам с /catalog (/catalog, /catalog1, /catalog-new, /catalog/clothes и др.).
    Использование $ это изменит. Disallow: /catalog$
    запретит доступ к /catalog, но разрешит /catalog1, /catalog-new, /catalog/clothes и др.

Sitemap

При использовании файла sitemap.xml для описания структуры сайта, можно указать путь к нему с помощью соответствующей директивы:

User-agent: *
Disallow:
Sitemap: https://mydomain.com/путь_к_файлу/mysitemap.xml

Можно перечислить несколько файлов Sitemap, каждый в отдельной строке.

Host

Директива используется для указания роботам Яндекса основного зеркала сайта и полезна, когда сайт доступен по нескольким доменам.

User-agent: Yandex
Disallow: /catalog1$
Host: https://mydomain.com

Примечания:

  • Директива Host может быть только одна; если в файле указано несколько, роботом будет учтена только первая.
  • Необходимо указывать протокол https, если он используется. Если вы используете http, зеркало можно записать в виде mydomain.com
  • Для корректного прочтения директивы, ее нужно указывать в блоке правил User-agent после директив Disallow и Allow.

Crawl-delay

Директива устанавливает минимальный интервал в секундах между обращениями робота к сайту, что может быть полезно для снижения создаваемой роботами нагрузки. Чем выше указанное значение, тем меньше страниц робот загрузит за сессию.

Значения можно указывать целыми или дробными числами (разделитель — точка).

User-agent: Yandex
Disallow:
Crawl-delay: 0.5

Примечания:

  • Для корректного прочтения директивы, ее нужно указывать в блоке правил User-agent после директив Disallow и Allow.
  • Для Яндекса максимальное значение в Crawl-delay — 2. Более высокое значение можно установить инструментами Яндекс.Вебмастер.
  • Для Google-бота установить частоту обращений можено в панели вебмастера Search Console.

Clean-param

Директива используется для робота Яндекса. Она позволяет исключить из индексации страницы с динамическими параметрами в URL-адресах (это могут быть идентификаторы сессий, пользователей, рефереров), чтобы робот не индексировал одно и то же содержимое повторно, повышая тем самым нагрузку на сервер.

Например, на сайте есть страницы:

www.mydomain.ru/news.html?&parm1=1&parm2=2
www.mydomain.ru/news.html?&parm2=2&parm3=3

По факту по обоим адресам отдается одна и та же страница — www. (.*)$ https://volstamp.in.ua/$1 [R=301,L]

SWIPI

0

08.10.2016 20:57

Да.Напишите еше host

Да, хост сразу написал) Host: https://volstamp.in.ua

Директива Host известна только Яндексу

User-agent: *
Disallow: /my/
Disallow: /checkout/
Disallow: /cart/
Disallow: /webasyst/
Disallow: /search/?query=
Disallow: /compare/
Disallow: /tag/
Disallow: *&sort=

Disallow: */?sort=
Disallow: /signup/
Disallow: /login/
Disallow: /forgotpassword/

User-agent: Yandex
Disallow: /my/
Disallow: /checkout/
Disallow: /cart/
Disallow: /webasyst/
Disallow: /search/?query=
Disallow: /compare/
Disallow: /tag/
Disallow: *&sort=
Disallow: */?sort=
Disallow: /signup/
Disallow: /login/
Disallow: /forgotpassword/
Host: https://volstamp. (.*)$ index.php?$1 [L]

Всем привет. Для тех у кого хостинг TimeWeb (а может и на всех будет работать). В файл robots.txt добавляем строчку
Host:https://kabAspekt.ru/
Затем в панели вебмастера переходим на вкладку "индексирование", жмем на "переезд сайта", выбираем свой сайт и ставим галку на https. Готово! Дальше уже будете смотреть данные сайта по новому адресу. Он появится в списке сайтов. После склейки ошибки с редиректами уйдут.

В файл robots.txt добавляем строчку
Host:https://kabAspekt.ru/ - Это что за СПАМ?! Может модераторы удалят данный пост?

Анализ

Robots.txt - Вебмастер. Справка

  1. Как проверить файл
  2. Как узнать, будет ли робот сканировать определенный URL-адрес
  3. Как отслеживать изменения файла
  4. FAQ

Инструмент анализа Robots.txt поможет вам проверить, сканирует ли robots. txt файл правильный. Вы можете ввести содержимое файла, проверить его, а затем скопировать в robots. txt.

Этот инструмент также поможет вам отслеживать изменения в файле и загружать его конкретную версию.

  1. Как проверить файл
  2. Как узнать, будет ли робот сканировать определенный URL
  3. Как отслеживать изменения в файле
  4. FAQ
Если сайт был добавлен в Яндекс.Вебмастер и были права на управление сайтом Verified

Содержимое файла появится на странице анализа Инструменты → Robots.txt, как только будут подтверждены права на управление сайтом.

Если содержимое отображается на странице анализа Robots.txt, щелкните Проверить.

Если сайт не добавлен в Яндекс.Вебмастер
  1. Перейти на страницу анализа robots.txt.

  2. В поле Проверяемый сайт введите адрес вашего сайта. Например, https://example.com.

  3. Щелкните значок. Содержимое файла robots.txt и результаты анализа будут показаны ниже.

В разделах, предназначенных для робота Яндекса (User-agent: Яндекс или User-agent: *), валидатор проверяет директивы, используя условия использования robots. txt. Остальные разделы проверяются на соответствие стандарту.

После проверки вы можете увидеть:

  • Предупреждения. Они сообщают об отклонении от правил, которое может быть исправлено самим инструментом. Предупреждения также указывают на потенциальную проблему с опечатками или неточностями в директивах.

  • Ошибки в файле. Это означает, что инструмент не может обработать строку, раздел или весь файл из-за серьезных синтаксических ошибок в директивах.

Дополнительные сведения см. в разделе Ошибки синтаксического анализа файла robots.txt.

При загрузке файла robots.txt в Яндекс.Вебмастер на странице анализа Robots.txt отображается блок Проверить, разрешены ли ссылки.

  1. В поле списка URL введите адрес страницы, которую хотите проверить. Вы можете указать URL полностью или относительно корневого каталога сайта. Например, https://example.com/page/ или /page/.

  2. Нажмите Проверить.

Если URL-адрес разрешен для индексации ботами Яндекса, рядом с ним появится значок . В противном случае адрес будет выделен красным цветом.

Примечание. Доступна полугодовая история изменений. Максимальное количество сохраняемых версий — 100.

Чтобы оперативно узнавать об изменениях в файле robots.txt, настройте уведомления.

Яндекс.Вебмастер регулярно проверяет файл на наличие обновлений и сохраняет версии вместе с датой и временем изменения. Чтобы просмотреть их, перейдите в Инструменты → Анализ Robots.txt.

Список версий отображается при соблюдении всех следующих условий:

  • Вы добавили сайт в Яндекс.Вебмастер и подтвердили право на управление сайтом.

  • Яндекс.Вебмастер хранит информацию об изменениях в robots.txt.

Вы можете:

Просмотреть текущую и предыдущую версии файла

В списке версий robots. txt выберите версию файла. Поле ниже показывает файл robots.txt вместе с результатами синтаксического анализа.

Скачать версию выбранного файла
  1. В списке версий robots.txt выберите версию файла.

  2. Нажмите кнопку «Загрузить». Файл будет сохранен на вашем устройстве в формате TXT.

Ошибка «Этот URL не принадлежит вашему домену»

Скорее всего, вы включили зеркало в список URL вашего сайта. Например, http://example.com вместо http://www.example.com (технически это два разных URL-адреса). Технически это два разных URL. URL-адреса в списке должны принадлежать сайту, для которого проверяется файл robots.txt.

Укажите инструмент, в котором вы обнаружили ошибку, максимально подробно опишите ситуацию и, если необходимо, прикрепите скриншот, иллюстрирующий ее.

Ошибки синтаксического анализа robots.txt — Веб-мастер. Справка

  1. Ошибки
  2. Предупреждения
  3. Ошибки проверки URL

Список ошибок при анализе файла robots. txt.

Ошибка Яндекс расширение Описание
Правило не начинается с символа / или * Да

Правило может начинаться только с символа / или *.

Найдено несколько правил User-agent: *
Нет

Допускается только одно правило этого типа.

Превышен предельный размер файла robots.txt Да

Количество правил в файле превышает 2048.

Нет директивы агента пользователя перед правилом. Нет

Правило всегда должно следовать директиве User-agent. Возможно, файл содержит пустую строку после User-agent.

Правило слишком длинное Да

Длина правила превышает ограничение (1024 символа).

Неверный URL-адрес карты сайта Да

URL-адрес файла карты сайта должен быть указан полностью, включая протокол. Например, https://www.example.com/sitemap.xml

Недопустимый формат директивы Clean-param Да

Директива Clean-param должна содержать один или несколько игнорируемых роботом параметров и префикс пути. Параметры разделяются символом &. Они отделяются от префикса пути пробелом.

Список предупреждений при разборе файла robots. txt.

Предупреждение Расширение Яндекса Описание
Возможно, вы использовали недопустимый символ Да

Файл содержит специальный символ, отличный от * и $.

Обнаружена неизвестная директива Да

Файл содержит директиву, которая не описана в правилах использования robots.txt. Эта директива может использоваться роботами других поисковых систем.

Синтаксическая ошибка Да

Строка не может быть интерпретирована как директива robots.txt.

Неизвестная ошибка Да

Неизвестная ошибка при анализе файла.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Copyright © 2025
Дропшиппинг в России.
Сообщество поставщиков дропшипперов и интернет предпринимателей.
Все права защищены.
ИП Калмыков Семен Алексеевич. ОГРНИП: 313695209500032.
Адрес: ООО «Борец», г. Москва, ул. Складочная 6 к.4.
E-mail: [email protected]. Телефон: +7 (499) 348-21-17