Настройка файла robots.txt — Виртуальный хостинг
robots.txt — это служебный файл с инструкциями для поисковых роботов, размещаемый в корневой директории сайта (/public_html/robots.txt). С его помощью можно запретить индексирование отдельных страниц (или всего сайта), ограничить доступ для определенных роботов, настроить частоту запросов роботов к сайту и др. Корректная настройка robots.txt позволит снизить нагрузку на сайт, создаваемую поисковыми роботами.
Формат robots.txt
Файл содержит набор правил (директив), каждое из которых записывается с новой строки в формате имя_директивы: значение (пробел после двоеточия необязателен, но допустим). Каждый блок правил начинается с директивы User-agent; внутри него не должно быть пустых строк. Новый блок правил отделяется от предыдущего пустой строкой.
В файле можно использовать примечания, отделяя их знаком #.
Файл должен называться именно robots.txt; написание Robots.txt или ROBOTS. TXT будет ошибочным.
Некоторые роботы могут игнорировать отдельные директивы. Например, GoogleBot не учитывает директивы Host и Crawl-Delay; YandexDirect игнорирует общие директивы (заданные как User-agent: *), но учитывает правила, заданные через специально для него.
Проверить созданный robots.txt можно в вебмастер-сервисах Yandex или Google или в других подобных сервисах в сети.
Используемые директивы
User-agent
Все блоки правил начинаются с директивы User-agent, в которой указывается название робота, для которого задается правило. Запись вида User-agent: * означает, что правило задается для всех поисковых роботов.
Например, при следующей записи правило будет применено только к основному индексирующему боту Яндекса:
User-agent: YandexBot
Правило будет применено ко всем роботам Яндекса и Google:
User-agent: Yandex
User-agent: Googlebot
Правило будет применено вообще ко всем роботам:
User-agent: *
Disallow и Allow
Директивы используются, чтобы запретить и разрешить доступ к определенным разделам сайта.
Например, можно запретить индексацию всего сайта (Disallow: /), кроме определенного каталога (Allow: /catalog):
User-agent: имя_бота
Disallow: /
Allow: /catalog
Запретить индексацию страниц, начинающихся с /catalog, но разрешить для страниц, начинающихся с /catalog/auto и /catalog/new:
User-agent: имя_бота
Disallow: /catalog
Allow: /catalog/auto
Allow: /catalog/new
В каждой строке указывается только одна директория. Для запрещения (или разрешения) доступа к нескольким каталогам, для каждого требуется отдельная запись.
С помощью Disallow можно ограничить доступ к сайту для нежелательных ботов, тем самым снизив создаваемую ими нагрузку. Например, чтобы запретить доступ ко всему сайту для MJ12bot и AhrefsBot — ботов сервиса majestic.com и ahrefs.com — используйте:
User-agent: MJ12bot
User-agent: AhrefsBot
Disallow: /
Аналогичным образом устанавливается блокировка и для других ботов (скажем, DotBot, SemrushBot и других).
Примечания:
- Пустая директива Disallow: равнозначна Allow: /, то есть «не запрещать ничего».
- В директивах может использоваться символ $ для обозначения точного соответствия указанному параметру. Например, запись Disallow: /catalog аналогична Disallow: /catalog * и запретит доступ ко всем страницам с /catalog (/catalog, /catalog1, /catalog-new, /catalog/clothes и др.).
Использование $ это изменит. Disallow: /catalog$ запретит доступ к /catalog, но разрешит /catalog1, /catalog-new, /catalog/clothes и др.
Sitemap
При использовании файла sitemap.xml для описания структуры сайта, можно указать путь к нему с помощью соответствующей директивы:
User-agent: *
Disallow:
Sitemap: https://mydomain.com/путь_к_файлу/mysitemap.xml
Можно перечислить несколько файлов Sitemap, каждый в отдельной строке.
Host
Директива используется для указания роботам Яндекса основного зеркала сайта и полезна, когда сайт доступен по нескольким доменам.
User-agent: Yandex
Disallow: /catalog1$
Host: https://mydomain.com
Примечания:
- Директива Host может быть только одна; если в файле указано несколько, роботом будет учтена только первая.
- Необходимо указывать протокол https, если он используется. Если вы используете http, зеркало можно записать в виде mydomain.com
- Для корректного прочтения директивы, ее нужно указывать в блоке правил User-agent после директив Disallow и Allow.
Crawl-delay
Директива устанавливает минимальный интервал в секундах между обращениями робота к сайту, что может быть полезно для снижения создаваемой роботами нагрузки. Чем выше указанное значение, тем меньше страниц робот загрузит за сессию.
Значения можно указывать целыми или дробными числами (разделитель — точка).
User-agent: Yandex
Disallow:
Crawl-delay: 0.5
Примечания:
- Для корректного прочтения директивы, ее нужно указывать в блоке правил User-agent после директив Disallow и Allow.
- Для Яндекса максимальное значение в Crawl-delay — 2. Более высокое значение можно установить инструментами Яндекс.Вебмастер.
- Для Google-бота установить частоту обращений можено в панели вебмастера Search Console.
Clean-param
Директива используется для робота Яндекса. Она позволяет исключить из индексации страницы с динамическими параметрами в URL-адресах (это могут быть идентификаторы сессий, пользователей, рефереров), чтобы робот не индексировал одно и то же содержимое повторно, повышая тем самым нагрузку на сервер.
Например, на сайте есть страницы:
www.mydomain.ru/news.html?&parm1=1&parm2=2
www.mydomain.ru/news.html?&parm2=2&parm3=3
По факту по обоим адресам отдается одна и та же страница — www. (.*)$ https://volstamp.in.ua/$1 [R=301,L]
SWIPI
0
08.10.2016 20:57
Да.Напишите еше host
Да, хост сразу написал) Host: https://volstamp.in.ua
Директива Host известна только Яндексу
User-agent: *
Disallow: /my/
Disallow: /checkout/
Disallow: /cart/
Disallow: /webasyst/
Disallow: /search/?query=
Disallow: /compare/
Disallow: /tag/
Disallow: *&sort=
Disallow: /signup/
Disallow: /login/
Disallow: /forgotpassword/
User-agent: Yandex
Disallow: /my/
Disallow: /checkout/
Disallow: /cart/
Disallow: /webasyst/
Disallow: /search/?query=
Disallow: /compare/
Disallow: /tag/
Disallow: *&sort=
Disallow: */?sort=
Disallow: /signup/
Disallow: /login/
Disallow: /forgotpassword/
Host: https://volstamp. (.*)$ index.php?$1 [L]
Всем привет. Для тех у кого хостинг TimeWeb (а может и на всех будет работать). В файл robots.txt добавляем строчку
Host:https://kabAspekt.ru/
Затем в панели вебмастера переходим на вкладку "индексирование", жмем на "переезд сайта", выбираем свой сайт и ставим галку на https. Готово! Дальше уже будете смотреть данные сайта по новому адресу. Он появится в списке сайтов. После склейки ошибки с редиректами уйдут.
В файл robots.txt добавляем строчку
Host:https://kabAspekt.ru/ - Это что за СПАМ?! Может модераторы удалят данный пост?
Robots.txt - Вебмастер. Справка
- Как проверить файл
- Как узнать, будет ли робот сканировать определенный URL-адрес
- Как отслеживать изменения файла
- FAQ
Инструмент анализа Robots.txt поможет вам проверить, сканирует ли robots. txt файл правильный. Вы можете ввести содержимое файла, проверить его, а затем скопировать в robots. txt.
Этот инструмент также поможет вам отслеживать изменения в файле и загружать его конкретную версию.
- Как проверить файл
- Как узнать, будет ли робот сканировать определенный URL
- Как отслеживать изменения в файле
- FAQ
- Если сайт был добавлен в Яндекс.Вебмастер и были права на управление сайтом Verified
Содержимое файла появится на странице анализа Инструменты → Robots.txt, как только будут подтверждены права на управление сайтом.
Если содержимое отображается на странице анализа Robots.txt, щелкните Проверить.
- Если сайт не добавлен в Яндекс.Вебмастер
Перейти на страницу анализа robots.txt.
В поле Проверяемый сайт введите адрес вашего сайта. Например, https://example.com.
Щелкните значок. Содержимое файла robots.txt и результаты анализа будут показаны ниже.
В разделах, предназначенных для робота Яндекса (User-agent: Яндекс или User-agent: *), валидатор проверяет директивы, используя условия использования robots. txt. Остальные разделы проверяются на соответствие стандарту.
После проверки вы можете увидеть:
Предупреждения. Они сообщают об отклонении от правил, которое может быть исправлено самим инструментом. Предупреждения также указывают на потенциальную проблему с опечатками или неточностями в директивах.
Ошибки в файле. Это означает, что инструмент не может обработать строку, раздел или весь файл из-за серьезных синтаксических ошибок в директивах.
Дополнительные сведения см. в разделе Ошибки синтаксического анализа файла robots.txt.
При загрузке файла robots.txt в Яндекс.Вебмастер на странице анализа Robots.txt отображается блок Проверить, разрешены ли ссылки.
В поле списка URL введите адрес страницы, которую хотите проверить. Вы можете указать URL полностью или относительно корневого каталога сайта. Например, https://example.com/page/ или /page/.
Нажмите Проверить.
Если URL-адрес разрешен для индексации ботами Яндекса, рядом с ним появится значок . В противном случае адрес будет выделен красным цветом.
Примечание. Доступна полугодовая история изменений. Максимальное количество сохраняемых версий — 100.
Чтобы оперативно узнавать об изменениях в файле robots.txt, настройте уведомления.
Яндекс.Вебмастер регулярно проверяет файл на наличие обновлений и сохраняет версии вместе с датой и временем изменения. Чтобы просмотреть их, перейдите в Инструменты → Анализ Robots.txt.
Список версий отображается при соблюдении всех следующих условий:
Вы добавили сайт в Яндекс.Вебмастер и подтвердили право на управление сайтом.
Яндекс.Вебмастер хранит информацию об изменениях в robots.txt.
Вы можете:
- Просмотреть текущую и предыдущую версии файла
В списке версий robots. txt выберите версию файла. Поле ниже показывает файл robots.txt вместе с результатами синтаксического анализа.
- Скачать версию выбранного файла
В списке версий robots.txt выберите версию файла.
Нажмите кнопку «Загрузить». Файл будет сохранен на вашем устройстве в формате TXT.
Ошибка «Этот URL не принадлежит вашему домену»
Скорее всего, вы включили зеркало в список URL вашего сайта. Например, http://example.com вместо http://www.example.com (технически это два разных URL-адреса). Технически это два разных URL. URL-адреса в списке должны принадлежать сайту, для которого проверяется файл robots.txt.
Укажите инструмент, в котором вы обнаружили ошибку, максимально подробно опишите ситуацию и, если необходимо, прикрепите скриншот, иллюстрирующий ее.
Ошибки синтаксического анализа robots.txt — Веб-мастер. Справка
- Ошибки
- Предупреждения
- Ошибки проверки URL
Список ошибок при анализе файла robots. txt.
Ошибка | Яндекс расширение | Описание |
---|---|---|
Правило не начинается с символа / или * | Да | Правило может начинаться только с символа / или *. |
Найдено несколько правил User-agent: * | Допускается только одно правило этого типа. | |
Превышен предельный размер файла robots.txt | Да | Количество правил в файле превышает 2048. |
Нет директивы агента пользователя перед правилом. | Нет | Правило всегда должно следовать директиве User-agent. Возможно, файл содержит пустую строку после User-agent. |
Правило слишком длинное | Да | Длина правила превышает ограничение (1024 символа). |
Неверный URL-адрес карты сайта | Да | URL-адрес файла карты сайта должен быть указан полностью, включая протокол. Например, https://www.example.com/sitemap.xml |
Недопустимый формат директивы Clean-param | Да | Директива Clean-param должна содержать один или несколько игнорируемых роботом параметров и префикс пути. Параметры разделяются символом &. Они отделяются от префикса пути пробелом. |
Список предупреждений при разборе файла robots. txt.
Предупреждение | Расширение Яндекса | Описание |
---|---|---|
Возможно, вы использовали недопустимый символ | Да | Файл содержит специальный символ, отличный от * и $. |
Обнаружена неизвестная директива | Да | Файл содержит директиву, которая не описана в правилах использования robots.txt. Эта директива может использоваться роботами других поисковых систем. |
Синтаксическая ошибка | Да | Строка не может быть интерпретирована как директива robots.txt. |
Неизвестная ошибка | Да | Неизвестная ошибка при анализе файла. |