Robots txt yandex: Использование файла robots.txt — Вебмастер. Справка

Содержание

Использование robots.txt | FORNEX

Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

Как создать robots.txt

В текстовом редакторе создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами.

Проверьте файл в сервисе Яндекс. Вебмастер (пункт меню Анализ robots.txt).

Загрузите файл в корневую директорию вашего сайта.

Директива User-agent

Робот Яндекса поддерживает стандарт исключений для роботов с расширенными возможностями, которые описаны ниже.

В роботе используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует загрузить робот.

Сессия начинается с загрузки файла robots.txt. Если файл отсутствует, не является текстовым или на запрос робота возвращается HTTP-статус отличный от 200 OK, робот считает, что доступ к документам не ограничен.

В файле robots.txt робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или * . Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.

Следующим роботам Яндекса можно указать отдельные директивы:

  • ‘YandexBot’ — основной индексирующий робот;
  • ‘YandexDirect’ — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
  • ‘YandexDirectDyn’ — робот генерации динамических баннеров, интерпретирует robots.txt особым образом;
  • ‘YandexMedia’ — робот, индексирующий мультимедийные данные;
  • ‘YandexImages’ — индексатор Яндекс.Картинок;
  • ‘YaDirectFetcher’
    — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
  • ‘YandexBlogs’поиска по блогам — робот , индексирующий посты и комментарии;
  • ‘YandexNews’ — робот Яндекс.Новостей;
  • ‘YandexPagechecker’ — валидатор микроразметки;
  • ‘YandexMetrika’ — робот Яндекс.Метрики;
  • ‘YandexMarket’— робот Яндекс.Маркета;
  • ‘YandexCalendar’ — робот Яндекс.Календаря.
User-agent: YandexBot # будет использоваться только основным индексирующим роботом  
Disallow: /*id=  

User-agent: Yandex # будет использована всеми роботами Яндекса  
Disallow: /*sid= # кроме основного индексирующего  

User-agent: * # не будет использована роботами Яндекса  
Disallow: /cgi-bin  

Директивы Disallow и Allow

Чтобы запретить доступ робота к сайту или некоторым его разделам, используйте директиву Disallow.

User-agent: Yandex  
Disallow: / # блокирует доступ ко всему сайту  

User-agent: Yandex  
Disallow: /cgi-bin # блокирует доступ к страницам,  
                   # начинающимся с '/cgi-bin'

В соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.

Символ # предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.

Чтобы разрешить доступ робота к сайту или некоторым его разделам, используйте директиву Allow

User-agent: Yandex  
Allow: /cgi-bin  
Disallow: /  
# запрещает скачивать все, кроме страниц 
# начинающихся с '/cgi-bin'

Совместное использование директив

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.

# Исходный robots.txt:
User-agent: Yandex  
Allow: /catalog  
Disallow: /  
# Сортированный robots.txt:
User-agent: Yandex  
Disallow: /  
Allow: /catalog  
# разрешает скачивать только страницы,
# начинающиеся с '/catalog'
# Исходный robots.txt:
User-agent: Yandex  
Allow: /  
Allow: /catalog/auto  
Disallow: /catalog  
# Сортированный robots.txt:
User-agent: Yandex  
Allow: /  
Disallow: /catalog  
Allow: /catalog/auto  
# запрещает скачивать страницы, начинающиеся с '/catalog',
# но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.

Директива Sitemap

Если вы используете описание структуры сайта с помощью файла Sitemap, укажите путь к файлу в качестве параметра директивы sitemap (если файлов несколько, укажите все).

User-agent: Yandex  
Allow: /  
sitemap: https://example.com/site_structure/my_sitemaps1.xml  
sitemap: https://example.com/site_structure/my_sitemaps2.xml  

Директива является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.

Робот запомнит путь к файлу, обработает данные и будет использовать результаты при последующем формировании сессий загрузки.

Директива Host

Если у вашего сайта есть зеркала, специальный робот зеркальщик (Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)) определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его для всех зеркал в файле robots.txt: имя главного зеркала должно быть значением директивы Host.

Директива Host не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом.

#Если https://www.glavnoye-zerkalo.ru главное зеркало сайта, то  #robots.txt для всех сайтов из группы зеркал выглядит так 
User-Agent: *  
Disallow: /forum  
Disallow: /cgi-bin  
Host: https://www.glavnoye-zerkalo.ru  

Директива Crawl-delay

Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Crawl-delay необходимо добавить в группу, которая начинается с записи User-Agent (непосредственно после директив Disallow и Allow).

Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.1. Это не гарантирует, что поисковый робот будет заходить на ваш сайт 10 раз в секунду, но позволяет ускорить обход сайта.

User-agent: Yandex  
Crawl-delay: 2 # задает таймаут в 2 секунды  

User-agent: *  
Disallow: /search  
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды  

Директива Clean-param

Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.

Робот Яндекса, используя эту информацию, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

С более подробной информацией можно ознакомиться на официальном сайте

robots.txt — настройка индексирования сайта

Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. Как определение, Robots.txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте.

Файл должен содержать обычный текст в кодировке UTF-8, состоящий из записей (строк), разделенных символами возврата каретки, возврата каретки/перевода строки или перевода строки.

Директивы:

Директива User-agent.

Создает указание конкретному роботу.

Примеры:

User-agent: YandexBot # будет использоваться только основным индексирующим роботом Яндекса
Disallow: /*id=

User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего робота Яндекса

User-agent: Googlebot-Image # запрещает агенту пользователя Googlebot-Image сканировать файлы в каталоге /personal
Disallow: /personal

User-agent: Googlebot # будет использована всеми роботами Google
Disallow: /dir

User-agent: * # используется всеми роботами, за исключением выше перчисленных
Disallow: /cgi-bin

Проще говоря, директивы для всех роботов уточняются директивами для общего робота поисковой системы (Yandex, Googlebot, StackRambler и т.п.), которые, в свою очередь, могут уточнятся директивами для общего робота конкретной поисковой системы (например для Googlebot-Imag для Googlebot).

В соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.

Директивы Disallow и Allow.

Disallow — запрещающая директива.
Allow — разрешающая директива.

Пример:

User-agent: *
Allow: /main
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с ‘/main’

Директива Host.

Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта.

Если у вашего сайта есть зеркала, специальный робот зеркальщик (Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)) определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его для всех зеркал в файле robots.txt: имя главного зеркала должно быть значением директивы Host.

Директива ‘Host’ не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом.

Пример:

User-agent: Yandex
Host: glavnoye-zerkalo.ru

Директива Clean-param.

Позволяет исключить из индексации страницы с динамическими параметрами.

Синтаксис:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]

Пример:

Для страницы www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3 убрать из индексации все динамические адреса для page.html

Clean-param: parm1&parm2&parm3 /page.html

Директива Crawl-delay.

Позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но позволяет ускорить обход сайта.

Google игнорирует Crawl-delay.

Директива Sitemap.

Указывает на карту сайта — файл Sitemap.

Файл Sitemap — это файл с информацией о страницах сайта, подлежащих индексированию. Разместив этот файл на сайте, можно сообщить роботу Яндекса:

— какие страницы вашего сайта нужно индексировать;
— как часто обновляется информация на страницах;
— индексирование каких страниц наиболее важно.

Файл Sitemap учитывается при индексировании сайта роботом, однако не гарантирует, что все URL, указанные в файле, будут добавлены в поисковый индекс.

Пример:

Sitemap: http://site.ru/sitemap.xml

Комментарии в robots.txt.

Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.

Пример robots.txt для Joomla:

User-agent: Yandex
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Host: site.ru
Sitemap: http://site.ru/component/osmap/?view=xml&id=1
Crawl-delay: 0.5

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Sitemap: http://site.ru/component/osmap/?view=xml&id=1
Crawl-delay: 1

Поисковые роботы:

1. Яндекс:
— ‘YandexBot’ — основной индексирующий робот;
— ‘YandexDirect’ — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
— ‘YandexDirectDyn’ — робот генерации динамических баннеров, интерпретирует robots.txt особым образом;
— ‘YandexMedia’ — робот, индексирующий мультимедийные данные;
— ‘YandexImages’ — индексатор Яндекс.Картинок;
— ‘YaDirectFetcher’ — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
— ‘YandexBlogs’поиска по блогам — робот , индексирующий посты и комментарии;
— ‘YandexNews’ — робот Яндекс.Новостей;
— ‘YandexPagechecker’ — валидатор микроразметки;
— ‘YandexMetrika’ — робот Яндекс.Метрики;
— ‘YandexMarket’— робот Яндекс.Маркета;
— ‘YandexCalendar’ — робот Яндекс.Календаря.

Если обнаружены директивы для конкретного робота, директивы User-agent: Yandex и User-agent: * не используются.

2. Google:
— Googlebot
— Googlebot-News
— Googlebot-Image
— Googlebot-Video
— Mediapartners-Google или Mediapartners
— AdsBot-Google
— AdsBot-Google-Mobile-Apps

Ссылки:

1. http://www.robotstxt.org/ и http://robotstxt.org.ru
2. Спецификации файла robots.txt — https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=ru
(методы обработки файла robots.txt роботами Google).
3. Использование robots.txt — https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
(методы обработки файла robots.txt роботами Яндекса).
4. Анализ robots.txt — Яндекс — https://webmaster.yandex.ru/tools/robotstxt/
5. Анализ robots.txt — Google — https://www.google.com/webmasters/tools/robots-testing-tool
6. Поисковые роботы Google — https://support.google.com/webmasters/answer/1061943?hl=ru
7. Поисковые роботы Яндекс — https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html#user-agent
8. Robots Database — http://www.robotstxt.org/db.html

Что такое robots.txt и как правильно его заполнять | Шпаргалка

Поисковые системы постоянно бродят по сети для осуществления проверки «старых» и обнаружения новых веб-сайтов, в результате чего им удаётся обновить или пополнить свою базу данных.

К счастью, поисковики управляются не вручную, а с использованием специальных инструментов. Чтобы боты-поисковики самостоятельно не хозяйничали на вашем интернет-ресурсе, требуется грамотно прописанный robots.txt.

Что такое robots.txt?

Robots.txt (ещё его называют стандарт исключений) — текстовый файл, содержащий в себе свод правил (требований), адресованных к ботам-поисковикам. Простыми словами: в нём прописываются указания — какие страницы рекомендованы к обработке, а какие не рекомендованы.


Важно понимать, что это руководство не воспринимается в качестве обязательной к выполнению команды, а в большей степени носит рекомендательный характер.


Файл кодируется в UTF-8, функционирует для протоколов FTP, http, https. Его нужно вставить в корневой каталог веб-ресурса. Попадая на сайт, бот разыскивает robots.txt, считывает его и в дальнейшем, как правило, действует согласно прописанным рекомендациям.

А если робот не найдёт данный файл? Он продолжит свою работу на ресурсе, но начнёт скачивание и анализ всех его страниц. В ряде случаев это совершенно не нужно.

Для чего нужен robots.txt?

  1. Увеличение скорости обработки ресурса. Опираясь на изложенные рекомендации, поисковой бот работает с требуемыми для вас страницами, а не со всеми подряд. Соответственно, вам удаётся обратить его внимание на первоочередную информацию.
  2. Повышение скорости индексации. В связи с тем, что за 1 визит робот обрабатывает определённое количество веб-страниц, возникает необходимость в быстрой индексации, особенно нового контента.
    Так вы сможете защитить контент от кражи и проследить, как он повлиял на позиции сайта в поисковой выдаче.
  3. Уменьшение нагрузки на сайт. Нежелательно, чтобы робот постоянно скачивал большой объём информации, потому что из-за этого работа ресурса может существенно замедлиться.
  4. Сокрытие «поискового мусора». В файле прописываются не рекомендованные для обработки страницы — сайты-зеркала, панель администратора и тому подобное.

Что закрывать в robots.txt?

  • страницы поиска — при условии, когда вы не строите планы на их проработку и модерацию;
  • корзину онлайн-магазина, страницу оформления заказа, сравнение, сортировку и фильтры товаров/услуг;
  • веб-страницы для регистрации/авторизации и личный кабинет пользователей, списки желаний, профили, фиды и тому подобное;
  • landing page, сформированные специально для акционных предложений, скидок, распродаж;
  • системные каталоги/файлы, пустые страницы, версии для печати и языковые версии, не подлежащие оптимизации.

В общем, необходимо закрывать сведения, бесполезные для пользователей, а также ещё недоработанные страницы и дубли.

Структура robots.txt

Строение файла выглядит просто. Он включает ряд блоков, адресованных конкретным ботам-поисковикам. В этих блоках прописываются директивы (команды) для управления ходом индексации.

Дополнительно можно проставлять комментарии. Чтобы они игнорировались поисковиком, нужно использовать знак #. Каждый комментарий начинается и заканчивается этим символом. Кроме того, не рекомендуется вставлять символ комментария внутри директивы.

Robots.txt создаётся одним из удобных для вас методов:

  • вручную с использованием текстового редактора, после чего он сохраняется с расширением *. txt.
  • автоматически с применением онлайн-программ.

Большинство специалистов работают с файлом вручную — процесс достаточно прост, занимает немного времени, но при этом вы будете уверены в правильности его написания.

В любом случае, автоматически сформированные файлы обязательно подлежат проверке, ведь от этого зависит, насколько хорошо будет функционировать ваш сайт.

Операторы в robots.txt

Прежде, чем мы перейдём к обзору директив, ознакомимся с дополнительными операторами. Про символ # мы поговорили выше. Кроме него вам могут потребоваться следующие операторы:

«*» сообщает, что допускается любое число символов или таковые отсутствуют;

«$» поясняет, что находящийся перед ним символ является последним.

Директива User-agent

Адресует ваши команды определённому боту-поисковику. Именно с неё вы начинаете прописывать robots.txt.

User-agent: Yandex

(правила задаются для всех роботов Яндекса)

User-agent: Google

(правила задаются для всех роботов Google)

User-agent: *

(правила задаются для всех поисковых систем)

Обращаю ваше внимание: когда поисковой робот обнаруживает своё имя после User-agent, то он не воспринимает все команды, которые вы зададите в блоке User-agent: *.

И ещё, у отдельных поисковых систем существует целая группа ботов, команды для которых можно задавать в индивидуальном порядке. При этом блоки с рекомендациями для таких ботов разбиваются путём оставления пустой строки.

Поисковые роботы Google:

  • Googlebot — основной бот системы;
  • Googlebot-Image — обрабатывает изображения;
  • Googlebot-Video — отслеживает видео-контент;
  • Googlebot-Mobile — работает со страницами для мобильных девайсов;
  • Adsbot-Google — анализирует качество рекламы на веб-страницах для персональных компьютеров;
  • Googlebot-News — определяет веб-страницы, которые следует внести в Новости Google.

Поисковые роботы Yandex:

  • YandexBotосновной бот системы;
  • YandexImages — обрабатывает изображения;
  • YandexNewsопределяет веб-страницы для добавления в Яндекс.Новости;
  • YandexMediaотслеживает мультимедиа контент;
  • YandexMobileBot — работает со страницами для мобильных девайсов.

Директива Disallow

Самая популярная команда — выдаёт запрет на индексацию страниц.

Примеры:

Disallow: /

(закрытие доступа ко всему веб-ресурсу)

Disallow: /admin/

(закрытие доступа к панели администратора)

Disallow: /*png*

(закрытие доступа на обработку документов заданного типа)

Директива Allow

Даёт право обрабатывать поисковикам заданные вами веб-страницы. Это особенно актуально в процессе ведения техработ на сайте.

Например, вы модернизируете веб-ресурс, но каталог с товарами не подлежит изменениям. Вы закрываете доступ к своему сайту, а ботов направляете только к нужному вам разделу.

Пример:

Allow: /product

Директива Host

До недавнего времени применялась для показа роботам Яндекса основного зеркала веб-сайта — с www или без.


Весной 2018 г. российская ИТ-компания проинформировала пользователей, что директива заменяется на редирект 301 — универсальный метод для всех работающих поисковиков, который указывает на основной сайт.


На сегодняшний день эта команда бесполезна. Но если она проставлена в файле, то ничего страшного — поисковые боты её просто игнорируют.

Директива Sitemap

Предназначена для указания пути к Карте вашего ресурса. По-хорошему, sitemap.xml должен храниться в корне веб-сайта. В случае, когда путь отличается, эта команда позволяет найти поисковикам Карту.

Sitemap: https://site.ru/site_structure/my_sitemaps1.xml

Директива Clean-param

Её задача — пояснить боту, что нет необходимости в индексировании страницы с определёнными параметрами. Это относится к динамическим ссылкам, ведь они периодически формируются в ходе работы веб-сайта и образуют дубли — то есть одинаковая страница становится доступна на нескольких адресах.

Тогда применяется «ref» — параметр, позволяющий выявить источник ссылки.

Пример:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=1

www. site.ru/some_dir/get_book.pl?ref=site_2&book_id=1

www. site.ru/some_dir/get_book.pl?ref=site_3&book_id=1

Результат:

User-agent: Yandex

Clean-param: ref /some_dir/get_book.pl

Таким образом поисковик сведёт все URL к одной странице. Она будет участвовать в поисковой выдаче при условии её наличия на веб-сайте:

www.site.ru/some_dir/get_book.pl?book_id=123

Директива Crawl-Delay

Команда предназначена, чтобы уведомить бота-поисковика о продолжительности загрузки страницы (в секундах). Она позволяет снизить нагрузку на веб-ресурс. Это актуально, когда веб-сайт размещён на слабом сервере.

Выглядит это так:

Crawl-delay: 3.5

(вы уведомили поисковика, что можно скачивать данные каждые 3.5 секунд)

Написание и проверка robots.txt

Теперь вы знаете, какими директивами и как пользоваться. Переходите к написанию файла:

  • Откройте текстовый редактор, к примеру, Блокнот.
  • Пропишите содержимое.
  • Сохраните документ с именем robots в формате txt.
  • Опубликуйте файл в корневой каталог.

Не загружайте готовый robots.txt сразу на веб-сайт. Сначала сделайте его проверку одним из методов:

  1. В Google Search Console.
    Для этого нужно открыть «Сканирование» — «Инструмент проверки файла robots.txt». Потом вставляем содержимое robots.txt в указанное поле и задаём адрес веб-сайта. Кликаем «Проверить».
    Google автоматически укажет вам на имеющиеся ошибки и покажет предупреждения. При наличии таковых нужно внести корректировки.
    Кроме того, пользуясь инструментами системы, вы можете получать уведомления о появившихся ошибках — они будут доступны в админке Console.
  1. В Яндекс.Вебмастер.
    Откройте «Инструменты» — «Анализ robots.txt». Всё происходит аналогично предыдущему способу — вводим адрес веб-сайта, копируем и вставляем содержимое написанного файла.
    Кликаем «Проверить» и получаем результаты — ошибки и предупреждения.

Распространённые ошибки robots.txt

  1. Отсутствие значений после Disallow. Оставив команду пустой, вы автоматически разрешаете индексацию всего веб-сайта.

Disallow:

  1. Указание нескольких папок в Disallow. Запрещено перечислять их с помощью запятых/пробелов. Каждая последующая рекомендация прописывается в новой строке.

Disallow: /category-10

Disallow: /category-11

  1. Неверно указано имя.

robots.txt — правильно, Robots.txt — неправильно.

  1. В User-agent указан более, чем один робот. Для каждого бота директива проставляется отдельно.

User-agent: Yandex

  1. В директиве отображён адрес страницы.

Disallow: http://site.ru/ivanov

Неправильно!

Disallow: /ivanov

Правильно!

Вывод

Написать файл совершенно несложно — нужно быть предельно внимательным, внося директивы и операторы. Однако при выполнении задачи следует проявить творческий подход.

Размещение robots.txt не должно ухудшать позиции веб-сайта в результатах выдачи поисковых систем, но при этом его наличие должно стать ограничением для бесполезных хождений роботов по страницам ресурса.

что это такое, зачем нужен индексный файл и как его настроить – примеры роботс тхт

Если вы хоть немного интересовались вопросом внутренней оптимизации сайтов, то наверняка встречали термин robots txt. Как раз ему и посвящена наша сегодняшняя тема.

Сейчас вы узнаете, что такое robots txt, как он создается, каким образом веб-мастер задает в нем нужные правила, как обрабатывается файл robots.txt поисковыми роботами и почему отсутствие этого файла в корне веб-ресурса — одна из самых серьезных ошибок внутренней оптимизации сайта. Будет интересно!

Что такое robots.txt

Технически robots txt — это обыкновенный текстовый документ, который лежит в корне веб-сайта и информирует поисковых роботов о том, какие страницы и файлы они должны сканировать и индексировать, а для каких наложен запрет. Но это самое примитивное описание. На самом деле c robots txt все немного сложнее.

Файл robots txt — это как «администратор гостиницы». Вы приходите в нее, администратор выдает вам ключи от номера, а также говорит, где ресторан, SPA, зона отдыха, кабинет управляющего и прочее. А вот в другие номера и помещения для персонала вход вам заказан. Точно так же и с robots txt. Только вместо администратора — файл, вместо клиента — поисковые роботы, а вместо помещений — отдельные веб-страницы и файлы. Сравнение грубое, но зато доступное и понятное.

Для чего нужен файл robots.txt

Без этого файла поисковики будут хаотично блуждать по сайту, сканировать и индексировать буквально все подряд: дубли, служебные документы, страницы с текстами «заглушками» (Lorem Ipsum) и тому подобное.

Правильный robots txt не дает такому происходить и буквально ведет роботов по сайту, подсказывая, что разрешено индексировать, а что необходимо упустить.

Существуют специальные директивы robots txt для данных задач:

  • Allow — допускает индексацию.
  • Disallow — запрещает индексацию.

Кроме того, можно сразу прописать, каким конкретно роботам разрешено или запрещено индексировать заданные страницы. Например, чтобы запретить индексацию директории /private/ поисковым роботам «Гугл», в роботс необходимо прописать User-agent:

User-agent: Google

Disallow: /private/

Также вы можете указать основное зеркало веб-сайта, задать путь к Sitemap, обозначить дополнительные правила обхода через директивы и прочее. Возможности robots txt достаточно обширны.

И вот мы разобрались, для чего нужен robots txt. Дальше сложнее — создание файла, его наполнение и размещение на сайте.

Как создать файл robots.txt для сайта?

Итак, как создать файл robots txt?

Создать и изменять файл проще всего в приложении «Блокнот» или другом текстовом редакторе, поддерживающим формат .txt. Специальное ПО для работы с robots txt не понадобится.

Создайте обычный текстовый документ с расширением .txt и поместите его в корень веб-ресурса. Для размещения подойдет любой FTP-клиент. После размещения обязательно стоит проверить robots txt — находится ли файл по нужному адресу. Для этого в поисковой строке браузера нужно прописать адрес:

имя_сайта/robots.txt

Если все сделано правильно, вы увидите во вкладке данные из robots txt. Но без команд и правил он, естественно, работать не будет. Поэтому переходим к более сложному — наполнению.

Символы в robots.txt

Помимо упомянутых выше функций Allow/Disallow, в robots txt прописываются спецсимволы:

  • «/» — указывает, что мы закрываем файл или страницу от обнаружения роботами «Гугл», «Яндекс» и т. д.;
  • «*» — прописывается после каждого правила и обозначает последовательность символов;

  • «$» — ограничивает действие «*»;

  • «#» — позволяет закомментировать любой текст, который веб-мастер оставляет себе или другим специалистам (своего рода заметка, напоминание, инструкция). Поисковики не считывают закомментированный текст.

Синтаксис в robots.txt

Описанные в файле robots.txt правила — это его синтаксис и разного рода директивы. Их достаточно много, мы рассмотрим наиболее значимые — те, которые вы, скорее всего, будете использовать.

User-agent

Это директива, указывающая, для каких search-роботов будут действовать следующие правила. Прописывается следующим образом:

User-agent: * имя поискового робота

Примеры роботов: YandexBot, Googlebot, Yandex Metrika и другие.

Allow

Это разрешающая индексацию директива для robots txt. Допустим, вы прописываете следующие правила:

User-agent: * имя поискового робота

Allow: /site

Disallow: /

Так в robots txt вы запрещаете роботу анализировать и индексировать весь веб-ресурс, но запрет не касается папки site.

Disallow

Это противоположная директива, которая закрывает от индексации только прописанные страницы или файлы. Чтобы запретить индексировать определенную папку, нужно прописать:

Disallow: /folder/

Также можно запретить сканировать и индексировать все файлы выбранного расширения. Например:

Disallow: /*.css$

Sitemap

Данная директива robots txt направляет поисковых роботов к описанию структуры вашего ресурса. Это важно для SEO. Вот пример:

User-agent: *

Disallow: /site/

Allow: /

Sitemap: http://site.com/sitemap1.xml

Sitemap: http://site.com/sitemap2.xml

Host

Эта директива robots txt предназначена исключительно для роботов «Яндекса»‎ и обозначает главное зеркало сайта. Необходимость в Host возникает лишь тогда, когда у ресурса есть два или больше доменов.

User-agent: Yandex

Disallow: /site/

Host: site.ru

Crawl-delay

Директива ограничивает частоту анализа сайта и тем самым снижает нагрузку на сервер. Здесь прописывается время в сек. (третья строчка):

User-agent: *

Disallow: /site

Crawl-delay: 4

Clean-param

Запрещает индексацию страниц, сформированных с динамическими параметрами. Суть в том, что поисковые системы воспринимают их как дубли, а это плохо для SEO. О том, как найти дубли страниц на сайте, мы уже рассказывали. Вам нужно прописывать директиву:

Clean-param: p1[&p2&p3&p4&..&pn] [Путь к динамическим страницам]

Примеры Clean-param в robots txt:

Clean-param: kol_from1&price_to2&pcolor /polo.html # только для polo.html

или

Clean-param: kol_from1&price_to2&pcolor / # для всех страниц сайта

Кстати, советуем прочесть нашу статью «Как просто проверить индексацию сайта» — в ней много полезного по этой теме. Плюс есть информативная статья «Сканирование сайта в Screaming Frog». Рекомендуем ознакомиться!

Особенности настройки robots.txt для «Яндекса» и «Гугла»

На практике синтаксис файла robots.txt для этих систем отличается незначительно. Но есть несколько моментов, которые мы советуем учитывать.

Google не рекомендует скрывать файлы с CSS-стилями и JS-скриптами от сканирования. То есть правило должно выглядеть так:

User-agent: Googlebot

Disallow: /site

Disallow: /admin

Disallow: /users

Disallow: */templates

Allow: *.css

Allow: *.js

Host: www.site.com

«Яндекс» подобных рекомендаций не дает, однако в для него требуется директория Host, упомянутая выше. Ее задача — указать главное зеркало сайта:

User-agent: Yandex

Disallow: /site

Disallow: /admin

Disallow: /users

Disallow: */templates

Disallow: */css

Host: www.site.com

Примеры настройки файла robots.txt

Каждая CMS имеет свою специфику настройки robots txt для сканирования и индексации. И лучший способ понять разницу — рассмотреть каждый пример robots txt для разных систем. Так и поступим!

Пример robots txt для WordPress

Роботс для WordPress в классическом варианте выглядит так:

User-agent: Yandex

Disallow: /cgi-bin # служебная папка для хранения серверных скриптов

Disallow: /? # все параметры запроса на главной

Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: *?s= # результаты поиска

Disallow: /search # результаты поиска

Disallow: */page/ # страницы пагинации

Disallow: /*print= # страницы для печати

Host: www.site.ru

 

User-agent: Googlebot

Disallow: /cgi-bin # служебная папка для хранения серверных скриптов

Disallow: /? # все параметры запроса на главной

Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: *?s= # результаты поиска

Disallow: /search # результаты поиска

Disallow: */page/ # страницы пагинации

Disallow: /*print= # страницы для печати

Allow: *.css # открыть все файлы стилей

Allow: *.js # открыть все с js-скриптами

 

User-agent: *

Disallow: /cgi-bin # служебная папка для хранения серверных скриптов

Disallow: /? # все параметры запроса на главной

Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: *?s= # результаты поиска

Disallow: /search # результаты поиска

Disallow: */page/ # страницы пагинации

Disallow: /*print= # страницы для печати

 

Sitemap: http://site.ru/sitemap.xml

Sitemap: http://site.ru/sitemap1.xml

Пример robots.txt для «Битрикс»

Одна из главных проблем «Битрикс» — по дефолту поисковые системы считывают и проводят индексацию служебных страниц и дублей. Но это можно предотвратить, правильно прописав robots txt:

User-Agent: Yandex

Disallow: /personal/

Disallow: /search/

Disallow: /auth/

Disallow: /bitrix/

Disallow: /login/

Disallow: /*?action=

Disallow: /?mySort=

Disallow: */filter/

Disallow: */clear/

Allow: /personal/cart/

HOST: https://site.ru

 

User-Agent: *

Disallow: /personal/

Disallow: /search/

Disallow: /auth/

Disallow: /bitrix/

Disallow: /login/

Disallow: /*?action=

Disallow: /?mySort=

Disallow: */filter/

Disallow: */clear/

Allow: /personal/cart/

Sitemap: https://site.ru/sitemap.xml

 

User-Agent: Googlebot

Disallow: /personal/

Disallow: /search/

Disallow: /auth/

Disallow: /bitrix/

Disallow: /login/

Disallow: /*?action=

Disallow: /?mySort=

Disallow: */filter/

Disallow: */clear/

Allow: /bitrix/js/

Allow: /bitrix/templates/

Allow: /bitrix/tools/conversion/ajax_counter.php

Allow: /bitrix/components/main/

Allow: /bitrix/css/

Allow: /bitrix/templates/comfer/img/logo.png

Allow: /personal/cart/

Sitemap: https://site.ru/sitemap.xml

Пример robots.txt для OpenCart

Рассмотрим пример robots txt для платформы электронной коммерции OpenCart:

User-agent: Yandex

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: /wishlist

Disallow: /login

Host: site.ru

 

User-agent: Googlebot

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: /wishlist

Disallow: /login

Allow: *.css

Allow: *.js

 

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: /wishlist

Disallow: /login

 

Sitemap: http://site.ru/sitemap.xml

Пример robots.txt для Joomla

В «Джумле» роботс выглядит так:

User-agent: Yandex

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*?start=*

Disallow: /xmlrpc/

Host: www.site.ru

 

User-agent: Googlebot

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*?start=*

Disallow: /xmlrpc/

Allow: *.css

Allow: *.js

 

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /component/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /libraries/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Disallow: /*?start=*

Disallow: /xmlrpc/

 

Sitemap: http://www.site.ru/sitemap.xml

Пример robots.txt для Drupal

Для Drupal:

User-agent: Yandex

Disallow: /database/

Disallow: /includes/

Disallow: /misc/

Disallow: /modules/

Disallow: /sites/

Disallow: /themes/

Disallow: /scripts/

Disallow: /updates/

Disallow: /profiles/

Disallow: /profile

Disallow: /profile/*

Disallow: /xmlrpc.php

Disallow: /cron.php

Disallow: /update.php

Disallow: /install.php

Disallow: /index.php

Disallow: /admin/

Disallow: /comment/reply/

Disallow: /contact/

Disallow: /logout/

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: *register*

Disallow: *login*

Disallow: /top-rated-

Disallow: /messages/

Disallow: /book/export/

Disallow: /user2userpoints/

Disallow: /myuserpoints/

Disallow: /tagadelic/

Disallow: /referral/

Disallow: /aggregator/

Disallow: /files/pin/

Disallow: /your-votes

Disallow: /comments/recent

Disallow: /*/edit/

Disallow: /*/delete/

Disallow: /*/export/html/

Disallow: /taxonomy/term/*/0$

Disallow: /*/edit$

Disallow: /*/outline$

Disallow: /*/revisions$

Disallow: /*/contact$

Disallow: /*downloadpipe

Disallow: /node$

Disallow: /node/*/track$

Disallow: /*&

Disallow: /*%

Disallow: /*?page=0

Disallow: /*section

Disallow: /*order

Disallow: /*?sort*

Disallow: /*&sort*

Disallow: /*votesupdown

Disallow: /*calendar

Disallow: /*index.php

Allow: /*?page=

Disallow: /*?

 

User-agent: *

Disallow: /database/

Disallow: /includes/

Disallow: /misc/

Disallow: /modules/

Disallow: /sites/

Disallow: /themes/

Disallow: /scripts/

Disallow: /updates/

Disallow: /profiles/

Disallow: /profile

Disallow: /profile/*

Disallow: /xmlrpc.php

Disallow: /cron.php

Disallow: /update.php

Disallow: /install.php

Disallow: /index.php

Disallow: /admin/

Disallow: /comment/reply/

Disallow: /contact/

Disallow: /logout/

Disallow: /search/

Disallow: /user/register/

Disallow: /user/password/

Disallow: *register*

Disallow: *login*

Disallow: /top-rated-

Disallow: /messages/

Disallow: /book/export/

Disallow: /user2userpoints/

Disallow: /myuserpoints/

Disallow: /tagadelic/

Disallow: /referral/

Disallow: /aggregator/

Disallow: /files/pin/

Disallow: /your-votes

Disallow: /comments/recent

Disallow: /*/edit/

Disallow: /*/delete/

Disallow: /*/export/html/

Disallow: /taxonomy/term/*/0$

Disallow: /*/edit$

Disallow: /*/outline$

Disallow: /*/revisions$

Disallow: /*/contact$

Disallow: /*downloadpipe

Disallow: /node$

Disallow: /node/*/track$

Disallow: /*&

Disallow: /*%

Disallow: /*?page=0

Disallow: /*section

Disallow: /*order

Disallow: /*?sort*

Disallow: /*&sort*

Disallow: /*votesupdown

Disallow: /*calendar

Disallow: /*index.php

Allow: /*?page=

Disallow: /*?

 

Sitemap: http://путь к вашей карте XML формата

Выводы

Файл robots txt — функциональный инструмент, благодаря которому веб-разработчик дает инструкции поисковым системам, как взаимодействовать с сайтом. Благодаря ему мы обеспечиваем правильную индексацию, защищаем веб-ресурс от попадания под фильтры поисковых систем, снижаем нагрузку на сервер и улучшаем параметры сайта для SEO.

Чтобы правильно прописать инструкции файла robots.txt, крайне важно отчетливо понимать, что вы делаете и зачем вы это делаете. Соответственно, если не уверены, лучше обратитесь за помощью к специалистам. В нашей компании настройка robots txt входит в услугу внутренней оптимизации сайта для поисковых систем Google и Яндекс.

Кстати, в нашей практике был случай, когда клиент обратился за услугой раскрутки сайта, в корне которого файл robots txt попросту отсутствовал и индексация происходила некорректно. Почитайте, там много интересных моментов: «SEO-Кейс: Продвижение сайта медицинских справок».

FAQ

Что такое файл robots.txt?

Robots txt — это документ, содержащий правила индексации вашего сайта, отдельных его файлов или URL поисковиками. Правила, описанные в файле robots.txt, называются директивами.

Зачем нужен файл robots.txt?

Robots txt помогает закрыть от индексации отдельные файлы, дубли страниц, документы, не несущие никакой пользы для посетителей, а также страницы, содержащие неуникальный контент.

Где находится файл robots.txt?

Он размещается в корневой папке веб-ресурса. Чтобы проверить его наличие, достаточно в URL-адрес вашего веб-ресурса дописать /robots.txt и нажать Enter. Если он на месте, откроется его страница. Так можно просмотреть данный файл на любом сайте, даже на стороннем. Просто добавьте к адресу /robots.txt.

У Вас остались вопросы?

Наши эксперты готовы ответить на них. Оставьте ваши контактные данные. Будем рады обсудить ваш проект!

Получить консультацию

Наш менеджер свяжется с Вами в ближайшее время

Отправить заявку

Файл robots.txt и мета-тег robots — настройка индексации сайта Яндексом и Гуглом, правильный роботс и его проверка

Обновлено 24 января 2021 Просмотров: 61 388 Автор: Дмитрий Петров
  1. Почему так важно управлять индексацией сайта
  2. Как можно запретить индексацию отдельных частей сайта
  3. Robots.txt — директива user-agent и боты поисковых систем
  4. Примеры использования директив Disallow и Allow
  5. Директивы Sitemap и Host (для Яндекса уже не нужна)
  6. Проверка robots.txt в Яндексе и Гугле, примеры ошибок
  7. Мета-тег Robots — помогает закрыть дубли при индексации сайта
  8. Как создать правильный роботс.тхт?

При самостоятельном продвижении и раскрутке сайта важно не только создание уникального контента или подбор запросов в статистике Яндекса, но и так же следует уделять должное внимание такому показателю, как индексация ресурса поисковиками, ибо от этого тоже зависит весь дальнейший успех продвижения.

У нас с вами имеются в распоряжении два набора инструментов, с помощью которых мы можем управлять этим процессом как бы с двух сторон. Во-первых, существует такой важный инструмент как карта сайта (Sitemap xml). Она говорит поисковикам о том, какие страницы сайта подлежат индексации и как давно они обновлялись.

А, во-вторых, это, конечно же, файл robots.txt и похожий на него по названию мета-тег роботс, которые помогают нам запретить индексирование на сайте того, что не содержит основного контента (исключить файлы движка, запретить индексацию дублей контента), и именно о них и пойдет речь в этой статье…

Индексация сайта

Упомянутые выше инструменты очень важны для успешного развития вашего проекта, и это вовсе не голословное утверждение. В статье про Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров, там на втором и третьем месте (после не уникального контента) находятся как раз отсутствие этих файлов роботс и сайтмап, либо их неправильное составление и использование.

Почему так важно управлять индексацией сайта

Надо очень четко понимать, что при использовании CMS (движка) не все содержимое сайта должно быть доступно роботам поисковых систем. Почему?

  1. Ну, хотя бы потому, что, потратив время на индексацию файлов движка вашего сайта (а их может быть тысячи), робот поисковика до основного контента сможет добраться только спустя много времени. Дело в том, что он не будет сидеть на вашем ресурсе до тех пор, пока его полностью не занесет в индекс. Есть лимиты на число страниц и исчерпав их он уйдет на другой сайт. Адьес.
  2. Если не прописать определенные правила поведения в роботсе для этих ботов, то в индекс поисковиков попадет множество страниц, не имеющих отношения к значимому содержимому ресурса, а также может произойти многократное дублирование контента (по разным ссылкам будет доступен один и тот же, либо сильно пересекающийся контент), что поисковики не любят.

Хорошим решением будет запрет всего лишнего в robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв). С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Представляет он из себя обычный текстовый файл, который вы сможете создать и в дальнейшем редактировать в любом текстовом редакторе (например, Notepad++).

Поисковый бот будет искать этот файл в корневом каталоге вашего ресурса и если не найдет, то будет загонять в индекс все, до чего сможет дотянуться. Поэтому после написания требуемого роботса, его нужно сохранить в корневую папку, например, с помощью Ftp клиента Filezilla так, чтобы он был доступен к примеру по такому адресу:

https://ktonanovenkogo.ru/robots.txt

Кстати, если вы хотите узнать как выглядит этот файл у того или иного проекта в сети, то достаточно будет дописать к Урлу его главной страницы окончание вида /robots.txt. Это может быть полезно для понимания того, что в нем должно быть.

Однако, при этом надо учитывать, что для разных движков этот файл будет выглядеть по-разному (папки движка, которые нужно запрещать индексировать, будут называться по-разному в разных CMS). Поэтому, если вы хотите определиться с лучшим вариантом роботса, допустим для Вордпресса, то и изучать нужно только блоги, построенные на этом движке (и желательно имеющие приличный поисковый трафик).

Как можно запретить индексацию отдельных частей сайта и контента?

Прежде чем углубляться в детали написания правильного файла robots.txt для вашего сайта, забегу чуть вперед и скажу, что это лишь один из способов запрета индексации тех или иных страниц или разделов вебсайта. Вообще их три:

  1. Роботс.тхт — самый высокоуровневый способ, ибо позволяет задать правила индексации для всего сайта целиком (как его отдельный страниц, так и целых каталогов). Он является полностью валидным методом, поддерживаемым всеми поисковиками и другими ботами живущими в сети. Но его директивы вовсе не являются обязательными для исполнения. Например, Гугл не шибко смотрит на запреты в robots.tx — для него авторитетнее одноименный мета-тег рассмотренный ниже.
  2. Мета-тег robots — имеет влияние только на страницу, где он прописан. В нем можно запретить индексацию и переход робота по находящимся в этом документе ссылкам (подробнее смотрите ниже). Он тоже является полностью валидным и поисковики будут стараться учитывать указанные в нем значения. Для Гугла, как я уже упоминал, этот метод имеет больший вес, чем файлик роботса в корне сайта.
  3. Тег Noindex и атрибут rel=»nofollow» — самый низкоуровневый способ влияния на индексацию. Они позволяют закрыть от индексации отдельные фрагменты текста (noindex) и не учитывать вес передаваемый по ссылке. Они не валидны (их нет в стандартах). Как именно их учитывают поисковики и учитывают ли вообще — большой вопрос и предмет долгих споров (кто знает наверняка — тот молчит и пользуется).

Важно понимать, что даже «стандарт» (валидные директивы robots.txt и одноименного мета-тега) являются необязательным к исполнению. Если робот «вежливый», то он будет следовать заданным вами правилам. Но вряд ли вы сможете при помощи такого метода запретить доступ к части сайта роботам, ворующим у вас контент или сканирующим сайт по другим причинам.

Вообще, роботов (ботов, пауков, краулеров) существует множество. Какие-то из них индексируют контент (как например, боты поисковых систем или воришек). Есть боты проверяющие ссылки, обновления, зеркалирование, проверяющие микроразметку и т.д.

Большинство роботов хорошо спроектированы и не создают каких-либо проблем для владельцев сайтов. Но если бот написан дилетантом или «что-то пошло не так», то он может создавать существенную нагрузку на сайт, который он обходит. Кстати, пауки вовсе на заходят на сервер подобно вирусам — они просто запрашивают нужные им страницы удаленно (по сути это аналоги браузеров, но без функции просмотра страниц).

Robots.txt — директива user-agent и боты поисковых систем

Роботс.тхт имеет совсем не сложный синтаксис, который очень подробно описан, например, в хелпе яндекса и хелпе Гугла. Обычно в нем указывается, для какого поискового бота предназначены описанные ниже директивы: имя бота (‘User-agent‘), разрешающие (‘Allow‘) и запрещающие (‘Disallow‘), а также еще активно используется ‘Sitemap’ для указания поисковикам, где именно находится файл карты.

Стандарт создавался довольно давно и что-то было добавлено уже позже. Есть директивы и правила оформления, которые будут понятны только роботами определенных поисковых систем. В рунете интерес представляют в основном только Яндекс и Гугл, а значит именно с их хелпами по составлению robots.txt следует ознакомиться особо детально (ссылки я привел в предыдущем абзаце).

Например, раньше для поисковой системы Яндекс было полезным указать, какое из зеркал вашего вебпроекта является главным в специальной директиве ‘Host’, которую понимает только этот поисковик (ну, еще и Майл.ру, ибо у них поиск от Яндекса). Правда, в начале 2018 Яндекс все же отменил Host и теперь ее функции как и у других поисковиков выполняет 301-редирект.

Если даже у вашего ресурса нет зеркал, то полезно будет указать, какой из вариантов написания является главным — с www или без него.

Теперь поговорим немного о синтаксисе этого файла. Директивы в robots.txt имеют следующий вид:

<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>

Правильный код должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл предполагает разрешение на индексирование всего сайта.

User-agent

Директива «User-agent» должна содержать название поискового бота. При помощи нее можно настроить правила поведения для каждого конкретного поисковика (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания «User-agent», адресованной всем ботам зашедшим на ваш ресурс, выглядит так:

User-agent: * 

Если вы хотите в «User-agent» задать определенные условия только для какого-то одного бота, например, Яндекса, то нужно написать так:

User-agent: Yandex

Название роботов поисковых систем и их роль в файле robots.txt

Бот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler). Здесь я приведу список самых известных из них:

Google http://www.google.com Googlebot
Яндекс http://www.ya.ru 	 Yandex
Бинг http://www.bing.com/ 	 bingbot

У крупных поисковых систем иногда, кроме основных ботов, имеются также отдельные экземпляры для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям ботов вы можете почерпнуть тут (для Google).

Как быть в этом случае? Если нужно написать правило запрета индексации, которое должны выполнить все типы роботов Гугла, то используйте название Googlebot и все остальные пауки этого поисковика тоже послушаются. Однако, можно запрет давать только, например, на индексацию картинок, указав в качестве User-agent бота Googlebot-Image. Сейчас это не очень понятно, но на примерах, я думаю, будет проще.

Примеры использования директив Disallow и Allow в роботс.тхт

Приведу несколько простых примеров использования директив с объяснением его действий.

  1. Приведенный ниже код разрешает всем ботам (на это указывает звездочка в User-agent) проводить индексацию всего содержимого без каких-либо исключений. Это задается пустой директивой Disallow.
    User-agent: *
    Disallow:
  2. Следующий код, напротив, полностью запрещает всем поисковикам добавлять в индекс страницы этого ресурса. Устанавливает это Disallow с «/» в поле значения.
    User-agent: *
    Disallow: /
  3. В этом случае будет запрещаться всем ботам просматривать содержимое каталога /image/ (http://mysite.ru/image/ — абсолютный путь к этому каталогу)
    User-agent: *
    Disallow: /image/
  4. Чтобы заблокировать один файл, достаточно будет прописать его абсолютный путь до него (читайте про абсолютные и относительные пути по ссылке):
    User-agent: *
    Disallow: /katalog1//katalog2/private_file.html

    Забегая чуть вперед скажу, что проще использовать символ звездочки (*), чтобы не писать полный путь:

    Disallow: /*private_file.html
  5. В приведенном ниже примере будут запрещены директория «image», а также все файлы и директории, начинающиеся с символов «image», т. е. файлы: «image.htm», «images.htm», каталоги: «image», «images1», «image34» и т. д.):
    User-agent: *
    Disallow: /image
    Дело в том, что по умолчанию в конце записи подразумевается звездочка, которая заменяет любые символы, в том числе и их отсутствие. Читайте об этом ниже.
  6. С помощью директивы Allow мы разрешаем доступ. Хорошо дополняет Disallow. Например, таким вот условием поисковому роботу Яндекса мы запрещаем выкачивать (индексировать) все, кроме вебстраниц, адрес которых начинается с /cgi-bin:
    User-agent: Yandex
    Allow: /cgi-bin
    Disallow: /

    Ну, или такой вот очевидный пример использования связки Allow и Disallow:

    User-agent: *
    Disallow: /catalog
    Allow: /catalog/auto
  7. При описании путей для директив Allow-Disallow можно использовать символы ‘*’ и ‘$’, задавая, таким образом, определенные логические выражения.
    1. Символ ‘*'(звездочка) означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов с расширение «.php»:
      User-agent: *
      Disallow: *.php$
    2. Зачем нужен на конце знак $ (доллара)? Дело в том, что по логике составления файла robots.txt, в конце каждой директивы как бы дописывается умолчательная звездочка (ее нет, но она как бы есть). Например мы пишем:
      Disallow: /images

      Подразумевая, что это то же самое, что:

      Disallow: /images*

      Т.е. это правило запрещает индексацию всех файлов (вебстраниц, картинок и других типов файлов) адрес которых начинается с /images, а дальше следует все что угодно (см. пример выше). Так вот, символ $ просто отменяет эту умолчательную (непроставляемую) звездочку на конце. Например:

      Disallow: /images$

      Запрещает только индексацию файла /images, но не /images.html или /images/primer.html. Ну, а в первом примере мы запретили индексацию только файлов оканчивающихся на .php (имеющих такое расширение), чтобы ничего лишнего не зацепить:

      Disallow: *.php$
  8. Во многих движках пользователи настраивают так называемые ЧПУ (человеко-понятные Урлы), в то время как Урлы, генерируемые системой, имеют знак вопроса ‘?’ в адресе. Этим можно воспользоваться и написать такое правило в robots.txt:
    User-agent: *
    Disallow: /*?

    Звездочка после вопросительного знака напрашивается, но она, как мы с вами выяснили чуть выше, уже подразумевается на конце. Таким образом мы запретим индексацию страниц поиска и прочих служебных страниц создаваемых движком, до которых может дотянуться поисковый робот. Лишним не будет, ибо знак вопроса чаще всего CMS используют как идентификатор сеанса, что может приводить к попаданию в индекс дублей страниц.

Директивы Sitemap и Host (для Яндекса) в Robots.txt

Во избежании возникновения неприятных проблем с зеркалами сайта, раньше рекомендовалось добавлять в robots.txt директиву Host, которая указывал боту Yandex на главное зеркало.

Однако, в начале 2018 год это было отменено и и теперь функции Host выполняет 301-редирект.

Директива Host — указывает главное зеркало сайта для Яндекса

Например, раньше, если вы еще не перешли на защищенный протокол, указывать в Host нужно было не полный Урл, а доменное имя (без http://, т.е. ktonanovenkogo.ru, а не https://ktonanovenkogo.ru). Если же уже перешли на https, то указывать нужно будет полный Урл (типа https://myhost.ru).

Сейчас переезд сайта после отказа от директивы Host очень сильно упростился, ибо теперь не нужно ждать пока произойдет склейка зеркал по директиве Host для Яндекса, а можно сразу после настройки Https на сайте делать постраничный редирект с Http на Https.

Напомню в качестве исторического экскурса, что по стандарту написания роботс.тхт за любой директивой User-agent должна сразу следовать хотя бы одна директива Disallow (пусть даже и пустая, ничего не запрещающая). Так же, наверное, имеется смысл прописывать Host для отдельного блока «User-agent: Yandex», а не для общего «User-agent: *», чтобы не сбивать с толку роботов других поисковиков, которые эту директиву не поддерживают:

User-agent: Yandex
Disallow:
Host: www.site.ru 

либо

User-agent: Yandex
Disallow:
Host: site.ru 

либо

User-agent: Yandex
Disallow:
Host: https://site.ru 

либо

User-agent: Yandex
Disallow:
Host: https://www.site.ru 

в зависимости от того, что для вас оптимальнее (с www или без), а так же в зависимости от протокола.

Указываем или скрываем путь до карты сайта sitemap.xml в файле robots

Директива Sitemap указывает на местоположение файла карты сайта (обычно он называется Sitemap.xml, но не всегда). В качестве параметра указывается путь к этому файлу, включая http:// (т.е. его Урл).Благодаря этому поисковый робот сможете без труда его найти. Например:

Sitemap: http://site.ru/sitemap.xml

Раньше файл карты сайта хранили в корне сайта, но сейчас многие его прячут внутри других директорий, чтобы ворам контента не давать удобный инструмент в руки. В этом случае путь до карты сайта лучше в роботс.тхт не указывать. Дело в том, что это можно с тем же успехом сделать через панели поисковых систем (Я.Вебмастер, Google.Вебмастер, панель Майл.ру), тем самым «не паля» его местонахождение.

Местоположение директивы Sitemap в файле robots.txt не регламентируется, ибо она не обязана относиться к какому-то юзер-агенту. Обычно ее прописывают в самом конце, либо вообще не прописывают по приведенным выше причинам.

Проверка robots.txt в Яндекс и Гугл вебмастере

Как я уже упоминал, разные поисковые системы некоторые директивы могут интерпритировать по разному. Поэтому имеет смысл проверять написанный вами файл роботс.тхт в панелях для вебмастеров обоих систем. Как проверять?

  1. Зайти в инструменты проверки Яндекса и Гугла.
  2. Убедиться, что в панель вебмастера загружена версия файла с внесенными вами изменениями. В Яндекс вебмастере загрузить измененный файл можно с помощью показанной на скриншоте иконки:

    В Гугл Вебмастере нужно нажать кнопку «Отправить» (справа под списком директив роботса), а затем в открывшемся окне выбрать последний вариант нажатием опять же на кнопку «Отправить»:

  3. Набрать список адресов страниц своего сайта (по Урлу в строке), которые должны индексироваться, и вставить их скопом (в Яндексе) или по одному (в Гугле) в расположенную снизу форму. После чего нажать на кнопку «Проверить».

    Если возникли нестыковки, то выяснить причины, внести изменения в robots.txt, загрузить обновленный файл в панель вебмастеров и повторить проверку. Все ОК?

    Тогда составляйте список страниц, которые не должны индексироваться, и проводите их проверку. При необходимости вносите изменения и проверку повторяйте. Естественно, что проверять следует не все страницы сайта, а ярких представителей своего класса (страницы статей, рубрики, служебные страницы, файлы картинок, файлы шаблона, файлы движка и т.д.)

Причины ошибок выявляемых при проверке файла роботс.тхт

  1. Файл должен находиться в корне сайта, а не в какой-то папке (это не .htaccess, и его действия распространяются на весь сайт, а не на каталог, в котором его поместили), ибо поисковый робот его там искать не будет.
  2. Название и расширение файла robots.txt должно быть набрано в нижнем регистре (маленькими) латинскими буквами.
  3. В названии файла должна быть буква S на конце (не robot.txt, как многие пишут)
  4. Часто в User-agent вместо звездочки (означает, что этот блок robots.txt адресован всем ботам) оставляют пустое поле. Это не правильно и * в этом случае обязательна
    User-agent: *
    Disallow: /
  5. В одной директиве Disallow или Allow можно прописывать только одно условие на запрет индексации директории или файла. Так нельзя:
    Disallow: /feed/ /tag/ /trackback/

    Для каждого условия нужно добавить свое Disallow:

    Disallow: /feed/
    Disallow: /tag/
    Disallow: /trackback/
  6. Довольно часто путают значения для директив и пишут:
    User-agent: /
    Disallow: Yandex

    вместо

    User-agent: Yandex
    Disallow: /
  7. Порядок следования Disallow (Allow) не важен — главное, чтобы была четкая логическая цепь
  8. Пустая директива Disallow означает то же, что «Allow: /»
  9. Нет смысла прописывать директиву sitemap под каждым User-agent, если будете указывать путь до карты сайта (читайте об этом ниже), то делайте это один раз, например, в самом конце.
  10. Директиву Host лучше писать под отдельным «User-agent: Yandex», чтобы не смущать ботов ее не поддерживающих

Мета-тег Robots — помогает закрыть дубли контента при индексации сайта

Существует еще один способ настроить (разрешить или запретить) индексацию отдельных страниц вебсайта, как для Яндекса, так и для Гугл. Причем для Google этот метод гораздо приоритетнее описанного выше. Поэтому, если нужно наверняка закрыть страницу от индексации этой поисковой системой, то данный мета-тег нужно будет прописывать в обязательном порядке.

Для этого внутри тега «HEAD» нужной вебстраницы дописывается МЕТА-тег Robots с нужными параметрами, и так повторяется для всех документов, к которым нужно применить то или иное правило (запрет или разрешение). Выглядеть это может, например, так:

<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Эта страница ....">
<title>...</title>
</head>
<body>
...

В этом случае, боты всех поисковых систем должны будут забыть об индексации этой вебстраницы (об этом говорит присутствие noindex в данном мета-теге) и анализе размещенных на ней ссылок (об этом говорит присутствие nofollow — боту запрещается переходить по ссылкам, которые он найдет в этом документе).

Существуют только две пары параметров у метатега robots: [no]index и [no]follow:

  1. Index — указывают, может ли робот проводить индексацию данного документа
  2. Follow — может ли он следовать по ссылкам, найденным в этом документе

Значения по умолчанию (когда этот мета-тег для страницы вообще не прописан) – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность обоих параметров или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

Более подробные объяснения можно найти, например, в хелпе Яндекса:

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Если используете другие плагины или другие движки сайта, то гуглите на тему прописывания для нужных страниц meta name=»robots».

Как создать правильный роботс.тхт?

Ну все, с теорией покончено и пора переходить к практике, а именно к составлению оптимальных robots.txt. Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress и др), имеется множество вспомогательных объектов не несущих никакой информативной нагрузки.

Если не запретить индексацию всего этого мусора, то время, отведенное поисковиками на индексацию вашего сайта, будет тратиться на перебор файлов движка (на предмет поиска в них информационной составляющей, т.е. контента). Но фишка в том, что в большинстве CMS контент хранится не в файликах, а в базе данных, к которой поисковым ботам никак не добраться. Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши.

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать полного или даже частичного дублирования контента (информационного содержимого). Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL).

Яндекс и Гугл, проводя индексацию, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве (машинные ресурсы стоят дорого, а посему затраты нужно минимизировать). Да, есть еще такая штука, как мета-тэг Canonical.

Замечательный инструмент для борьбы с дублями контента — поисковик просто не будет индексировать страницу, если в Canonical прописан другой урл. Например, для такой страницы https://ktonanovenkogo.ru/page/2 моего блога (страницы с пагинацией) Canonical указывает на https://ktonanovenkogo.ru и никаких проблем с дублированием тайтлов возникнуть не должно.

<link rel="canonical" href="https://ktonanovenkogo.ru/" />

Но это я отвлекся…

Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрета в robots.txt, а особенно в мета-теге, ибо в первом случае Google запрет может и проигнорировать, а вот на метатег наплевать он уже не сможет (так воспитан).

Например, в WordPress страницы с очень похожим содержимым могут попасть в индекс поисковиков, если разрешена индексация и содержимого рубрик, и содержимого архива тегов, и содержимого временных архивов. Но если с помощью описанного выше мета-тега Robots создать запрет для архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Как это сделать описано по ссылке приведенной чуть выше (на плагин ОлИнСеоПак)

Подводя итог скажу, что файл Роботс предназначен для задания глобальных правил запрета доступа в целые директории сайта, либо в файлы и папки, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов вы можете посмотреть чуть выше.

Теперь давайте рассмотрим конкретные примеры роботса, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три варианта, созданные для разных CMS, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, у всех у них будет один общий момент, и момент этот связан с поисковой системой Яндекс.

Т.к. в рунете Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, и тут нам поможет директива Host. Она в явной форме укажет этому поисковику главное зеркало вашего сайта.

Для нее советуют использовать отдельный блог User-agent, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать Host и, соответственно, ее включение в запись User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации.

Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поиска — это вещь в себе, поэтому лучше сделать так, как советуют. Но в этом случае придется продублировать в директиве User-agent: Yandex все те правила, что мы задали User-agent: *. Если вы оставите User-agent: Yandex с пустым Disallow:, то таким образом вы разрешите Яндексу заходить куда угодно и тащить все подряд в индекс.

Robots для WordPress

Не буду приводить пример файла, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают ботов Яндекса и Гугла в их прогулках по содержимому движка WordPress. Чаще всего в блогах можно встретить роботс, автоматически заполненный плагином Google XML Sitemaps.

Но, по-моему, все-таки следует помочь поиску в нелегком деле отсеивания зерен от плевел. Во-первых, на индексацию этого мусора уйдет много времени у ботов Яндекса и Гугла, и может совсем не остаться времени для добавления в индекс вебстраниц с вашими новыми статьями. Во-вторых, боты, лазящие по мусорным файлам движка, будут создавать дополнительную нагрузку на сервер вашего хоста, что не есть хорошо.

Мой вариант этого файла вы можете сами посмотреть. Он старый, давно не менялся, но я стараюсь следовать принципу «не чини то, что не ломалось», а вам уже решать: использовать его, сделать свой или еще у кого-то подсмотреть. У меня там еще запрет индексации страниц с пагинацией был прописан до недавнего времени (Disallow: */page/), но недавно я его убрал, понадеясь на Canonical, о котором писал выше.

А вообще, единственно правильного файла для WordPress, наверное, не существует. Можно, кончено же, реализовать в нем любые предпосылки, но кто сказал, что они будут правильными. Вариантов идеальных robots.txt в сети много.

Приведу две крайности:

  1. Тут можно найти мегафайлище с подробными пояснениями (символом # отделяются комментарии, которые в реальном файле лучше будет удалить):
    User-agent: * # общие правила для роботов, кроме Яндекса и Google,
     # т.к. для них правила ниже
    Disallow: /cgi-bin # папка на хостинге
    Disallow: /? # все параметры запроса на главной
    Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
    Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет,
     # правило можно удалить)
    Disallow: *?s= # поиск
    Disallow: *&s= # поиск
    Disallow: /search/ # поиск
    Disallow: /author/ # архив автора
    Disallow: /users/ # архив авторов
    Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой
     # ссылки на статью
    Disallow: */feed # все фиды
    Disallow: */rss # rss фид
    Disallow: */embed # все встраивания
    Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,
     # правило можно удалить)
    Disallow: /xmlrpc.php # файл WordPress API
    Disallow: *utm= # ссылки с utm-метками
    Disallow: *openstat= # ссылки с метками openstat
    Allow: */uploads # открываем папку с файлами uploads
    
    User-agent: GoogleBot # правила для Google (комментарии не дублирую)
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /wp-
    Disallow: /wp/
    Disallow: *?s=
    Disallow: *&s=
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: */wlwmanifest.xml
    Disallow: /xmlrpc.php
    Disallow: *utm=
    Disallow: *openstat=
    Allow: */uploads
    Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
    Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета)
    Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.
    Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS
    
    User-agent: Yandex # правила для Яндекса (комментарии не дублирую)
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /wp-
    Disallow: /wp/
    Disallow: *?s=
    Disallow: *&s=
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: */wlwmanifest.xml
    Disallow: /xmlrpc.php
    Allow: */uploads
    Allow: /*/*.js
    Allow: /*/*.css
    Allow: /wp-*.png
    Allow: /wp-*.jpg
    Allow: /wp-*.jpeg
    Allow: /wp-*.gif
    Allow: /wp-admin/admin-ajax.php
    Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать
     # от индексирования, а удалять параметры меток,
     # Google такие правила не поддерживает
    Clean-Param: openstat # аналогично
    
    # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent
    # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
    Sitemap: http://site.ru/sitemap.xml
    Sitemap: http://site.ru/sitemap.xml.gz
    
    # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS
    # то пишем протокол, если нужно указать порт, указываем). Команду Host понимает
    # Яндекс и Mail.RU, Google не учитывает.
    Host: www.site.ru
    
  2. А вот тут можно взять на вооружение пример минимализма:
    User-agent: *
    
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php
    Host: https://site.ru
    Sitemap: https://site.ru/sitemap.xml

Истина, наверное, лежит где-то посредине. Еще не забудьте прописать мета-тег Robots для «лишних» страниц, например, с помощью чудесного плагина — All in One SEO Pack. Он же поможет и Canonical настроить.

Правильный robots.txt для Joomla

Рекомендованный файл для Джумлы 3 выглядит так (живет он в файле robots.txt.dist корневой папки движка):

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

В принципе, здесь практически все учтено и работает он хорошо. Единственное, в него следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало для Яндекса, а так же указать путь к файлу Sitemap.

Поэтому в окончательном виде правильный robots для Joomla, по-моему мнению, должен выглядеть так:

User-agent: Yandex
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /component/tags*
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Host: vash_sait.ru (или www.vash_sait.ru)

 User-agent: *
 Allow: /*.css?*$
 Allow: /*.js?*$
 Allow: /*.jpg?*$
 Allow: /*.png?*$
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Sitemap: http://путь к вашей карте XML формата 

Да, еще обратите внимание, что во втором варианте есть директивы Allow, разрешающие индексацию стилей, скриптов и картинок. Написано это специально для Гугла, ибо его Googlebot иногда ругается, что в роботсе запрещена индексация этих файлов, например, из папки с используемой темой оформления. Даже грозится за это понижать в ранжировании.

Поэтому заранее все это дело разрешаем индексировать с помощью Allow. То же самое, кстати, и в примере файла для Вордпресс было.

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Что такое robots.txt [Основы для новичков]

Успешная индексация нового сайта зависит от многих слагаемых. Один из них — файл robots.txt, с правильным заполнением которого должен быть знаком любой начинающий веб-мастер. Обновили материал для новичков.

Подробно о правилах составления файла в полном руководстве «Как составить robots.txt самостоятельно».

А в этом материале основы для начинающих, которые хотят быть в курсе профессиональных терминов.

Что такое robots.txt


Файл robots.txt — это документ в формате .txt, содержащий инструкции по индексации конкретного сайта для поисковых ботов. Он указывает поисковикам, какие страницы веб-ресурса стоит проиндексировать, а какие не нужно допустить к индексации. 

Поисковый робот, придя к вам на сайт, первым делом пытается отыскать robots.txt. Если робот не нашел файл или он составлен неправильно, бот будет изучать сайт по своему собственному усмотрению. Далеко не факт, что он начнет с тех страниц, которые нужно вводить в поиск в первую очередь (новые статьи, обзоры, фотоотчеты и так далее). Индексация нового сайта может затянуться. Поэтому веб-мастеру нужно вовремя позаботиться о создании правильного файла robots.txt.

На некоторых конструкторах сайтов файл формируется сам. Например, Wix автоматически создает robots.txt. Чтобы посмотреть файл, добавьте к домену «/robots.txt». Если вы увидите там странные элементы типа «noflashhtml» и «backhtml», не пугайтесь: они относятся к структуре сайтов на платформе и не влияют на отношение поисковых систем.

Зачем нужен robots.txt

Казалось бы, зачем запрещать индексировать какое-то содержимое сайта? Далеко не весь контент, из которого состоит сайт, нужен поисковым роботам. Есть системные файлы, есть дубликаты страниц, есть рубрики ключевых слов и много чего еще есть, что вовсе не обязательно индексировать. Есть одно но:

Содержимое файла robots.txt — это рекомендации для ботов, а не жесткие правила. Рекомендации боты могут проигнорировать.

Google предупреждает, что через robots.txt нельзя заблокировать страницы для показа в Google. Даже если вы закроете доступ к странице в robots.txt, если на какой-то другой странице будет ссылка на эту, она может попасть в индекс. Лучше использовать и ограничения в robots, и другие методы запрета:

Запрет индексирования сайта, Яндекс
Блокировка индексирования, Google

Тем не менее, без robots.txt больше вероятность, что информация, которая должна быть скрыта, попадет в выдачу, а это бывает чревато раскрытием персональных данных и другими проблемами.

Из чего состоит robots.txt

Файл должен называться только «robots.txt» строчными буквами и никак иначе. Его размещают в корневом каталоге — https://site.com/robots.txt в единственном экземпляре. В ответ на запрос он должен отдавать HTTP-код со статусом 200 ОК. Вес файла не должен превышать 32 КБ. Это максимум, который будет воспринимать Яндекс, для Google robots может весить до 500 КБ.

Внутри все должно быть на латинице, все русские названия нужно перевести с помощью любого Punycode-конвертера. Каждый префикс URL нужно писать на отдельной строке.

В robots.txt с помощью специальных терминов прописываются директивы (команды или инструкции). Кратко о директивах для поисковых ботах:

«Us-agent:» — основная директива robots.txt

Используется для конкретизации поискового робота, которому будут давать указания. Например, User-agent: Googlebot или User-agent: Yandex.

В файле robots.txt можно обратиться ко всем остальным поисковым системам сразу. Команда в этом случае будет выглядеть так: User-agent: *. Под специальным символом «*» принято понимать «любой текст».

После основной директивы «User-agent:» следуют конкретные команды.

Команда «Disallow:» — запрет индексации в robots.txt

При помощи этой команды поисковому роботу можно запретить индексировать веб-ресурс целиком или какую-то его часть. Все зависит от того, какое расширение у нее будет. 

User-agent: Yandex
Disallow: /

Такого рода запись в файле robots.txt означает, что поисковому роботу Яндекса вообще не позволено индексировать данный сайт, так как запрещающий знак «/» не сопровождается какими-то уточнениями.

User-agent: Yandex
Disallow: /wp-admin

На этот раз уточнения имеются и касаются они системной папки wp-admin в CMS WordPress. То есть индексирующему роботу рекомендовано отказаться от индексации всей этой папки.

Команда «Allow:» — разрешение индексации в robots.txt

Антипод предыдущей директивы. При помощи тех же самых уточняющих элементов, но используя данную команду в файле robots.txt, можно разрешить индексирующему роботу вносить нужные вам элементы сайта в поисковую базу. 

User-agent: *
Allow: /catalog 
Disallow: /

Разрешено сканировать все, что начинается с «/catalog», а все остальное запрещено.

На практике «Allow:» используется не так уж и часто. В ней нет надобности, поскольку она применяется автоматически. В  robots «разрешено все, что не запрещено». Владельцу сайта достаточно воспользоваться директивой «Disallow:», запретив к индексации какое-то содержимое, а весь остальной контент ресурса воспринимается поисковым роботом как доступный для индексации.

Директива «Sitemap:» — указание на карту сайта

«Sitemap:» указывает индексирующему роботу правильный путь к так Карте сайта — файлам sitemap.xml и sitemap.xml.gz в случае с CMS WordPress.

User-agent: *
Sitemap: http://pr-cy.ru/sitemap.xml
Sitemap: http://pr-cy.ru/sitemap.xml.gz

Прописывание команды в файле robots.txt поможет поисковому роботу быстрее проиндексировать Карту сайта. Это ускорит процесс попадания страниц ресурса в выдачу.

Файл robots.txt готов — что дальше

Итак, вы создали текстовый документ robots.txt с учетом особенностей вашего сайта. Его можно сделать автоматически, к примеру, с помощью нашего инструмента.

Что делать дальше:

  • проверить корректность созданного документа, например, посредством сервиса Яндекса;
  • при помощи FTP-клиента закачать готовый файл в корневую папку своего сайта. В ситуации с WordPress речь обычно идет о системной папке Public_html.

Дальше остается только ждать, когда появятся поисковые роботы, изучат ваш robots.txt, а после возьмутся за индексацию вашего сайта.

Как посмотреть robots.txt чужого сайта

Если вам интересно сперва посмотреть на готовые примеры файла robots.txt в исполнении других, то нет ничего проще. Для этого в адресной строке браузера достаточно ввести site.ru/robots.txt. Вместо «site.ru» — название интересующего вас ресурса.

Правильный Robots.txt для WordPress

Загрузка…

Оригинал статьи в блоге Дениса Биштейнова https://seogio.ru/robots-txt-dlya-wordpress/

Ниже привожу короткий и расширенный вариант. Короткий не включает отдельные блоки для Google и Яндекса. Расширенный уже менее актуален, т.к. теперь нет принципиальных особенностей между двумя крупными поисковиками: обеим системам нужно индексировать файлы скриптов и изображений, обе не поддерживают директиву Host. Тем не менее, если в этом мире снова что-то изменится, либо вам потребуется все-таки как-то по-отдельному управлять индексацией файлов на сайте Яндексом и Гугл, сохраню в этой статье и второй вариант.

Еще раз обращаю внимание, что это базовый файл robots.txt. В каждом конкретном случае нужно смотреть реальный сайт и по-необходимости вносить корректировки. Поручайте это дело опытным специалистам!

Короткий вариант (оптимальный)

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=          # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.ru

Расширенный вариант (отдельные правила для Google и Яндекса)

User-agent: *               # общие правила для роботов, кроме Яндекса и Google, 
                            # т.к. для них правила ниже
Disallow: /cgi-bin          # папка на хостинге
Disallow: /?                # все параметры запроса на главной
Disallow: /wp-              # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: /wp/              # если есть подкаталог /wp/, где установлена CMS (если нет, 
                            # правило можно удалить)
Disallow: *?s=              # поиск
Disallow: *&s=          # поиск
Disallow: /search/          # поиск
Disallow: /author/          # архив автора
Disallow: /users/           # архив авторов
Disallow: */trackback       # трекбеки, уведомления в комментариях о появлении открытой 
                            # ссылки на статью
Disallow: */feed            # все фиды
Disallow: */rss             # rss фид
Disallow: */embed           # все встраивания
Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете, 
                            # правило можно удалить)
Disallow: /xmlrpc.php       # файл WordPress API
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Allow: */uploads            # открываем папку с файлами uploads

Disallow: /*attachment*     
Disallow: /cart             # для WooCommerce
Disallow: /checkout         # для WooCommerce
Disallow: *?filter*         # для WooCommerce
Disallow: *?add-to-cart*    # для WooCommerce
Clean-param: add-to-cart    # для WooCommerce

User-agent: GoogleBot       # правила для Google (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: /*/*.js              # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
Allow: /*/*.css             # открываем css-файлы внутри /wp- (/*/ - для приоритета)
Allow: /wp-*.png            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpg            # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.jpeg           # картинки в плагинах, cache папке и т.д.
Allow: /wp-*.gif            # картинки в плагинах, cache папке и т.д.
Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS

User-agent: Yandex          # правила для Яндекса (комментарии не дублирую)
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: */wlwmanifest.xml
Disallow: /xmlrpc.php
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать 
                            # от индексирования, а удалять параметры меток, 
                            # Google такие правила не поддерживает
Clean-Param: openstat       # аналогично

# Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent 
# не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.ru

В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает).

Ошибочные рекомендации

  1. Использовать правила только для User-agent: *
    Для многих поисковых систем не требуется индексация JS и CSS для улучшения ранжирования, кроме того, для менее значимых роботов вы можете настроить большее значение Crawl-Delay и снизить за их счет нагрузку на ваш сайт.
  2. Прописывание Sitemap после каждого User-agent
    Это делать не нужно. Один sitemap должен быть указан один раз в любом месте файла robots.txt
  3. Закрыть папки wp-content, wp-includes, cache, plugins, themes
    Это устаревшие требования. Для Яндекса и Google лучше будет их вообще не закрывать. Или закрывать «по умному», как это описано выше.
  4. Закрывать страницы тегов и категорий
    Если ваш сайт действительно имеет такую структуру, что на этих страницах контент дублируется и в них нет особой ценности, то лучше закрыть. Однако нередко продвижение ресурса осуществляется в том числе за счет страниц категорий и тегирования. В этом случае можно потерять часть трафика
  5. Закрывать от индексации страницы пагинации /page/
    Это делать не нужно. Для таких страниц настраивается тег rel="canonical", таким образом, такие страницы тоже посещаются роботом и на них учитываются расположенные товары/статьи, а также учитывается внутренняя ссылочная масса.
  6. Прописать Crawl-Delay
    Модное правило. Однако его нужно указывать только тогда, когда действительно есть необходимость ограничить посещение роботами вашего сайта. Если сайт небольшой и посещения не создают значительной нагрузки на сервер, то ограничивать время «чтобы было» будет не самой разумной затеей.
  7. Ляпы
    Некоторые правила я могу отнести только к категории «блогер не подумал». Например: Disallow: /20 — по такому правилу не только закроете все архивы, но и заодно все статьи о 20 способах или 200 советах, как сделать мир лучше.

Спорные рекомендации

  1. Комментарии
    Некоторые ребята советуют закрывать от индексирования комментарии Disallow: /comments и Disallow: */comment-*.
  2. Открыть папку uploads только для Googlebot-Image и YandexImages
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/
     
    Совет достаточно сомнительный, т.к. для ранжирования страницы необходима информация о том, какие изображения и файлы размещены на ней.

UPD: Нашёл статью Prevent robots crawling “add-to-cart” links on WooCommerce (Не давайте роботам обходить ссылки WooCommerce “добавить в корзину”) в которой наглядно показывается результат закрытия ссылок с параметром ?add-to-cart=. Но Яндекс всё равно продолжает индексировать эти ссылки. Нашёл в справке Яндекса, как можно их закрывать — через директиву Clean-param (https://yandex.ru/support/webmaster/robot-workings/clean-param.html). Поэтому добавил в robots.txt эту директиву.

Поделиться

Поделиться

Отправить

Вотсапнуть

Твитнуть

Пользовательский агент: * Запретить: / * / business / search / Disallow: / * / парковка Disallow: / * / парковка / Запретить: / * / search / Запрещение: / * / system / * Запретить: / * / info / contactus / email-the-ceo / Запретить: / * / c / p / Disallow: / de / aboutsamsung / внутренний круг-2017 / Disallow: / ru / * поиск Запретить: / ru / cdm / * Disallow: / uk / * productcompare Запретить: / uk / wdc / * Запрещено: / us / дилер / * Запретить: / us / epp / * Запретить: / us / support / service / agent / * Запретить: / us / business / search / Запретить: / us / api / Disallow: / us / trade-in / program-нарушение / Запретить: / sg / ab / * Запрещение: / * /? Bvstate * Запретить: / * / _ jcr_content / * Запретить: / * / galaxy-s10-buy-test / * Запретить: / * / connected-living / content-library / * Запретить: / se / info / privacy / officecctv / Disallow: / au / referral / рекомендованный друг / Запретить: / * / common / review / Запрещение: / * / edm / Запретить: / au / email / Запретить: / au / emailtest / Запретить: / * / testhome / Запретить: / * / home_gnb / Запретить: / * / home_hq / Запретить: / * / home_3rd / Запретить: / * / home_notag / Запретить: / * / home_75 / Запретить: / * / home_50 / Запретить: / * / home_25 / Запретить: / * / speedtest / * Запретить: / us / smartphones / all-smartphones / * Запретить: / us / smartphones / galaxy-s / * Запретить: / us / smartphones / galaxy-note / * Запретить: / us / smartphones / galaxy-z / * Запретить: / us / smartphones / galaxy-a / * Disallow: / us / tablet / all-tablet / * Disallow: / us / tablet / galaxy-book / * Запретить: / us / tablet / galaxy-tab-s / * Запретить: / us / tablet / galaxy-tab-a / * Запрещено: / us / tablet / others / * Запретить: / us / watch / all-watch / * Запретить: / us / часы / galaxy-watch / * Запретить: / us / часы / galaxy-fit / * Запретить: / us / часы / galaxy-watch-active / * Запретить: / us / audio-sound / akg-наушники / * Запретить: / us / audio-sound / all-audio-sound / * Запретить: / us / audio-sound / galaxy-buds / * Запрещено: / us / business / new / * User-agent: Яндекс Разрешать: / Запретить: / ru / cdm / * Чистый параметр: utm Чистый параметр: cid Чистый параметр: bvstate Чистый параметр: bvroute Чистый параметр: самид Параметр очистки: __BVSUBMISSIONPARAMETERS __ & bvdisplaycode Чистый параметр: dclid Чистый параметр: frommarket Чистый параметр: руководство Чистый параметр: _escaped_fragment_ Чистый параметр: adobe_mc_sdid Clean-param: поиск Чистый параметр: значение поиска Чистый параметр: нм Чистый параметр: 0utm_00000000content Clean-param: действие Чистый параметр: adobe_mc_ref Чистый параметр: AID Чистые параметры: ampampampamp Чистые параметры: ampamp Чистый параметр: yclid Чистый параметр: amp Чистый параметр: at_preview_token Чистый параметр: awc Чистый параметр: bvaction Чистый параметр: cjevent Чистый параметр: clid Чистый параметр: clr Clean-param: электрический Clean-param: электронная почта Clean-param: эвкид Clean-param: от Чистый параметр: gbraid Чистый параметр: gclsrc Чистый параметр: hcb Clean-param: ключевое слово Чистый параметр: mdid Clean-param: продавец Clean-param: msk Чистый параметр: нм Чистый параметр: nw Чистый параметр: offerId Чистый параметр: oTyp Clean-param: page Clean-param: product1 Чистый параметр: productId Clean-param: продукция Чистый параметр: q Чистый параметр: ref Чистый параметр: refx Clean-param: ru_paid_ppc_yandex_none_ecommerce_smartbanner-cross-2019-ecom_pla_none_remarketingfrom Чистый параметр: sa Чистый параметр: сегмент Clean-param: выставочный зал Чистый параметр: siteCode Чистый параметр: smartphonesawc Параметры очистки: soundbar-q-seriesmdid Чистый параметр: spm Clean-param: состояние Чистый параметр: тег Чистый параметр: trade-inmdid Чистый параметр: twclid Чистый параметр: uhd Чистый параметр: utmn_term Чистый параметр: zarsrc Чистый параметр: pid Чистый параметр: id Чистый параметр: lang Чистый параметр: корневой путь Clean-param: якорь Чистый параметр: uid Clean-param: источник Чистый параметр: вкладка Clean-param: тип Clean-param: модель Clean-param: locale Disallow: / africa_en / Запретить: / africa_fr / Запретить: / africa_pt / Запретить: / al / Запретить: / ar / Запретить: / au / Disallow: / at / Запретить: / ba / Запретить: / be / Запретить: / be_fr / Запретить: / br / Запретить: / bg / Запретить: / ca / Запретить: / ca_fr / Запретить: / cl / Запрещать: / cn / Запретить: / co / Запрещение: / час / Disallow: / cz / Запретить: / dk / Запретить: / eg / Disallow: / ee / Запретить: / fr / Запретить: / de / Disallow: / gr / Запрещение: / hk / Disallow: / hk_en / Запретить: / hu / Запрещать: / в / Запретить: / id / Disallow: / iran / Запретить: / ie / Запретить: / il / Disallow: / it / Запрещение: / сек / Запрещение: / lv / Запрещено: / levant / Запретить: / levant_ar / Запрещение: / lt / Запретить: / my / Запрещение: / mx / Запрещение: / мм / Запрещение: / nl / Запретить: / nz / Запретить: / n_africa / Запрещение: / нет / Запрещать: / pk / Запрещено: / латинский / Запрещено: / latin_en / Запретить: / py / Запретить: / pe / Запретить: / ph / Запретить: / ps / Запретить: / pt / Запретить: / ro / Запретить: / sa / Запретить: / sa_en / Запретить: / rs / Запретить: / sg / Запретить: / sk / Запретить: / si / Запретить: / za / Запретить: / es / Запретить: / se / Запретить: / ch / Запретить: / ch_fr / Запретить: / tw / Запретить: / th / Запретить: / ae / Запретить: / ae_ar / Запретить: / uk / Запретить: / uy / Запретить: / us / Disallow: / vn / Запретить: / bd / Пользовательский агент: Sitereport Разрешить: / ru * Запретить: / #DaumWebMasterTool: 4d08be0d0bd15c674e8ef34874ed14afbb8693a24e1a91f1cf630b03f6b02300: wLHQFbkWgWsLISzjhU4qLA == # Файлы Sitemap Карта сайта: https: // www.samsung.com/sitemap.xml Карта сайта: https: //www.samsung.com/africa_en/sitemap.xml Карта сайта: https: //www.samsung.com/africa_fr/sitemap.xml Карта сайта: https: //www.samsung.com/africa_pt/sitemap.xml Карта сайта: https: //www.samsung.com/al/sitemap.xml Карта сайта: https: //www.samsung.com/ar/sitemap.xml Карта сайта: https: //www.samsung.com/au/sitemap.xml Карта сайта: https: //www.samsung.com/at/sitemap.xml Карта сайта: https: //www.samsung.com/az/sitemap.xml Карта сайта: https: //www.samsung.com/ba/sitemap.xml Карта сайта: https: //www.samsung.com/bd/sitemap.xml Карта сайта: https: //www.samsung.com/be/sitemap.xml Карта сайта: https: //www.samsung.com/be_fr/sitemap.xml Карта сайта: https: //www.samsung.com/br/sitemap.xml Карта сайта: https: //www.samsung.com/bg/sitemap.xml Карта сайта: https: //www.samsung.com/ca/sitemap.xml Карта сайта: https: //www.samsung.com/ca_fr/sitemap.xml Карта сайта: https: //www.samsung.com/cl/sitemap.xml Карта сайта: https: //www.samsung.com/cn/sitemap.xml Карта сайта: https: //www.samsung.com/co/sitemap.xml Карта сайта: https: //www.samsung.com/hr/sitemap.xml Карта сайта: https: //www.samsung.ru / cz / sitemap.xml Карта сайта: https: //www.samsung.com/dk/sitemap.xml Карта сайта: https: //www.samsung.com/eg/sitemap.xml Карта сайта: https: //www.samsung.com/ee/sitemap.xml Карта сайта: https: //www.samsung.com/fi/sitemap.xml Карта сайта: https: //www.samsung.com/fr/sitemap.xml Карта сайта: https: //www.samsung.com/de/sitemap.xml Карта сайта: https: //www.samsung.com/gr/sitemap.xml Карта сайта: https: //www.samsung.com/hk/sitemap.xml Карта сайта: https: //www.samsung.com/hk_en/sitemap.xml Карта сайта: https: //www.samsung.com/hu/sitemap.xml Карта сайта: https: // www.samsung.com/in/sitemap.xml Карта сайта: https: //www.samsung.com/id/sitemap.xml Карта сайта: https: //www.samsung.com/iran/sitemap.xml Карта сайта: https: //www.samsung.com/ie/sitemap.xml Карта сайта: https: //www.samsung.com/il/sitemap.xml Карта сайта: https: //www.samsung.com/it/sitemap.xml Карта сайта: https: //www.samsung.com/kz_kz/sitemap.xml Карта сайта: https: //www.samsung.com/kz_ru/sitemap.xml Карта сайта: https: //www.samsung.com/sec/sitemap.xml Карта сайта: https: //www.samsung.com/lv/sitemap.xml Карта сайта: https: //www.samsung.com/levant/sitemap.xml Карта сайта: https: //www.samsung.com/levant_ar/sitemap.xml Карта сайта: https: //www.samsung.com/lt/sitemap.xml Карта сайта: https: //www.samsung.com/my/sitemap.xml Карта сайта: https: //www.samsung.com/mx/sitemap.xml Карта сайта: https: //www.samsung.com/mm/sitemap.xml Карта сайта: https: //www.samsung.com/mk/sitemap.xml Карта сайта: https: //www.samsung.com/nl/sitemap.xml Карта сайта: https: //www.samsung.com/nz/sitemap.xml Карта сайта: https: //www.samsung.com/n_africa/sitemap.xml Карта сайта: https: //www.samsung.com/no/sitemap.xml Карта сайта: https: // www.samsung.com/pk/sitemap.xml Карта сайта: https: //www.samsung.com/latin/sitemap.xml Карта сайта: https: //www.samsung.com/latin_en/sitemap.xml Карта сайта: https: //www.samsung.com/py/sitemap.xml Карта сайта: https: //www.samsung.com/pe/sitemap.xml Карта сайта: https: //www.samsung.com/ph/sitemap.xml Карта сайта: https: //www.samsung.com/pl/sitemap.xml Карта сайта: https: //www.samsung.com/ps/sitemap.xml Карта сайта: https: //www.samsung.com/pt/sitemap.xml Карта сайта: https: //www.samsung.com/ro/sitemap.xml Карта сайта: https: //www.samsung.com/ru/sitemap.xml Карта сайта: https: //www.samsung.com/sa/sitemap.xml Карта сайта: https: //www.samsung.com/sa_en/sitemap.xml Карта сайта: https: //www.samsung.com/rs/sitemap.xml Карта сайта: https: //www.samsung.com/sg/sitemap.xml Карта сайта: https: //www.samsung.com/sk/sitemap.xml Карта сайта: https: //www.samsung.com/si/sitemap.xml Карта сайта: https: //www.samsung.com/za/sitemap.xml Карта сайта: https: //www.samsung.com/es/sitemap.xml Карта сайта: https: //www.samsung.com/se/sitemap.xml Карта сайта: https: //www.samsung.com/ch/sitemap.xml Карта сайта: https: //www.samsung.ru / ch_fr / sitemap.xml Карта сайта: https: //www.samsung.com/tw/sitemap.xml Карта сайта: https: //www.samsung.com/th/sitemap.xml Карта сайта: https: //www.samsung.com/tr/sitemap.xml Карта сайта: https: //www.samsung.com/ae/sitemap.xml Карта сайта: https: //www.samsung.com/ae_ar/sitemap.xml Карта сайта: https: //www.samsung.com/uk/sitemap.xml Карта сайта: https: //www.samsung.com/ua/sitemap.xml Карта сайта: https: //www.samsung.com/uy/sitemap.xml Карта сайта: https: //www.samsung.com/us/sitemap.xml Карта сайта: https: //www.samsung.com/us/es/sitemap.xml Карта сайта: https: // www.samsung.com/uz_uz/sitemap.xml Карта сайта: https: //www.samsung.com/uz_ru/sitemap.xml Карта сайта: https: //www.samsung.com/vn/sitemap.xml Хост: www.samsung.com

¿Debo bloquear el Bot Yandex?

Aunque estoy de acuerdo con la respuesta de @deviantfan, me gustaría comparegar eso, ya que su pregunta inicial suena como la ruta al infierno que vi a alguien que se fue hace unos años, incluso si intenta bloquear una araña. Para simplemente decirle que desaparezca a través de robots.txt (que вероятноmente deberías hacer por las partes de administrador de todos modos), terminarás en un juego infminable de whackamole que no puedes ganar.

Hace unos años, alguien en otro sitio que leí install hablando sobre cómo Google / Microsoft / Yandex / etc eran todos «DDOSing» en su sitio web. Aparentemente el sitio era «privado, y solo algunos de sus amigos deberían tener acceso, y no debería aparecer en ningún motor de búsqueda». Sin embargo, al parecer, al menos uno de sus usuarios createda publicando enlaces a ubicaciones internas que las diversas arañas web install encontrando.(A Diferencia de ellos, solo saben sobre www.whatever.tld de los registros DNS).

Персона, которая находится в архиве robots.txt, включает в себя простой архивный архив у себя фуэра, эпоху неприемлемой. Necesitaban ignorar su sitio para siempre y nunca volver a tocarlo bajo ninguna circunstancia. (Nunca dio una explicación razonable de por qué esta era la única opción приемлемо. Como aparentemente, install haciendo algo alpecto de quien installa publicando объединяет ubicaciones internas en su sitio que las arañas simple aconutementendo, простое соответствие se vieran a una página de inicio de sesión de contenido libre.)

En su lugar, acaba de comenzar a poner en una lista negra todas las direcciones IP de las arañas web para que los intentos de solicitud se agoten sin respuesta. Una vez que hizo eso, descubrió que, en lugar de seguir un solo enlace para obtener el archivo robots.txt y desaparecer por un período de tiempo, las arañas tenían intervalos de reintentos mucho más cortos cuando cometieron errores y comenzaron a suites numerosos IP отличается. (Presumiblemente las arañas que intentan enrutar lo que supusieron fue un error de red).

Este fue el punto en el que su lista negra de IP explotó en miles de direcciones y comenzó a despotricar acerca de que los motores de búsqueda lo installan controlando. Lamentablemente, la persona se había vuelto loca en ese momento y rechazó todos los intentos de resolver su проблема реальная ан lugar de lo que installedcido de que era la solución correa.

Руководство для специалистов по поисковой оптимизации Robots.txt — SALT.agency®

Файл robots.txt является обычным явлением в любом стандартном техническом SEO-аудите, а файл robots.Стандарт txt дает веб-мастерам возможность контролировать, какие роботы (пользовательские агенты) могут сканировать их веб-сайты, частично или полностью.

Это простой файл .txt, который чаще всего находится через расширение URI /robots.txt; например salt.agency/robots.txt

Файл robots.txt действует как привратник веб-сайта для поисковых роботов, таких как Googlebot, и может использоваться для определения набора правил для определенных пользовательских агентов или общего правила для всех пользовательских агентов. Например:

 Пользовательский агент: *
Запретить: /
 

Цель этой статьи — рассказать, что такое robots.txt, как создать допустимые команды (директивы) в файле .txt, а затем как запретить сканирование URI на основе подстановочных знаков текстовой строки.

Форматирование Robots.txt

Файл robots.txt по состоянию на сентябрь 2019 года содержит три директивы (имена полей). Это:

  • Пользовательский агент
  • Запретить
  • Разрешить

Синтаксис для формирования действительного файла robots.txt прост: после каждой команды (или директивы) вы добавляете двоеточие, за которым следует атрибут, к которому вы хотите применить директиву.Для User-agent это можно указать для конкретного user-agent, такого как Googlebot или Bingbot, а также для URI-путей полей Disallow и Allow, например / wp-admin /

Важная синтаксическая формальность, на которую следует обратить внимание, заключается в том, что, хотя имена полей чувствительны к регистру, атрибуты — нет, поэтому, если вы хотите исключить / wp-admin /, вы не можете помещать / WP-Admin / в файл .txt.

Агент пользователя

User-agent — это поле, в котором указывается пользовательский агент, который вы хотите указать. Они также известны как боты, пауки или краулеры.Его синтаксис:

 Агент пользователя: (атрибут) 

Атрибут может быть подстановочным знаком, установленным для применения ко всем пользовательским агентам, как в примере в начале сообщения, или, если вы хотите указать конкретный пользовательский агент, вы можете использовать AgentName в качестве атрибута.

Каждый пользовательский агент имеет свой собственный идентификатор, но наиболее распространенными из них являются:

Пользовательский агент: Googlebot Укажите поисковый агент Google
Агент пользователя: AhrefsBot Укажите гусеничный робот Ahref
Пользовательский агент: Bingbot Укажите пользовательский агент поиска Bing
Агент пользователя: DuckDuckBot Укажите поисковый агент пользователя DuckDuckGo
Пользовательский агент: ЯндексБот Укажите поисковый агент Яндекса

Google использует несколько пользовательских агентов для различных служб и опубликовал полный список.

Запретить и разрешить

Disallow — это директива, используемая для предотвращения сканирования пользовательскими агентами определенных частей сайта. Разрешить, напротив, можно использовать, чтобы разрешить пользовательским агентам сканировать определенные URI, даже если вы блокируете путь к папке с помощью Disallow.

Запретить

Синтаксис

Disallow соответствует тому же шаблону именования, что и User-agent: (атрибут). Однако распространенная ошибка, сделанная в файлах robots.txt (особенно на нестандартных веб-сайтах), заключается в том, что не указан атрибут:

 Пользовательский агент: *
Disallow: 

Без значения это ничего не исключает, поэтому для блокировки всего сайта вы должны указать:

 Запрещено: / 

Или, альтернативно, если вы хотите заблокировать сканирование определенных частей для веб-сайта, вы бы поместили что-то вроде:

 Пользовательский агент: *
Запретить: / wp-admin /
Disallow: / checkout /
Запрещено: / cart /
Disallow: / user-account / 

Комментарии в robots.txt

Файлы

Robots.txt — это живые документы и несколько веб-мастеров (особенно на корпоративных платформах с несколькими командами, работающими над разными разделами), поэтому возможность добавлять к ним комментарии может быть очень полезной. Чтобы добавить строку комментария, начните ее с символа #.

Хорошим примером этого на практике является собственный файл robots.txt от Google, который содержит запись:

 # Некоторые сайты социальных сетей занесены в белый список, чтобы сканеры могли получать доступ к разметке страницы при ссылках на Google.com / imgres * являются общими. Чтобы узнать больше, свяжитесь с [адрес электронной почты защищен]
Пользовательский агент: Twitterbot
Разрешить: / imgres 

Это также хорошее использование Allow в качестве директивы в дикой природе, так как также в файле robots.txt есть директива, инструктирующая все пользовательские агенты не сканировать путь к файлу / imgres, но для Twitter были сделаны особые исключения. бот.

Расширенное сопоставление с образцом

Помимо возможности блокировать целые папки и точные пути URI, файл robots.txt также может использоваться с сопоставлением с образцом для более сложных задач с помощью функции подстановочных знаков, это символ *.

Это может использоваться несколькими способами для пользовательских агентов:

 # Запретить всем ботам сканировать подпапку изображений
Пользовательский агент: *
Disallow: / images / 

и

 # Запретить всем ботам сканировать разбивку по категориям блога
Пользовательский агент: *
Запретить: / blog / * / page / 

Это означает, что пути URI, такие как / blog / category-name / page / 3, будут заблокированы от сканирования, без необходимости указывать каждую категорию и каждую разбивку на страницы.

Примеры подстановочных знаков

Блокировка типов файлов

 Пользовательский агент: *
Запретить: *.js $
Запрещено: * .css $
Disallow: * .json $ 

При блокировании типов файлов важно не вести блог о файлах CSS или JS, так как это вызовет проблемы для Google при отображении вашей страницы.

Блокировка всех URL-адресов параметров

 Пользовательский агент: *
Disallow: / *? 

Это может быть полезно, особенно если на вашем веб-сайте электронной коммерции много фасетной навигации и реализовать nofollow в фильтрах не сразу (хотя я бы сделал это на большинстве сайтов Salesforce CC в стандартной комплектации, чтобы ограничить любое потенциальное раздувание индекса).

Блокировка определенных параметров

 Пользовательский агент: *
Disallow: / * prefn *
Disallow: / * prefv *
Disallow: / * pmin *
Запрещение: / * pmax * 

Точно так же вы можете не захотеть блокировать все параметры, поэтому, если вы знаете идентификатор параметра, вы можете заблокировать их, заключив их в * подстановочные знаки *.

Блокировка страниц результатов поиска

 Пользовательский агент: *
Запретить: / search? Q = * 

Это может быть полезно в зависимости от вашей платформы / функции внутреннего поиска, но не рекомендуется, если вы используете функцию внутреннего поиска для создания целевых страниц.

Функция задержки сканирования

Crawl-delay по-прежнему присутствует в ряде файлов robots.txt и используется по умолчанию на таких платформах, как Shopify. Однако, поскольку это не официальная директива, разные поисковые системы (и пользовательские агенты) обрабатывают ее по-разному.

 Пользовательский агент: *
Задержка сканирования: 10 

Google игнорирует это, как и Baidu. Bing, однако, рассматривает его как временное окно, в течение которого он может сканировать сайт один раз, то есть один раз каждые X секунд, и Яндекс уважает это.

Если задержка сканирования необходима из-за чрезмерной активности ботов Bing и Яндекс, вам необходимо учитывать, как длительная задержка сканирования может повлиять на веб-сайт, поскольку она может ограничить объем сканирования вашего веб-сайта (а мы знаем, что веб-сайты не сканируются) t проползли целиком одним прыжком).

По доверенности, это может отрицательно сказаться на обнаружении нового контента и производительности обычного поиска.

Подтверждения и заблуждения

Существует ряд неправильных представлений о файле robots.txt, и, как показывает опыт, они, как правило, связаны с тем, что является «подходящим» для данной работы, а что — нет.

Пример 1

 Запретить: / widgets * 

Это рассматривается как эквивалент / widgets, а завершающий подстановочный знак игнорируется.

Итак, это соответствует и будет запрещать:

  • / виджеты
  • / виджеты.HTML
  • / виджеты / синий /
  • /widgets/blue.html
  • / widgets-and-thingamabobs
  • / widgets-and-thingamabobs / зеленый
  • /widgets.php
  • /widgets.php?filter=big-ones

И, напротив, не совпадает:

  • / Виджеты
  • /Widgets.php
  • / что такое виджет
  • / products? Filter = widgets

Итак, потенциальные проблемы уже могут быть, вы хотели также запретить подпапку / widgets-and-thingamabobs? Чтобы запретить только подпапку виджетов и последующие папки, вы должны использовать:

 Запретить: / widgets / 

Или, если вы хотите заблокировать эту конкретную подпапку, но разрешить сканирование таких URI, как / widgets / purple /, используйте модификатор $:

 Disallow: / widgets / 
долларов США

Поскольку $ указывает директиву для завершения URI на этом месте.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *