Файл роботс тхт для яндекс: Использование файла robots.txt — Вебмастер. Справка

Содержание

Что такое robots.txt и как его настроить

Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.

По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге. 

Что такое robots.txt

Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации. 

Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта /robots.txt и вы увидите его.

Зачем нам нужен этот файл

Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:

  • дубли страниц;
  • служебные файлы;
  • файлы, которые бесполезны для посетителей;
  • страницы с неуникальным контентом.

Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано. 

Настройка директивов robots.txt

Директивы — это правила для роботов. И эти правила пишем мы. 

User-agent

Главное правило называется User-agent. В нем мы создаем кодовое слово для роботов. Если робот видит такое слово, он понимает, что это правило для него. 

Пример:


User-agent: Yandex

Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:


User-agent: *

Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.

Disallow и Allow

С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow, даем разрешение на индексацию.

Пример:


Allow: /category/

Даем рекомендацию, чтобы индексировались категории. 


Disallow: /

А вот так от индексации будет закрыт весь сайт.

Также существуют операторы, которые помогают уточнить наши правила.

  • * звездочка означает любую последовательность символов (либо отсутствие символов).
  • $ – знак доллара является своеобразной точкой, которая прерывает последовательность символов.

Disallow: /category/$ # закрываем только страницу категорий

Disallow: /category/* # закрываем все страницы в папке категории

Sitemap

Данная директива нужна для того, чтобы сориентировать робота, если он заплутает. Мы показываем роботу дорогу к Sitemap.

Пример:


Sitemap: http://site.ru/sitemap.xml

Директива host

уже устарела, поэтому о ней говорить не будем. 

Crawl-delay

Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.

Пример:


Crawl-delay: 10 

Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.

Clean-param

Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы. 

Пример:


Clean-Param: utm_source&utm_medium&utm_campaign

Как закрыть сайт от индексации

Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:


User-agent: *

Disallow: /

Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.

Проверка файла robots

Есть потрясающий инструмент, который позволит вам включиться в творческую работу с директивами и прописать правильный robots.txt – инструмент от Яндекс.Вебмастера.

Переходим в инструмент, вводим домен и содержимое вашего файла.

Нажимаем «Проверить» и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.

Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.

Вводим список адресов, которые нас интересуют, и нажимаем «Проверить». Инструмент сообщит нам, разрешены ли для индексации данные адреса страниц, а в столбце «Результат» будет видно, почему страница индексируется или не индексируется. 

Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.

Правильный robots.txt для WordPress

Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами. 


User-agent: *

Disallow: /cgi-bin # папка на хостинге

Disallow: /wp-admin

Disallow: /wp-includes 

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-json/ # Все служебные файлы можно закрыть другим образом: Disallow: /wp-

Disallow: /xmlrpc.php # файл WordPress API

Disallow: /*? # поиск

Disallow: /?s= # поиск

Allow: /*.css # стили

Allow: /*.js # скрипты

Sitemap: https://site.ru/sitemap.xml # путь к карте сайта (надо прописать свой сайт)

Правильный robots.txt для Joomla


User-agent: *

Disallow: /administrator/ 

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

Sitemap: https://site.ru/sitemap.xml

Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.

Правильно настроенный файл robots.txt способен оказать позитивное влияние на продвижение сайта. Если вы хотите избавиться от мусора и навести порядок на сайте, файл robots.txt готов прийти на помощь.

правила составления и основные директивы

Эффективная оптимизация сайта неизбежно включает в себя создание и правильную настройку файла robots.txt. Создать этот файл можно в обычном «блокноте», а для того, чтобы он начал использоваться, его нужно поместить в корневую папку сайта (туда же, где расположен файл index.php). Этот файл содержит в себе перечень инструкций, или директив, которыми будут пользоваться поисковые роботы. Это не значит, что в случае отсутствия файла роботс они не станут индексировать ваш сайт – это значит, что при наличии такого файла они будут делать это гораздо более эффективно и быстро.

Это важно по многим причинам. Во-первых, задав роботам определенные правила взаимодействия с вашим порталом, вы уменьшите нагрузку на свой сервер, создаваемую из-за их работы. Во-вторых, вы сможете задать перечень файлов, страниц и разделов, к которым роботы не будут обращаться в принципе. И, наконец, в-третьих, вы сможете оптимизировать индексацию страниц вашего сайта.

Основные директивы файла robots.txt

Существует несколько основных директив, которые должен содержать файл роботс, и от которых непосредственно зависит, каким образом поисковые системы и роботы будут взаимодействовать с вашим сайтом:

  • User-agent. Эта директива говорит о том, инструкции для каких роботов будут следовать за ней. Это может быть робот Mail.Ru, StackRambler, Bingbot, любой из многочисленных роботов Яндекса(YandexBot, YandexDirect, YandexMetrika, YandexImages, YandexNews и так далее), любой из многочисленных роботов Google (Googlebot, Mediapartners, AdsBot-Google, Googlebot-Image, GoogleBot-Video и так далее). Юзер агент – ключевая директива, без которой все, что следует дальше, не будет иметь какого-либо смысла.

  • Disallow. Главное назначение этой директивы заключается в том, чтобы закрыть определенные файлы, страницы или даже разделы сайта от индексирования поисковыми роботами. Это самая востребованная директива, только из-за возможности пользоваться которой многие вебмастера в принципе заводят файл robots.txt. При указании адресов файлов, страниц, групп страниц и разделов, которые не должны индексироваться, можно использовать дополнительные символы. Так, «*» предполагает любое количество символов (включая нулевое) и по умолчанию подразумевается в конце каждой строки. А знак «$» говорит о том, что предшествующий символ был последним.

  • Allow. Это гораздо менее популярная директива, которая формально разрешает роботу заниматься индексацией того или иного раздела. Не востребована она потому, что поисковики в принципе имеют свойство индексировать все данные интернет-ресурса, которые теоретически могут быть полезны пользователям (за исключением тех, что прописаны под директивой Disallow).

  • Host. Такая директива позволяет задать адрес главного зеркала сайта. Отличие, как правило, заключается в наличии или отсутствии трех букв «w». Если ваш портал еще не индексировался поисковыми системами, то вы можете сами задать его зеркало. В противном случае введите адрес своего сайта, например, в Яндексе. И если в первом результате выдачи не будет «www», то это будет означать, что в главном зеркале эти три буквы есть, и наоборот. Обратите внимание на то, что эту директиву поддерживают только роботы Mail.Ru и Яндекса, а вводить ее необходимо исключительно однократно.

  • Sitemap. Эта директива должна подсказывать роботам путь к одноименному XML-файлу, в котором содержится карта индексируемых страниц, информация о датах их изменения и приоритете при просмотре и индексации.

  • Crawl-delay. С помощью такой директивы можно назначить временной интервал между теми моментами, когда поисковый робот заканчивает скачивание предыдущей страницы сайта и начинает загрузку следующей. Измеряется этот временной интервал в секундах. Директива Crawl delay применяется для того, чтобы сократить нагрузку на сайт со стороны поисковых роботов и избежать неполадок в работе сервера. Не рекомендуется сразу начинать с больших значений (например, с Crawl-delay 2), лучше вводить задержки продолжительностью в десятые доли секунды и, при необходимости, постепенно их удлинять. При этом более продолжительные временные интервалы можно использовать для менее важных роботов (Yahoo, Bing, Mail.Ru), а для Яндекса лучше делать их минимальными. Роботы Google игнорируют эту директиву.

  • Clean param. Это директива, способная существенно рационализировать прохождение поискового робота по сайту. С помощью Clean param вы можете описать динамические составляющие URL, не оказывающие никакого влияния на содержимое страницы. Это идентификаторы пользователей, сессий, индивидуальные префиксы и другие части подобного плана. Указание их в Clean param даст поисковому роботу понять, что он уже загружал этот материал (только с другими динамическими элементами, не меняющими содержание), и скачивать его повторно он не будет. Это очень полезная директива, которая, тем не менее, используется владельцами сайтов не так часто, как стоило бы. Поэтому если вы хотите сделать взаимодействие своего портала с роботами как можно более эффективным – не забудьте указать в файле роботс Clean param.

Какие бы директивы вы ни прописывали, будь то Crawl-Delay, Clean param, Disallow или что-либо еще, крайне желательно снабжать их комментариями (под символом «#», текст после которого робот не читает). В противном случае даже вы сами через полгода можете не вспомнить, почему, например, закрыли от индексации ту или иную страницу, а уж если за дело возьмется другой человек – то ему и подавно будет сложно в этом разобраться. Тем временем, спустя какое-то время в файле, вполне возможно, понадобится что-то изменить, поэтому лучше бы сохранить возможность беспроблемно в нем ориентироваться.

Ключевые правила настройки файла robots.txt

Необязательно самостоятельно создавать файл robots.txt: Яндекс, Google и другие поисковые системы смогут довольно эффективно использовать на вашем сайте своих роботов, даже если вы скачаете шаблонный вариант этого файла. Однако если вы хотите, чтобы их работа была наиболее оптимизированной, быстрой и результативной, стоит все же позаботиться о самостоятельной настройке файла роботс. При этом стоит учесть следующие ключевые правила:

  • Все страницы, связанные с администрированием сайта, личными кабинетами, процедурами регистрации-авторизации, оформлением заказов, а также технические дубли страниц и служебные разделы должны быть закрыты от индексирования. Это касается всех поисковых систем, будь то User-agent Yandex bot, или, например, User-agent Mail.Ru.

  • Имеет смысл также закрыть от индексации json- и ajax-скрипты, папку cgi, страницы с параметрами сессий и UTM-меток, сортировки, фильтров, сравнения.

  • Чтобы убедиться, что вы сделали подходящие настройки robots.txt, можно воспользоваться соответствующими инструментами систем Яндекс и Google.

  • Спустя полмесяца после добавления новых страниц на сайт и включения их в директиву Disallow имеет смысл проверить через поисковые системы, не были ли они проиндексированы. Если да – то потребуется пересмотреть и откорректировать настройки.

Файл robots.txt дает возможность оптимизировать работу сайта с поисковыми роботами, которая доступна даже при отсутствии глубоких узкоспециализированных знаний. Главное – правильно настроить этот файл и периодически проверять, корректно ли он считывается роботами Google, Яндекса и других поисковых систем. 

Материал подготовила Светлана Сирвида-Льорентэ.

Файл robots.txt: полное руководство | SEO-портал

Стандарт robots.txt отличается оригинальным синтаксисом. Существуют общие для всех роботов директивы (правила), а также директивы, понятные только роботам определенных поисковых систем.

Стандартные директивы

Директивами для robots.txt называются правила, состоящие из названия и значения (параметра), идущего после знака двоеточия. Например:

# Директива User-agent со значением Yandex:
User-agent: Yandex

Регистр символов в названиях директив не учитывается.

Для большинства директив стандарта в качестве значения применяется URL-префикс (часть URL-адреса). Например:

User-agent: Yandex
# URL-префикс в качестве значения:
Disallow: /admin/

Регистр символов учитывается роботами при обработке URL-префиксов.

Директива User-agent

Правило User-agent указывает, для каких роботов составлены следующие под ним инструкции.

Значения User-agent

В качестве значения директивы User-agent указывается конкретный тип робота или символ *. Например:

# Последовательность инструкций для робота YandexBot:
User-agent: YandexBot
Disallow: /

Основные типы роботов, указываемые в User-agent:

Yandex
Подразумевает всех роботов Яндекса.
YandexBot
Основной индексирующий робот Яндекса
YandexImages
Робот Яндекса, индексирующий изображения.
YandexMedia
Робот Яндекса, индексирующий видео и другие мультимедийные данные.
Google
Подразумевает всех роботов Google.
Googlebot
Основной индексирующий робот Google.
Googlebot-Image
Робот Google, индексирующий изображения.

Регистр символов в значениях директивы User-agent не учитывается.

Обработка User-agent

Чтобы указать, что нижеперечисленные инструкции составлены для всех типов роботов, в качестве значения директивы User-agent применяется символ * (звездочка). Например:

# Последовательность инструкций для всех роботов:
User-agent: *
Disallow: /

Перед каждым последующим набором правил для определённых роботов, которые начинаются с директивы User-agent, следует вставлять пустую строку.

User-agent: *
Disallow: /

User-agent: Yandex
Allow: /

При этом нельзя допускать наличия пустых строк между инструкциями для конкретных роботов, идущими после User-agent:

# Нужно:
User-agent: *
Disallow: /administrator/
Disallow: /files/

# Нельзя:
User-agent: *
Disallow: /administrator/

Disallow: /files/

Обязательно следует помнить, что при указании инструкций для конкретного робота, остальные инструкции будут им игнорироваться:

# Инструкции для робота YandexImages:
User-agent: YandexImages
Disallow: /
Allow: /images/

# Инструкции для всех роботов Яндекса, кроме YandexImages
User-agent: Yandex
Disallow: /images/

# Инструкции для всех роботов, кроме роботов Яндекса
User-agent: *
Disallow:
Директива Disallow

Правило Disallow применяется для составления исключающих инструкций (запретов) для роботов. В качестве значения директивы указывается URL-префикс. Первый символ / (косая черта) задает начало относительного URL-адреса. Например:

# Запрет сканирования всего сайта:
User-agent: *
Disallow: /

# Запрет сканирования конкретной директории:
User-agent: *
Disallow: /images/

# Запрет сканирования всех URL-адресов, начинающихся с /images:
User-agent: *
Disallow: /images

Применение директивы Disallow без значения равносильно отсутствию правила:

# Разрешение сканирования всего сайта:
User-agent: *
Disallow:
Директива Allow

Правило Allow разрешает доступ и применяется для добавления исключений по отношению к правилам Disallow. Например:

# Запрет сканирования директории, кроме одной её поддиректории:
User-agent: *
Disallow: /images/ # запрет сканирования директории
Allow: /images/icons/ # добавление исключения из правила Disallow для поддиректории

При равных значениях приоритет имеет директива Allow:

User-agent: *
Disallow: /images/ # запрет доступа
Allow: /images/ # отмена запрета
Директива Sitemap

Добавить ссылку на файл Sitemap в можно с помощью одноименной директивы.

В качестве значения директивы Sitemap в указывается прямой (с указанием протокола) URL-адрес карты сайта:

User-agent: *
Disallow:

# Директив Sitemap может быть несколько: 
Sitemap: https://seoportal.net/sitemap-1.xml
Sitemap: https://seoportal.net/sitemap-2.xml

Директива Sitemap является межсекционной и может размещаться в любом месте robots.txt. Удобнее всего размещать её в конце файла, отделяя пустой строкой.

Следует учитывать, что robots.txt является общедоступным, и благодаря директиве Sitemap злоумышленники могут получить доступ к новым страницам раньше поисковых роботов, что может повлечь за собой воровство контента.

Использование директивы Sitemap в robots.txt может повлечь воровство контента сайта.

Регулярные выражения

В robots.txt могут применяться специальные регулярные выражения в URL-префиксах с помощью символов * и $.

Символ /

Символ / (косая черта) является разделителем URL-префиксов, отражая степень вложенности страниц. Важно понимать, что URL-префикс с символом / на конце и аналогичный префикс, но без косой черты, поисковые роботы могут воспринимать как разные страницы:

# разные запреты:
Disallow: /catalog/ # запрет для вложенных URL (/catalog/1), но не для /catalog
Disallow: /catalog  # запрет для /catalog и всех URL, начинающихся с /catalog, в том числе:
	# /catalog1
	# /catalog1
	# /catalog1/2
Символ *

Символ * (звездочка) предполагает любую последовательность символов. Он неявно приписывается к концу каждого URL-префикса директив Disallow и Allow:

User-agent: Googlebot
Disallow: /catalog/  # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/* # то же самое

Символ * может применяться в любом месте URL-префикса:

User-agent: Googlebot
Disallow: /*catalog/ # запрещает все URL-адреса, содержащие "/catalog/":
	# /1catalog/
	# /necatalog/1
	# images/catalog/1
	# /catalog/page.htm
	# и др.
	# но не /catalog
Символ $

Символ $ (знак доллара) применяется для отмены неявного символа * в окончаниях URL-префиксов:

User-agent: Google
Disallow: /*catalog/$
	# запрещает все URL-адреса, заканчивающиеся символами "catalog/":
	# /1/catalog/
	# но не:
	# /necatalog/1
	# /necatalog
	# /catalog

Символ $ (доллар) не отменяет явный символ * в окончаниях URL-префиксов:

User-agent: Googlebot
Disallow: /catalog/* # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/*$ # то же самое
# Но:
Disallow: /catalog/ # запрет всех URL-адресов, начинающихся с "/catalog/"
Disallow: /catalog/$ # запрет только URL-адреса "/catalog/"

Директивы Яндекса

Роботы Яндекса способны понимать три специальных директивы:

  • Host (устарела),
  • Crawl-delay,
  • Clean-param.
Директива Host

Директива Host является устаревшей и в настоящее время не учитывается. Вместо неё необходимо настраивать редирект на страницы главного зеркала.

Директива Crawl-delay

Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Яндекс.Помощь

Правило Crawl-delay следует размещать в группу правил, которая начинается с директивы User-Agent, но после стандартных для всех роботов директив Disallow и Allow:

User-agent: *
Disallow:
Crawl-delay: 1 # задержка между посещениями страниц 1 секунда

В качестве значений Crawl-delay могут использоваться дробные числа:

User-agent: *
Disallow:
Crawl-delay: 2.5 # задержка между посещениями страниц 2.5 секунд

Директива Clean-param

Директива Clean-param помогает роботу Яндекса верно определить страницу для индексации, URL-адрес которой может содержать различные параметры, не влияющие на смысловое содержание страницы.

Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.

Яндекс.Помощь

В качестве значения правила Clean-param указывается параметр и URL-префикс адресов, для которых не следует учитывать данный параметр. Параметр и URL-префикс должны быть разделены пробелом:

User-agent: *
Disallow:
# Указывает на отсутствие значимости параметра id в URL-адресе с index.htm
# (например, в адресе seoportal.net/index.htm?id=1 параметр id не станет учитываться,
# а в индекс, вероятно, попадёт страница с URL-адресом seoportal.net/index.htm): 
Clean-param: id index.htm

Для указания 2-х и более незначительных параметров в одном правиле Clean-param применяется символ &:

User-agent: *
Disallow:
# Указывает на отсутствие значимости параметров id и num в URL-адресе с index.htm
Clean-param: id&num index.htm

Директива Clean-param может быть указана в любом месте robots.txt. Все указанные правила Clean-param будут учтены роботом Яндекса:

 User-agent: *
Allow: /
# Для разных страниц с одинаковыми параметрами в URL-адресах: 
Clean-param: id index
Clean-param: id admin

Файл Robots txt - настройка, как создать и проверить: пример robots txt на сайте, директивы

Текстовый файл, записывающий специальные инструкции для поискового робота, ограничивающие доступ к содержимому на http сервере, находящийся в корневой директории веб-сайта и имеющий путь относительно имени самого сайта (/robots.txt ).

Robots.txt - как создать правильный файл robots.txt

Файл robots.txt позволяет управлять индексацией вашего сайта. Закрыть какой-либо раздел можно директивой disallow, открыть - allow. Проверка и анализ robots.txt.

Выгрузить в xls, файл, индексация, сайт, директива, яндекс, настройка, запрет, проверка, пример, генератор, анализ, страница, правильный, закрыть, создать, добавить, проверить, задать, запретить, сделать, robots, txt, host, закрытый, где, disallow

Robots.txt — текстовый файл, содержащий инструкции для поисковых роботов, как нужно индексировать сайт.

Почему важно создавать файл robots.txt для сайта

В 2011 году случилось сразу несколько громких скандалов, связанных с нахождением в поиске Яндекса нежелательной информации.

Сначала в выдаче Яндекса оказалось более 8 тысяч SMS-сообщений, отправленных пользователями через сайт компании «МегаФон». В результатах поиска отображались тексты сообщений и телефонные номера, на которые они были отправлены.

Заместитель генерального директора «МегаФона» Валерий Ермаков заявил, что причиной публичного доступа к данным могло стать наличие у клиентов «Яндекс.Бара», который считывал информацию и отправлял поисковому роботу Яндекса.

У Яндекса было другое объяснение:

«Еще раз можем подтвердить, что страницы с SMS с сайта МегаФона были публично доступны всем поисковым системам... Ответственность за размещение информации в открытом доступе лежит на том, кто её разместил или не защитил должным образом...

Особо хотим отметить, что никакие сервисы Яндекса не виноваты в утечке данных с сайта МегаФона. Ни Яндекс.Бар, ни Яндекс.Метрика не скачивают содержимое веб-страниц. Если страница закрыта для индексации в файле robots.txt или защищена логином и паролем, то она недоступна и поисковым роботам, то есть информация, размещенная на ней, никогда не окажется в какой-либо поисковой системе».

Вскоре после этого пользователи нашли в Яндексе несколько тысяч страниц со статусами заказов в онлайн-магазинах книг, игр, секс-товаров и т.д. По ссылкам с результатов поиска можно было увидеть ФИО, адрес и контактные данные клиента магазина, IP-адрес, наименование его покупки, дату и время заказа. И снова причиной утечки стал некорректно составленный (или вообще отсутствующий) файл robots.txt.

Чтобы не оказаться в подобных ситуациях, лучше заранее составить правильный robots.txt файл для сайта. Как сделать robots.txt в соответствии с рекомендациями поисковых систем, расскажем ниже.

Как создать robots.txt для сайта

Настройка robots.txt начинается с создания текстового файла с именем «robots.txt». После заполнения этот файл нужно будет сохранить в корневом каталоге сайта, поэтому лучше заранее проверить, есть ли к нему доступ.

Основные директивы robots.txt

В простейшем файле robots.txt используются следующие директивы:

  • User-agent
  • Disallow
  • Allow

Директива User-agent

Здесь указываются роботы, которые должны следовать указанным инструкциям. Например, User-agent: Yandex означает, что команды будут распространяться на всех роботов Яндекса. User-agent: YandexBot – только на основного индексирующего робота. Если в данном пункте мы поставим *, правило будет распространяться на всех роботов.

Директива Disallow

Эта команда сообщает роботу user-agent, какие URL не нужно сканировать. При составлении файла robots.txt важно помнить, что эта директива будет относиться только к тем роботам, которые были перед этим указаны в директиве user-agent. Если подразумеваются разные запреты для разных роботов, то в файле нужно указать отдельно каждого робота и директиву disallow для него.

Как закрыть части сайта с помощью директивы Disallow:

  • Если нужно закрыть от сканирования весь сайт, необходимо использовать косую черту (/): Disallow: /
  • Если нужно закрыть от сканирования каталог со всем его содержимым, необходимо ввести его название и косую черту в конце: Disallow: /events/
  • Если нужно закрыть страницу, необходимо указать название страницы после косой черты: Disallow: /file.html

Директива Allow

Разрешает роботу сканировать сайт или отдельные URL.

В примере ниже robots.txt запрещает роботам Яндекса сканировать весь сайт за исключением страниц, начинающихся с «events»:

User-agent: Yandex

Allow: /events

Disallow: /

Спецсимволы в директивах

Для директив Allow и Disallow используются спецсимволы «*» и «$».

  • Звездочка (*) подразумевает собой любую последовательность символов. Например, если нужно закрыть подкаталоги, начинающиеся с определенных символов: Disallow: /example*/
  • По умолчанию символ * ставится в конце каждой строки. Если нужно закончить строку определенным символом, используется спецсимвол $. Например, если нужно закрыть URL, заканчивающиеся на doc: Disallow: /*.doc$
  • Спецсимвол # используется для написания комментариев и не учитывается роботами.

Дополнительные директивы robots.txt

Директива Host

Директива Host в robots.txt используется, чтобы указать роботу на главное зеркало сайта.

Пример:

https://www.glavnoye-zerkalo.ru является главным зеркалом сайта, и для всех сайтов из группы зеркал необходимо прописать в robots.txt:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: https://www.glavnoye-zerkalo.ru

Правила использования директивы Host:

  • В файле robots.txt может быть только одна директива Host. Робот всегда ориентируется на первую директиву, даже если их указано несколько.
  • Если зеркало доступно по защищенному каналу, нужно добавить протокол HTTPS,
  • Должно быть указано одно доменное имя и номер порта в случае необходимости.

Если директива Host прописана неправильно, роботы ее проигнорируют.

Директива Crawl-delay

Директива Crawl-delay задает для робота промежуток времени, с которым он должен загружать страницы. Пригодится в случае сильной нагрузки на сервер.

Например, если нужно задать промежуток в 3 секунды между загрузкой страниц:

User-agent: *

Disallow: /search

Crawl-delay: 3

Директива Clean-param

Пригодится для сайтов, страницы которых содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий). Директива позволяет роботам не перезагружать дублирующуюся информацию, что положительно сказывается на нагрузке на сервер.

Использование кириллицы

При составлении файла robots.txt нельзя использовать кириллические символы. Допускается использование Punycode для доменов.

Как проверить robots.txt

Для проверки файла robots.txt можно использовать Яндекс.Вебмастер (Анализ robots.txt) или Google Search Console (Инструмент проверки файла Robots.txt).

Как добавить файл robots.txt на сайт

Как только файл robots.txt написан и проверен, его нужно сохранить в виде текстового файла с названием robots.txt и загрузить в каталог верхнего уровня сайта или в корневой каталог.

Как создать правильный robots.txt для Google, Яндекс и других поисковых систем | by Ruslan Fatkhutdinov

Если робот Google уже нашел какие-либо параметры на сайте, то вы увидите список этих параметров в таблице и сможете посмотреть примеры таких страниц.

Рассмотрев основные директивы для работы с файлом robots.txt перейдем к составлению robots.txt для сайта.

Во-первых, мы не рекомендуем брать и в слепую использовать шаблонные robots.txt, которые можно найти в интернете, так как они просто не могут учитывать всех тонкостей работы вашего сайта.

1. Первым делом добавим в robots.txt три User-Agent с одной пустой строкой между каждой директивой

User-agent: Yandex

User-agent: Googlebot

User-agent: *

Третий User-Agent добавляется по причине того, что для роботов каждой поисковой системы наборы директив будут различаться.

2. Каждому User-agent’у рекомендуется добавить директивы запрета индексации самых распространенных форматов документов

Disallow: /*.pdf

Disallow: /*.xls

Disallow: /*.doc

Disallow: /*.ppt

Disallow: /*.txt

Документы закрываются от индексации по той причине, что они могут «перетянуть» на себя релевантность и попадать в выдачу вместо продвигаемых целевых страниц.

Даже если сейчас на вашем сайте пока нет документов в вышеперечисленных форматах, рекомендуем не удалять эти строки, а оставить их на перспективу.

3. Каждому User-agent’у добавляем директиву разрешения индексации JS и CSS файлов

Allow: /*/<папка содержащая css>/*.css

Allow: /*/<папка содержащая js>/*.js

JS и CSS файлы открываются для индексации, так как часто они находятся в каталогах системных папок, но они требуются для правильного индексирования сайта роботами поисковых систем.

4. Каждому User-agent’у добавляем директиву разрешения индексации самых распространенных форматов изображений

Allow: /*/<папка содержащая медиа файлы>/*.jpg

Allow: /*/<папка содержащая медиа файлы>/*.jpeg

Allow: /*/<папка содержащая медиа файлы>/*.png

Allow: /*/<папка содержащая медиа файлы>/*.gif

Картинки открываем для исключения возможности случайного запрета их для индексации.

Так же как и с документами, если сейчас у вас на сайте нет графических изображений в каком-либо из перечисленных форматах, все равно лучше оставить эти строки.

5. Для User-agent’а Yandex добавляем директиву удаления меток отслеживания, чтобы исключить возможность появления дублей страниц в индексе поисковых систем

Clean-param: utm_source&utm_medium&utm_term&utm_content&utm_campaign&yclid&gclid&_openstat&from /

6. Эти же параметры закрываем в GSC в разделе «Параметры URL»

Внимание! Если закрыть от индексации роботами Google метки при помощи директивы запрета, есть вероятность того, что вы не сможете запустить на такие страницы рекламу в Google Adwords.

7. Для User-agent’а «*» закрываем метки отслеживания стандартной директивой запрета

Disallow: /*utm

Disallow: /*clid=

Disallow: /*openstat

Disallow: /*from

8. Далее задача закрыть от индексации все служебные документы, документы бесполезные для поиска и дубли других страниц. Директивы запрета копируются для каждого User-agent’а. Пример таких страниц:

  • Администраторская часть сайта
  • Персональные разделы пользователей
  • Корзины и этапы оформления
  • Фильтры и сортировки в каталогах

9. Последней директивой для User-agent’а Yandex указывается главное зеркало

Host: site.ru

10. Последней директивой, после всех директив, через пустую строку указываются директивы xml-карт сайта, если таковые используются на сайте

Sitemap: http://site.ru/sitemap.xml

После всех манипуляций должен получится готовый файл robots.txt, который можно использовать на сайте.

Шаблон, который можно взять за основу при составлении robots.txt

User-agent: Yandex

# Наиболее часто встречаемые расширения документов

Disallow: /*.pdf

Disallow: /*.xls

Disallow: /*.doc

Disallow: /*.ppt

Disallow: /*.txt

# Требуется для правильно обработки ПС

Allow: /*/<папка содержащая css>/*.css

Allow: /*/<папка содержащая js>/*.js

# Картинки

Allow: /*/<папка содержащая медиа файлы>/*.jpg

Allow: /*/<папка содержащая медиа файлы>/*.jpeg

Allow: /*/<папка содержащая медиа файлы>/*.png

Allow: /*/<папка содержащая медиа файлы>/*.gif

# Наиболее часто встречаемые метки для отслеживания рекламы

Clean-param: utm_source&utm_medium&utm_term&utm_content&utm_campaign&yclid&gclid&_openstat&from /

# При наличии фильтров и параметров добавляем и их в Clean-param

Host: site.ru

User-agent: Googlebot

Disallow: /*.pdf

Disallow: /*.xls

Disallow: /*.doc

Disallow: /*.ppt

Disallow: /*.txt

Allow: /*/<папка содержащая css>/*.css

Allow: /*/<папка содержащая js>/*.js

Allow: /*/<папка содержащая медиа файлы>/*.jpg

Allow: /*/<папка содержащая медиа файлы>/*.jpeg

Allow: /*/<папка содержащая медиа файлы>/*.png

Allow: /*/<папка содержащая медиа файлы>/*.gif

# У google метки, фильтры и параметры закрываются в GSC-Сканирование-Параметры URL

User-agent: *

# Метки, фильтры и параметры для других ПС закрываем по классическому стандарту

Disallow: /*utm

Disallow: /*clid=

Disallow: /*openstat

Disallow: /*from

Disallow: /*.pdf

Disallow: /*.xls

Disallow: /*.doc

Disallow: /*.ppt

Disallow: /*.txt

Allow: /*/<папка содержащая css>/*.css

Allow: /*/<папка содержащая js>/*.js

Allow: /*/<папка содержащая медиа файлы>/*.jpg

Allow: /*/<папка содержащая медиа файлы>/*.jpeg

Allow: /*/<папка содержащая медиа файлы>/*.png

Allow: /*/<папка содержащая медиа файлы>/*.gif

Sitemap: http://site.ru/sitemap.xml

* Напомним, что в указанном шаблоне присутствует спецсимвол комментария «#», и все что находится справа от него предназначается не для роботов, а является подсказками для людей.

Важно! Когда копируете шаблон в текстовый файл, не забудьте убрать лишние пустые строки.

Пустые строки в robots.txt должны быть только:

  • Между последней директивой одного User-agent’а и следующим User-agent’ом.
  • Последней директивой последнего User-agent’а и директивой Sitemap.

Но прежде чем добавлять его на сайт, мы рекомендуем проверить его в сервисах анализа, например, для Яндекса, нет ли в нем ошибок. А заодно проверить несколько документов из каталогов, которые запрещены к индексации, и несколько документов, которые должны быть открыты для индексации, и проверить, нет ли каких-либо ошибок.

Хоть составление правильного robots.txt задача не самая сложная, но есть распространенные ошибки, которые многие допускают, и от которых мы хотим вас предупредить.

4.1. Полное закрытие сайта от индексации

User-agent: *

Disallow: /

Такая ошибка приводит к исключению всех страниц из индекса поисковых систем и полной потери поискового трафика.

4.2. Не закрытие от индексации меток отслеживания

Эта ошибка может привести к появлению большого количества дублей страниц, что негативно скажется на продвижении сайта

4.3. Неправильное зеркало сайта

User-agent: *

Host: site.ru # В то время, как правильное зеркало sub.site.ru

Скорее всего в большинстве случаев Яндекс просто проигнорирует эту директиву, но если, например, у вас есть несколько судбоменов для разных регионов, то есть вероятность того, что зеркала просто «склеятся».

Кроме файла robots.txt существует множество других способов управления индексацией сайта. Но по нашему опыту, правильный robots.txt помогает продвинуть сайт и защитить его от многих серьезных ошибок.

Надеемся, наш опыт, изложенный в данной статье, поможет вам разобраться с основными принципами составления robots.txt.

Robots.txt

Данный раздел позволяет просматривать и редактировать файл Robots.txt.

Общий вид раздела

По умолчанию в магазине создается robots.txt, закрывающий от индексации заказы магазина, дубли страниц, административную панель, другие служебные и технические страницы.

Важно: не рекомендуется изменять cтандартный robots.txt, без соответствующих знаний. Во избежание ошибок, мы рекомендуем вам обратиться к SEO-специалисту для внесения каких-либо правок в данные настройки.

По умолчанию robots.txt выглядит так:

User-agent: Yandex
Disallow: /cart_items
Disallow: /add_to_cart
Disallow: /product_by_id
Disallow: /auth
Disallow: /login
Disallow: /orders
Disallow: /client_account
Disallow: /admin
Disallow: /search
Disallow: /search_suggestions
Disallow: /bank_receipts
Disallow: /bank_ru_receipts
Disallow: /juridical_person_receipts
Disallow: /compares
Disallow: /captchas
Disallow: /ru_captcha
Disallow: *?*theme_preview
Disallow: *?*theme_preview_disable
Disallow: /*/reviews
Disallow: *?*options
Disallow: *?*characteristics
Clean-param: price_min&price_max&order&page_size
Sitemap: https://mysite.myinsales.ru/sitemap.xml

User-agent: *
Disallow: /cart_items
Disallow: /add_to_cart
Disallow: /product_by_id
Disallow: /auth
Disallow: /login
Disallow: /orders
Disallow: /client_account
Disallow: /admin
Disallow: /search
Disallow: /search_suggestions
Disallow: /bank_receipts
Disallow: /bank_ru_receipts
Disallow: /juridical_person_receipts
Disallow: /compares
Disallow: /captchas
Disallow: /ru_captcha
Disallow: *?*theme_preview
Disallow: *?*theme_preview_disable
Disallow: /*/reviews
Disallow: *?*options
Disallow: *?*characteristics
Disallow: *?*price_min
Disallow: *?*price_max
Disallow: *?*order
Disallow: *?*page_size
Sitemap: https://mysite.myinsales.ru/sitemap.xml

После добавления своего доменого имени в разделе Настройки → Домены директивы Host и Sitemap будут автоматически обновлены. Вручную изменять данные директивы после добавления домена или изменения не нужно, так как они обновляются автоматически.

Sitemap можно использовать свой, но если вы планируете использовать sitemap, автоматически формируемый платформой, то оставляйте значения директивы без изменений.

Возможно следует закрыть от индексации еще какие-либо страницы, здесь уже будет виднее SEO-специалисту.

Если не уверены что верно написали robots.txt, то у яндекса и google существуют удобные инструменты для их анализа:

http://webmaster.yandex.ru/robots.xml

https://www.google.com/webmasters/tools/robots-testing-tool

Правильная настройка robots.txt для Google и Яндекс

Основные правила настройки robots.txt

Перед тем, как приступить к настройке роботса для вашего сайта, неплохо ознакомиться с официальными рекомендациями Яндекс и Google.

Теперь о том, что должно быть в файле robots.txt. В нем необходимо создавать 3 отдельных набора директив — для Яндекс, для Google, и для остальных роботов-краулеров. Почему отдельно? Да потому что есть директивы, предназначенные только для определенных ПС, а также можете считать это неким проявлением уважения к основным поисковикам рунета 

Следовательно, роботс должен состоять из таких секций:

User-agent: *
User-agent: Yandex
User-agent: Googlebot

Между наборами директив для разных роботов необходимо оставлять пустую строку. 

В robots.txt необходимо указать путь к XML карте сайта. Директива является межсекционной, поэтому она может быть размещена в любом месте файла, однако перед ней рекомендуется вставить пустой перевод строки. Запись должна выглядеть так:

Sitemap: http://site.com/sitemap.xml

Адрес сайта и сам путь к карте необходимо заменить на те, которые являются актуальными для вашего сайта. Также следует помнить, что для сайтов с большим количеством страниц (более 50 000) необходимо создать несколько карт и все их прописать в роботсе.

Настройка robots.txt для Яндекс

Для того, чтобы наглядно показать правильную настройку директив для Яши, я возьму в качестве примера стандартный robots.txt для WordPress. 

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: */trackback
Disallow: */feed
Host: site.com

Обратите внимание на директиву Host. Она указывает пауку-роботу Яндекса, какое из зеркал сайта является главным. Наиболее распространенная группа зеркал — site.com и www.site.com. Тут есть еще один тонкий нюанс, о котором редко упоминают. Дело в том, что директива Host не является прямой командой роботам считать зеркало главным. Сначала Яндекс должен найти и идентифицировать сайты именно как зеркала, и только тогда данная директива сработает. Тем не менее, прописывать Host рекомендую в любом случае.

Проверить корректность настройки  robots.txt для Яндекса можно при помощи данного сервиса.

Настройка robots.txt для Google

Для Google настройка роботса мало чем отличается от уже написанного выше. Однако, есть пара моментов, на которые следует обратить внимание.

User-agent: Googlebot
Allow: *.css
Allow: *.js
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: */trackback
Disallow: */feed

Как видно из примера, отсутствует директива Host — она распознается исключительно ботами Яндекса. Кроме этого, появились две директивы, разрешающие индексировать JS скрипты и CSS таблицы. Это связано с рекомендацией Google, в которой говорится, что следует разрешать роботу индексировать 
файлы шаблона (темы) сайта. Естественно, скрипты и таблицы в поиск не попадут, однако это позволит роботам корректнее индексировать сайт и отображать его в результатах выдачи.

Ну а корректность настройки директив для Google вы можете проверить инструментом проверки файла robots.txt, который находится в Google Webmaster Tools.

Что еще стоит закрывать в роботсе?

Страницы поиска

Тут кое-кто может поспорить, так как бывают случаи, когда на сайте используют внутренний поиск именно для создания релевантных страниц. Однако, так поступают далеко не всегда и в большинстве случаев открытые результаты поиска могут наплодить невероятное количество дублей. Поэтому вердикт — закрыть.

Корзина и страница оформления/подтверждения заказа

Данная рекомендация актуальна для интернет-магазинов и других коммерческих сайтов, где есть форма заказа. Данные страницы ни в коем случае не должны попадать в индекс ПС.

Страницы пагинации. Обычно для таких страниц автоматически прописываются одинаковые  мета-теги плюс на них размещен динамический контент, что приводит к дублям в выдаче. Поэтому пагинацию необходимо закрывать от индексации.
Фильтры и сравнение товаров. Рекомендация относится к интернет-магазинам и сайтам-каталогам. 
Страницы регистрации и авторизации. Информация, которая вводится при регистрации или входе на сайт, является конфиденциальной. Поэтому следует избегать индексации подобных страниц, Google это оценит.
Системные каталоги и файлы. Каждый сайт состоит из множества данных — скриптов, таблиц CSS, административной части. Такие файлы следует также ограничить для просмотра роботам.
Замечу, что для выполнения некоторых из вышеописанных пунктов можно использовать и другие инструменты, например, rel=canonical, про который я позже напишу в отдельной статье.

Robots.txt для WordPress и Joomla

robots.txt для WordPress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /*?
Disallow: /author/
Disallow: /transfers.js
Disallow: /go.php
Disallow: /xmlrpc.php

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */feed
Disallow: /*?
Disallow: /author/
Disallow: /transfers.js
Disallow: /go.php
Disallow: /xmlrpc.php
Host: site.com

User-agent: Googlebot
Allow: *.css
Allow: *.js
Allow: /wp-includes/*.js
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/cache
Disallow: */trackback
Disallow: */feed
Disallow: /author/
Disallow: /transfers.js
Disallow: /go.php
Disallow: /xmlrpc.php
Disallow: /*?
Sitemap: http://site.com/sitemap.xml

Обратите внимание, что директивы Sitemap и Host в вашем роботсе нужно заменить на необходимые вам.

robots.txt для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /system/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /component/
Disallow: /*start
Disallow: /*searchword

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /system/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /component/
Disallow: /*start
Disallow: /*searchword
Host: site.com

User-agent: Googlebot
Allow: *.css
Allow: *.js
Disallow: /administrator/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /system/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Disallow: /component/
Disallow: /*start
Disallow: /*searchword
Sitemap: http://site.com/sitemap.xml

Замечу, что в наборе поисковых правил для Joomla я закрыл пагинацию страниц в разделах, а также страницу поиска по сайту. Если вам необходимы данные страницы в поиске — можете убрать из robots.txt эти две строчки:

Disallow: /*start
Disallow: /*searchword

Немного о нестандартном использовании robots.txt

С учетом написанного выше, тему правильной настройки robots.txt можно считать раскрытой, однако есть еще кое-что, о чем я бы хотел рассказать. Роботс можно с пользой применять помимо назначения и без вреда для сайта. Дело в том, что в файле можно использовать такой знак, как «#» — он обозначает комментарии, не учитываемые роботами. Данный знак действителен в пределах одной строки, там, где он используется. Его можно использовать для пометок, чтобы не забыть, что и зачем было закрыто от поисковых систем. 

Но есть и другое применение. Например, после знака комментария, вы можете разместить полезную информацию: контакты сайта, вакансию для оптимизатора, ссылку на важную информацию, и даже рекламу. Не буду заниматься плагиатом, так как идея не моя, поэтому предлагаю ознакомиться с различными вариантами на блоге Devaka. Уверен, вы будете удивлены, узнав, насколько разнообразным может быть использование роботса не по назначению.

На этом все, правильная настройка robots.txt описана в полной мере, надеюсь, вы узнали что-то новое. Если же после прочтения статьи у вас остались вопросы — задавайте их в комментариях, и я постараюсь на них ответить.

Использование robots.txt - Вебмастер. Справка

Яндекс поддерживает следующие директивы:

Директива Что он делает
User-agent * Указывает на робота, к которому применяются правила, указанные в robots.txt.
Запретить Запрещает индексирование разделов сайта или отдельных страниц.
Sitemap Указывает путь к файлу Sitemap, который размещается на сайте.
Clean-param Указывает роботу, что URL-адрес страницы содержит параметры (например, теги UTM), которые следует игнорировать при ее индексировании.
Разрешить Разрешить индексирование разделов сайта или отдельных страниц.
Задержка сканирования

Определяет минимальный интервал (в секундах) ожидания поисковым роботом после загрузки одной страницы перед началом загрузки другой.

Рекомендуем использовать настройку скорости сканирования в Яндекс.Вебмастер вместо директивы.

* Обязательная директива.

Чаще всего вам понадобятся директивы Disallow, Sitemap и Clean-param. Примеры:

  User-agent: * # указывает роботов, для которых установлены директивы.
Disallow: / bin / # запрещает ссылки из корзины покупок.
Disallow: / search / # запрещает ссылки на страницы поиска, встроенные на сайт
Disallow: / admin / # запрещает ссылки из админки
Карта сайта: http: // example.com / sitemap # указывает путь к файлу Sitemap сайта для робота.
Clean-param: ref /some_dir/get_book.pl  

Роботы из других поисковых систем и служб могут интерпретировать директивы по-другому.

Примечание. Робот учитывает регистр подстрок (имя файла или путь, имя робота) и игнорирует регистр в именах директив.

Начальное руководство по вашему Robots.txt

  1. WooRank
  2. Руководства по SEO
  3. Роботы и вы: Руководство по роботам.текст

Файл robots.txt - это простой текстовый файл, в котором указывается, должен или не должен сканер получать доступ к определенным папкам, подпапкам или страницам, а также к другой информации о вашем сайте. В файле используется стандарт исключения роботов - протокол, установленный в 1994 году для связи веб-сайтов со сканерами и другими ботами. Совершенно необходимо использовать простой текстовый файл: Создание файла robots.txt, использующий HTML или текстовый процессор, будет содержать код, который сканеры поисковых систем будут игнорировать, если не смогут прочитать.

Как это работает?

Сканеры

- это инструменты, которые анализируют ваши веб-страницы и могут использоваться для выявления проблем. Сканирование сайта WooRank делает это, чтобы помочь веб-мастерам находить и исправлять ошибки сканирования.

Когда владелец сайта хочет дать какие-то указания поисковым роботам, они помещают свой файл robots.txt в корневой каталог своего сайта, например https: // www.example.com/robots.txt. Боты, которые следуют этому протоколу, будут извлекать и читать файл перед загрузкой любого другого файла с сайта. Если на сайте нет файла robots.txt, сканер предположит, что веб-мастер не хотел давать никаких конкретных инструкций, и продолжит сканирование всего сайта.

Robots.txt состоит из двух основных частей: User-agent и директив.

Агент пользователя

User-agent - это имя паука, к которому обращаются, в то время как строки директив предоставляют инструкции для этого конкретного user-agent.Строка User-agent всегда идет перед строками директив в каждом наборе директив. Самый простой файл robots.txt выглядит так:

  Пользовательский агент: Googlebot
Запретить: /
  

Эти директивы предписывают роботу пользователя Googlebot, поисковому роботу Google, держаться подальше от всего сервера - он не будет сканировать никакие страницы на сайте. Если вы хотите дать инструкции нескольким роботам, создайте набор директив user-agent и запретите для каждого из них.

  Пользовательский агент: Googlebot
Запретить: /

Пользовательский агент: Bingbot
Запретить: /
  

Теперь и пользовательские агенты Google и Bing знают, что нужно избегать сканирования всего сайта.Если вы хотите установить одинаковые требования для всех роботов, вы можете использовать так называемый подстановочный знак, обозначенный звездочкой (*). Итак, если вы хотите разрешить всем роботам сканировать весь ваш сайт, ваш файл robots.txt должен выглядеть так:

  Агент пользователя: *
Запретить:
  

Стоит отметить, что поисковые системы будут выбирать наиболее конкретные директивы пользовательского агента, которые они могут найти. Так, например, предположим, что у вас есть четыре набора пользовательских агентов: один с использованием подстановочного знака (*), один для робота Googlebot, один для робота Googlebot-News и один для Bingbot, и ваш сайт посещает пользователь Googlebot-Images- агент.Этот бот будет следовать инструкциям для робота Googlebot, поскольку это наиболее конкретный набор директив, которые к нему применяются.

Наиболее распространенными пользовательскими агентами поисковых систем являются:

Пользовательский агент Поисковая система Поле
байдаспайдер Baidu Общие
изображение-паук Baidu Изображения
байдуспайдер-мобиль Baidu мобильный
baiduspider-news Baidu Новости
байдуспайдер-видео Baidu Видео
бингбот Bing Общий
msnbot Bing Общие
msnbot-media Bing Изображения и видео
adidxbot Bing Объявления
Googlebot Google Общий
Googlebot-Image Google Изображения
Googlebot-Mobile Google мобильный
Googlebot-News Google Новости
Googlebot-Video Google Видео
Медиапартнеры-Google Google AdSense
AdsBot-Google Google AdWords
хлеб Yahoo! Общие
яндекс Яндекс Общие

Запретить

Вторая часть роботов.txt - запрещающая строка. Эта директива сообщает паукам, какие страницы им запрещено сканировать. У вас может быть несколько запрещающих строк для каждого набора директив, но только один пользовательский агент.

Не нужно указывать значение для директивы запрета; боты интерпретируют пустое значение запрета как то, что вы ничего не запрещаете, и будут иметь доступ ко всему сайту. Как мы упоминали ранее, если вы хотите запретить доступ ко всему сайту боту (или всем ботам), используйте косую черту (/).

Вы можете получить подробную информацию с помощью директив disallow, указав определенные страницы, каталоги, подкаталоги и типы файлов.Чтобы заблокировать доступ поисковых роботов к определенной странице, используйте относительную ссылку этой страницы в запрещенной строке:

.
  Агент пользователя: *
Запретить: /directory/page.html
  

Блокировать доступ ко всем каталогам одинаково:

  Агент пользователя: *
Запретить: / folder1 /
Запретить: / folder2 /
  

Вы также можете использовать robots.txt, чтобы запретить ботам сканировать определенные типы файлов, используя подстановочный знак и тип файла в строке запрета:

  Агент пользователя: *
Запретить: / *.ppt
Запретить: /images/*.jpg
Запретить: /duplicatecontent/copy*.html
  

Хотя протокол robots.txt технически не поддерживает использование подстановочных знаков, боты поисковых систем могут их распознавать и интерпретировать. Таким образом, в приведенных выше директивах робот автоматически расширяет звездочку, чтобы она соответствовала пути имени файла. Например, он сможет определить, что www.example.com/presentations/slideshow.ppt и www.example.com/images/example.jpg запрещены, а www.example.ru / Presentations / slideshowtranscript.html - нет. Третий запрещает сканирование любого файла в каталоге / duplicatecontent /, который начинается с «copy» и заканчивается на «.html». Итак, эти страницы заблокированы:

  • /duplicatecontent/copy.html
  • /duplicatecontent/copy1.html
  • /duplicatecontent/copy2.html
  • /duplicatecontent/copy.html?id=1234

Однако он не запрещает любые экземпляры «copy.html», хранящиеся в другом каталоге или подкаталоге.

Одна проблема, с которой вы можете столкнуться с вашим файлом robots.txt, заключается в том, что некоторые URL-адреса содержат исключенные шаблоны в URL-адресах, которые мы действительно хотели бы сканировать. Из нашего предыдущего примера Disallow: /images/*.jpg , этот каталог может содержать файл с именем «description-of-.jpg.html». Эта страница не будет сканироваться, потому что она соответствует шаблону исключения. Чтобы решить эту проблему, добавьте символ доллара ($), чтобы обозначить, что он представляет собой конец строки. Это укажет сканерам поисковых систем избегать только файлов, заканчивающихся шаблоном исключения.Итак, Disallow: /images/*.jpg$ блокирует только файлы, оканчивающиеся на «.jpg», но разрешает файлы, содержащие «.jpg» в заголовке.

Разрешить

Иногда может потребоваться исключить все файлы в каталоге, кроме одного. Вы можете сделать это сложным способом, написав запрещающую строку для каждого файла, кроме того, который вы хотите просканировать. Или вы можете использовать директиву Allow. Он работает примерно так, как вы ожидаете: Добавьте строку «Разрешить» в группу директив для пользовательского агента:

  Агент пользователя: *
Разрешить: / папка / подпапка / файл.html
Запретить: / папка / подпапка /
  

Подстановочные знаки и правила сопоставления с образцом работают для директивы Allow так же, как и для Disallow.

Нестандартные директивы

Есть еще несколько директив, которые вы можете использовать в файле robots.txt, которые не всегда распознаются поисковыми системами. Один из них - это директива Host. Это признано Яндексом, самой популярной поисковой системой в России, и работает как разрешение www. Однако, поскольку кажется, что Яндекс - единственная крупная поисковая система, которая поддерживает директиву Host, мы не рекомендуем ее использовать.Лучший способ справиться с разрешением www - использовать 301 редирект.

Другая директива, поддерживаемая некоторыми поисковыми системами, - это задержка сканирования. Он определяет числовое значение, которое представляет количество секунд - линия задержки сканирования должна иметь вид crawl-delay: 15 . Yahoo !, Bing и Яндекс по-разному используют его. Yahoo! и Bing используют это значение как время ожидания между действиями сканирования, в то время как Яндекс будет использовать его как время ожидания для доступа к вашему сайту. Если у вас большой сайт, вы, вероятно, не захотите использовать эту директиву, поскольку она может серьезно ограничить количество сканируемых страниц.Однако, если у вас мало или совсем нет трафика от этих поисковых систем, вы можете использовать задержку сканирования для экономии полосы пропускания.

Вы также можете установить задержку сканирования для определенных пользовательских агентов. Например, вы можете обнаружить, что ваш сайт часто сканируется инструментами SEO, что может замедлить работу вашего сайта. Вы также можете заблокировать их все вместе, если не чувствуете, что они вам помогают.

Наконец, вы можете использовать свой файл robots.txt, чтобы сообщить поисковым системам, где найти вашу карту сайта, добавив строку Sitemap: в любом месте файла.Эта директива не зависит от пользовательского агента, поэтому боты смогут интерпретировать ее, где бы вы ее ни поместили, но лучше всего поместить ее в конце, чтобы упростить себе жизнь. Создайте новую строку карты сайта для каждой карты сайта, которая у вас есть, включая карты сайта изображений и видео или файл индекса карты сайта. Если вы предпочитаете, чтобы местоположение вашей карты сайта было недоступно для всеобщего обозрения, вы можете не указывать это и вместо этого отправлять карты сайта напрямую в поисковые системы.

Узнайте больше о том, как создать и оптимизировать карту сайта XML здесь.

Почему вы хотите?

Если сканирование, индексирование и ранжирование вашего сайта в результатах поисковых систем - это весь смысл SEO, зачем вам вообще исключать файлы с вашего сайта? Есть несколько причин, по которым вы хотите заблокировать доступ ботов к разделам вашего сайта:

  • У вас есть личные папки, подпапки или файлы на вашем сайте - просто имейте в виду, что любой может прочитать ваш файл robots.txt, поэтому выделение местоположения частного файла с помощью директивы disallow откроет его всему миру.

  • Блокируя менее важные страницы на своем сайте, вы устанавливаете приоритет бюджета сканирования ботов. Это означает, что они будут тратить больше времени на сканирование и индексирование ваших самых важных страниц.

  • Если вы получаете много трафика от других сканеров, не являющихся поисковыми системами (например, инструментов SEO), сэкономьте полосу пропускания, запретив их пользовательские агенты.

Вы также можете использовать robots.txt, чтобы поисковые системы не индексировали дублированный контент. Если вы используете параметры URL-адреса, которые приводят к тому, что ваш сайт размещает один и тот же контент на нескольких страницах, используйте подстановочные знаки, чтобы исключить эти URL-адреса:

  Агент пользователя: *
Disallow: / *?
  

Это предотвратит доступ сканеров к любым страницам, в URL которых есть вопросительные знаки, что часто является способом добавления параметров.Это особенно полезно для сайтов электронной коммерции, которые заканчиваются множеством параметров URL-адресов, вызывающих массу дублированного контента из-за фильтрации и сортировки продуктов.

Рекомендуется блокировать доступ к вашему сайту при изменении дизайна или миграции, о чем мы подробно говорили ранее. Заблокируйте доступ ко всему новому сайту, чтобы он не ассоциировался с дублирующимся контентом, что помешает его ранжированию в будущем.

Распространенные проблемы с файлом robots.txt и способы их устранения

Чтобы проверить, нет ли у вас проблем с роботами.txt, откройте Google Search Console. Проверьте отчет "Статистика сканирования", чтобы увидеть, не сильно ли снизилось количество страниц, сканируемых за день; это может указывать на проблему с вашим файлом robots.txt.

Возможно, самая большая проблема с файлами robots.txt - это случайный запрет страниц, которые вы действительно хотите сканировать. Эту информацию можно найти в отчете об ошибках сканирования GSC. Найдите страницы, которые возвращают код ответа 500. Этот код часто возвращается для страниц, заблокированных файлом robots.txt.

Проверьте все URL-адреса, которые возвращают код ошибки 500, на соответствие директивам disallow в файле robots.txt.

Некоторые другие распространенные проблемы с файлами robots.txt:

  • Случайное добавление косой черты в конце имен файлов. Даже если ваш канонический URL-адрес может включать в себя косую черту в конце, добавление его в конец строки в robots.txt приведет к тому, что боты будут интерпретировать его как каталог, а не файл, блокируя каждую страницу в папке. Дважды проверьте запрещенные строки на предмет наличия в конце косой черты, которой не должно быть.

  • Блокировка ресурсов, таких как коды CSS и JavaScript, с помощью файла robots.txt. Однако это повлияет на то, как поисковые системы будут видеть вашу страницу. Некоторое время назад Google заявил, что запрет на использование CSS и Javascript будет засчитываться против вашего SEO. Google может читать ваш код CSS и JS и использовать его, чтобы делать выводы о вашем сайте. Когда он видит такие заблокированные ресурсы, он не может правильно отобразить вашу страницу, что помешает вам достичь такого высокого рейтинга, как в противном случае.

  • Использование более одной директивы User-agent в строке.Поисковые системы игнорируют директивы, которые включают более одного пользовательского агента в строке, что может привести к неправильному сканированию вашего сайта.

  • Неправильное использование заглавных букв в именах каталогов, подкаталогов и файлов. Хотя фактические директивы, используемые в robots.txt, не чувствительны к регистру, их значения чувствительны к регистру. Таким образом, поисковые системы видят Disallow: page.html , Disallow: Page.html и Disallow: page.HTML как три отдельных файла. Если ваш файл robots.txt включает директивы для «Page.html ’, но ваш канонический URL находится в нижнем регистре, эта страница будет просканирована.

  • Использование директивы noindex. Ни Google, ни Bing не поддерживают использование noindex в файлах robots.txt.

  • Противоречие вашей карте сайта в файле robots.txt. Это наиболее вероятно, если вы используете разные инструменты для создания файлов Sitemap и robots.txt. Противоречие самому себе перед поисковиками - всегда плохая идея. К счастью, это довольно легко найти и исправить.Отправьте и просканируйте карту сайта через GSC. Он предоставит вам список ошибок, который затем вы сможете проверить в файле robots.txt, чтобы убедиться, что вы исключили его из него.

  • Запрещение страниц в вашем файле robots.txt, которые используют метатег noindex. Сканеры, которым заблокирован доступ к странице, не смогут увидеть тег noindex, который может привести к появлению вашей страницы в результатах поиска, если на нее есть ссылка с другой страницы.

С роботами тоже часто приходится бороться.txt, особенно если у вас нет технических знаний. Одно из решений - попросить кого-нибудь, кто знаком с протоколом роботов, просмотреть ваш файл на предмет синтаксических ошибок. Другой и, вероятно, лучший вариант - пойти прямо в Google для тестирования. Откройте тестер в Google Search Console, вставьте файл robots.txt и нажмите Test. Что действительно удобно, так это то, что он не только найдет ошибки в вашем файле, но и вы сможете увидеть, не разрешаете ли вы страницы, проиндексированные Google.

При создании или изменении файла robots.txt вы действительно должны тщательно протестировать его с помощью этого инструмента. Добавление файла robots.txt с ошибками может серьезно повлиять на способность вашего сайта сканироваться и индексироваться, что может привести к его выпадению из поисковых позиций. Вы даже можете заблокировать весь свой сайт, чтобы он не появлялся в результатах поиска!

Правильно ли реализован ваш файл robots.txt? Проведите аудит своего сайта с помощью WooRank, чтобы убедиться, что вы оптимизированы по более чем 70 критериям, в том числе по страницам, техническим и местным факторам.

Обманчиво важный файл, который нужен всем веб-сайтам

Файл robots.txt помогает основным поисковым системам понять, куда им разрешено переходить на вашем веб-сайте.

Но, хотя основные поисковые системы действительно поддерживают файл robots.txt, не все они могут придерживаться правил одинаково.

Ниже давайте разберемся, что такое файл robots.txt и как его использовать.

Что такое файл robots.txt?

Каждый день на ваш сайт заходят боты, также известные как роботы или пауки.Поисковые системы, такие как Google, Yahoo и Bing, отправляют этих ботов на ваш сайт, чтобы ваш контент можно было сканировать, индексировать и отображать в результатах поиска.

Боты - это хорошо, но в некоторых случаях вы не хотите, чтобы бот бегал по вашему сайту, сканируя и индексируя все. Здесь на помощь приходит файл robots.txt.

Добавляя определенные директивы в файл robots.txt, вы предписываете ботам сканировать только те страницы, которые вы хотите просканировать.

Однако важно понимать, что не каждый бот будет придерживаться правил, которые вы укажете в своем файле robots.txt файл. Google, например, не будет слушать никакие директивы, которые вы помещаете в файл о частоте сканирования.

Вам нужен файл robots.txt?

Нет, для веб-сайта файл robots.txt не требуется.

Если на ваш сайт заходит бот, а у него его нет, он просто просканирует ваш сайт и проиндексирует страницы, как обычно.

Файл robot.txt нужен только в том случае, если вы хотите иметь больший контроль над тем, что сканируется.

Некоторые преимущества наличия такового:

  • Помогите справиться с перегрузкой сервера
  • Предотвратить ненужное сканирование ботами, которые посещают страницы, которые вы не хотите, чтобы они просматривали
  • Сохранять частными определенные папки или поддомены

Может робот.txt предотвратить индексацию содержимого?

Нет, вы не можете запретить индексирование содержания и его отображение в результатах поиска с помощью файла robots.txt.

Не все роботы будут следовать инструкциям одинаково, поэтому некоторые могут индексировать контент, который вы настроили так, чтобы он не сканировался или не индексировался.

Кроме того, если контент, который вы пытаетесь предотвратить от отображения в результатах поиска, имеет внешние ссылки на него, это также заставит поисковые системы индексировать его.

Единственный способ гарантировать, что ваш контент не проиндексирован, - это добавить на страницу метатег noindex.Эта строка кода выглядит так и будет помещена в html вашей страницы.

Важно отметить, что если вы хотите, чтобы поисковые системы не индексировали страницу, вам необходимо разрешить сканирование страницы в файле robots.txt.

Где находится файл robots.txt?

Файл robots.txt всегда находится в корневом домене веб-сайта. Например, наш собственный файл можно найти по адресу https://www.hubspot.com/robots.текст.

На большинстве веб-сайтов у вас должен быть доступ к фактическому файлу, чтобы вы могли редактировать его на FTP или с помощью диспетчера файлов в CPanel вашего хоста.

На некоторых платформах CMS вы можете найти файл прямо в вашей административной области. Например, HubSpot позволяет легко настроить файл robots.txt из вашей учетной записи.

Если вы используете WordPress, доступ к файлу robots.txt можно получить в папке public_html вашего веб-сайта.

WordPress включает файл robots.txt по умолчанию с новой установкой, которая будет включать следующее:

Агент пользователя: *

Запретить: / wp-admin /

Disallow: / wp-includes /

Вышеупомянутое указывает всем ботам сканировать все части веб-сайта, кроме всего, что находится в каталогах / wp-admin / или / wp-includes /.

Но вы можете создать более надежный файл. Давайте покажем вам, как это сделать, ниже.

Использование файла Robots.txt

Может быть множество причин, по которым вы хотите настроить свой robots.txt - от управления бюджетом сканирования до блокировки сканирования и индексации разделов веб-сайта. Давайте сейчас рассмотрим несколько причин использования файла robots.txt.

1. Блокировать все гусеницы

Блокирование доступа всех поисковых роботов к вашему сайту - это не то, что вы хотели бы делать на активном веб-сайте, но это отличный вариант для веб-сайта разработки. Когда вы блокируете поисковые роботы, это помогает предотвратить отображение ваших страниц в поисковых системах, что хорошо, если ваши страницы еще не готовы к просмотру.

2. Запретить сканирование определенных страниц

Одним из наиболее распространенных и полезных способов использования файла robots.txt является ограничение доступа ботов поисковой системы к частям вашего веб-сайта. Это может помочь максимально увеличить бюджет сканирования и предотвратить попадание нежелательных страниц в результаты поиска.

Важно отметить, что то, что вы сказали боту не сканировать страницу, не означает, что она не будет проиндексирована. Если вы не хотите, чтобы страница отображалась в результатах поиска, вам необходимо добавить на страницу метатег noindex.

Пример директив файла Robots.txt

Файл robots.txt состоит из блоков строк директив. Каждая директива начинается с пользовательского агента, а затем правила для этого пользовательского агента будут помещены под ним.

Когда определенная поисковая система попадает на ваш веб-сайт, она будет искать пользовательский агент, который к ней относится, и считывать блок, который ссылается на них.

Есть несколько директив, которые вы можете использовать в своем файле. Давайте разберем их сейчас.

1. Пользовательский агент

Команда user-agent позволяет вам настроить таргетинг на определенных ботов или пауков. Например, если вы хотите настроить таргетинг только на Bing или Google, вы должны использовать эту директиву.

Хотя существуют сотни пользовательских агентов, ниже приведены примеры некоторых из наиболее распространенных опций пользовательских агентов.

Агент пользователя: Googlebot

Агент пользователя: Googlebot-Image

User-agent: Googlebot-Mobile

Агент пользователя: Googlebot-News

Пользовательский агент: Bingbot

Агент пользователя: Baiduspider

Пользовательский агент: msnbot

Пользовательский агент: slurp (Yahoo)

User-agent: яндекс

Важно отметить - пользовательские агенты чувствительны к регистру, поэтому убедитесь, что вводите их правильно.

Подстановочный пользовательский агент

Пользовательский агент с подстановочными знаками отмечен звездочкой (*) и позволяет легко применить директиву ко всем существующим пользовательским агентам. Поэтому, если вы хотите, чтобы к каждому боту применялось определенное правило, вы можете использовать этот пользовательский агент.

Агент пользователя: *

Пользовательские агенты будут следовать только тем правилам, которые наиболее близко к ним применяются.

2. Запретить

Директива disallow предписывает поисковым системам не сканировать и не получать доступ к определенным страницам или каталогам на веб-сайте.

Ниже приведены несколько примеров использования директивы disallow.

Блокировать доступ к определенной папке

В этом примере мы говорим всем ботам ничего не сканировать в каталоге / портфолио на нашем веб-сайте.

Агент пользователя: *

Disallow: / портфель

Если мы хотим, чтобы Bing не сканировал этот каталог, мы бы вместо этого добавили его так:

Пользовательский агент: Bingbot

Disallow: / портфель

Блокировать PDF или другие типы файлов

Если вы не хотите, чтобы ваш PDF-файл или файлы других типов сканировались, вам может помочь следующая директива.Мы сообщаем всем ботам, что не хотим сканировать какие-либо PDF-файлы. Знак $ в конце сообщает поисковой системе, что это конец URL-адреса.

Итак, если у меня есть файл pdf по адресу mywebsite.com/site/myimportantinfo.pdf , , поисковые системы не получат к нему доступа.

Агент пользователя: *

Disallow: * .pdf $

Для файлов PowerPoint вы можете использовать:

Агент пользователя: *

Запрещено: *.ppt $ 90 476

Лучшим вариантом может быть создание папки для вашего PDF или других файлов, а затем запретить поисковым роботам сканировать ее и не индексировать весь каталог с помощью метатега.

Блокировать доступ ко всему веб-сайту

Эта директива особенно полезна, если у вас есть веб-сайт для разработки или тестовые папки, поскольку она говорит всем ботам, чтобы они вообще не сканировали ваш сайт. Важно не забыть удалить это, когда вы запускаете свой сайт, иначе у вас возникнут проблемы с индексацией.

Агент пользователя: *

* (звездочка), которую вы видите выше, мы называем выражением "подстановочный знак". Когда мы используем звездочку, мы подразумеваем, что приведенные ниже правила должны применяться ко всем пользовательским агентам.

3. Разрешить

Директива allow может помочь вам указать определенные страницы или каталоги, к которым вы хотите, хотите, чтобы боты могли получать доступ и сканировать. Это может быть правило переопределения для параметра запрета, показанного выше.

В приведенном ниже примере мы сообщаем роботу Googlebot, что мы не хотим, чтобы каталог портфолио сканировался, но мы хотим, чтобы был доступен и просканирован один конкретный элемент портфеля:

Агент пользователя: Googlebot

Disallow: / портфель

Разрешить: / портфель / crawlableportfolio

4.Карта сайта

Включение местоположения карты сайта в файл может упростить поисковым роботам сканирование карты сайта.

Если вы отправляете свои карты сайта непосредственно в инструменты для веб-мастеров каждой поисковой системы, то нет необходимости добавлять их в файл robots.txt.

карта сайта: https://yourwebsite.com/sitemap.xml

5. Задержка сканирования

Задержка сканирования может заставить бота замедлиться при сканировании вашего сайта, чтобы ваш сервер не перегружался.В приведенном ниже примере директивы Яндекс просят подождать 10 секунд после каждого сканирования сайта.

User-agent: яндекс

Задержка сканирования: 10

Это директива, с которой следует соблюдать осторожность. На очень большом веб-сайте это может значительно уменьшить количество URL-адресов, сканируемых каждый день, что было бы контрпродуктивно. Однако это может быть полезно на небольших веб-сайтах, где боты заходят слишком много.

Примечание. Задержка сканирования - , не поддерживается Google или Baidu .Если вы хотите попросить их сканеры замедлить сканирование вашего веб-сайта, вам нужно будет сделать это с помощью их инструментов .

Что такое регулярные выражения и подстановочные знаки?

Сопоставление с шаблоном - это более продвинутый способ управления сканированием вашего веб-сайта ботом с использованием символов.

Есть два общих выражения, которые используются как Bing, так и Google. Эти директивы могут быть особенно полезны на сайтах электронной коммерции.

Звездочка: * рассматривается как подстановочный знак и может представлять любую последовательность символов

Знак доллара: $ используется для обозначения конца URL-адреса

Хорошим примером использования подстановочного знака * является сценарий, в котором вы хотите запретить поисковым системам сканировать страницы, на которых может быть знак вопроса. В приведенном ниже коде всем ботам предлагается игнорировать сканирование любых URL-адресов, в которых есть вопросительный знак.

Агент пользователя: *

Disallow: / *?

Как создать или отредактировать роботов.txt файл

Если у вас нет существующего файла robots.txt на вашем сервере, вы можете легко добавить его, выполнив следующие действия.

  1. Откройте нужный текстовый редактор, чтобы создать новый документ. Обычные редакторы, которые могут существовать на вашем компьютере, - это Блокнот, TextEdit или Microsoft Word.
  2. Добавьте директивы, которые вы хотите включить в документ.
  3. Сохраните файл с именем «robots.txt».
  4. Проверьте свой файл, как показано в следующем разделе.
  5. Загрузите свой.txt на свой сервер через FTP или в CPanel. Как вы его загрузите, будет зависеть от типа вашего веб-сайта.

В WordPress вы можете использовать такие плагины, как Yoast, All In One SEO, Rank Math для создания и редактирования файла.

Вы также можете использовать инструмент генератора robots.txt, который поможет вам подготовить тот, который может помочь свести к минимуму ошибки.

Как протестировать файл Robots.txt

Прежде чем приступить к работе с кодом файла robots.txt, который вы создали, вы захотите запустить его через тестер, чтобы убедиться, что он действителен.Это поможет предотвратить проблемы с неправильными директивами, которые могли быть добавлены.

Инструмент тестирования robots.txt доступен только в старой версии Google Search Console. Если ваш веб-сайт не подключен к Google Search Console, вам нужно будет это сделать в первую очередь.

Посетите страницу поддержки Google и нажмите кнопку «открыть тестер robots.txt». Выберите свойство, которое вы хотите проверить, после чего вы попадете на экран, подобный показанному ниже.

Для тестирования ваших новых роботов.txt, просто удалите то, что сейчас находится в поле, замените новым кодом и нажмите «Проверить». Если ответ на ваш тест «разрешен», значит, ваш код действителен, и вы можете изменить свой фактический файл с новым кодом.

Надеюсь, этот пост заставил вас меньше бояться копаться в файле robots.txt, потому что это один из способов улучшить свой рейтинг и активизировать усилия по поисковой оптимизации.

Все, что вам нужно знать

У вас больше контроля над поисковыми системами, чем вы думаете.

Это правда; вы можете управлять тем, кто сканирует и индексирует ваш сайт, вплоть до отдельных страниц. Чтобы контролировать это, вам нужно будет использовать файл robots.txt. Robots.txt - это простой текстовый файл, который находится в корневом каталоге вашего веб-сайта. Он сообщает роботам, которых отправляют поисковые системы, какие страницы сканировать, а какие игнорировать.

Хотя это не совсем универсальный инструмент, вы, вероятно, догадались, что это довольно мощный инструмент, который позволит вам представить свой веб-сайт в Google так, как вы хотите, чтобы они его увидели.Поисковые системы сурово разбираются в людях, поэтому произвести хорошее впечатление необходимо. При правильном использовании robots.txt может повысить частоту сканирования, что может повлиять на ваши усилия по поисковой оптимизации.

Итак, как его создать? Как Вы этим пользуетесь? Чего следует избегать? Прочтите этот пост, чтобы найти ответы на все эти вопросы.

Что такое файл Robots.txt?

В те времена, когда Интернет был всего лишь ребенком с детским лицом, способным творить великие дела, разработчики изобрели способ сканирования и индексации новых страниц в сети.Они назвали их «роботами» или «пауками».

Иногда эти маленькие ребята забредали на веб-сайты, которые не были предназначены для сканирования и индексации, например, на сайты, находящиеся на техническом обслуживании. Создатель первой в мире поисковой системы Aliweb порекомендовал решение - своего рода дорожную карту, которой должен следовать каждый робот.

Эта дорожная карта была завершена в июне 1994 года группой технически подкованных в Интернете технических специалистов под названием «Протокол исключения роботов».

Файл robots.txt является исполнением этого протокола.В протоколе изложены правила, которым должен следовать каждый настоящий робот, включая ботов Google. Некоторые незаконные роботы, такие как вредоносное ПО, шпионское ПО и т. П., По определению, действуют вне этих правил.

Вы можете заглянуть за кулисы любого веб-сайта, введя любой URL-адрес и добавив в конце: /robots.txt.

Например, вот версия POD Digital:

Как видите, не обязательно иметь файл, состоящий только из песен и танцев, поскольку наш веб-сайт относительно небольшой.

Где найти файл Robots.txt

Ваш файл robots.txt будет храниться в корневом каталоге вашего сайта. Чтобы найти его, откройте свою FTP cPanel, и вы сможете найти файл в каталоге своего веб-сайта public_html.

В этих файлах нет ничего, чтобы они не были здоровенными - вероятно, всего несколько сотен байт, если это так.

Как только вы откроете файл в текстовом редакторе, вас встретит что-то вроде этого:

Если вы не можете найти файл во внутренней работе вашего сайта, вам придется создать свой собственный.

Как собрать файл Robots.txt

Robots.txt - это очень простой текстовый файл, поэтому его просто создать. Все, что вам понадобится, это простой текстовый редактор, например Блокнот. Откройте лист и сохраните пустую страницу как robots.txt.

Теперь войдите в свою cPanel и найдите папку public_html, чтобы получить доступ к корневому каталогу сайта. Как только он откроется, перетащите в него свой файл.

Наконец, вы должны убедиться, что вы установили правильные разрешения для файла.Как правило, вам, как владельцу, нужно будет писать, читать и редактировать файл, но никакие другие стороны не должны иметь права делать это.

Файл должен отображать код разрешения «0644».

Если нет, вам нужно будет изменить это, поэтому щелкните файл и выберите «Разрешение файла».

Вуаля! У вас есть файл Robots.txt.

Robots.txt Синтаксис

Файл robots.txt состоит из нескольких разделов «директив», каждый из которых начинается с указанного пользовательского агента.Пользовательский агент - это имя конкретного робота-обходчика, с которым обращается код.

Доступны два варианта:

  1. Вы можете использовать подстановочный знак для одновременного обращения ко всем поисковым системам.
  2. Вы можете обращаться к конкретным поисковым системам индивидуально.

Когда бот развернут для сканирования веб-сайта, он будет привлечен к блокам, которые обращаются к нему.

Вот пример:

Директива пользователя-агента

Первые несколько строк в каждом блоке - это «пользовательский агент», который определяет конкретного бота.Пользовательский агент будет соответствовать определенному имени бота, например:

Итак, если вы хотите сказать роботу Google, что делать, например, начните с:

Пользовательский агент: Googlebot

Поисковые системы всегда пытаются чтобы определить конкретные директивы, которые наиболее к ним относятся.

Так, например, если у вас есть две директивы, одна для Googlebot-Video и одна для Bingbot. Бот, который поставляется вместе с пользовательским агентом Bingbot, будет следовать инструкциям. В то время как бот Googlebot-Video пропускает это и ищет более конкретную директиву.

В большинстве поисковых систем есть несколько разных ботов, вот список наиболее распространенных.

Директива хоста

Директива хоста на данный момент поддерживается только Яндексом, хотя некоторые предположения говорят, что Google ее поддерживает. Эта директива позволяет пользователю решить, отображать ли www. перед URL, использующим этот блок:

Хост: poddigital.co.uk

Поскольку Яндекс является единственным подтвержденным сторонником директивы, полагаться на нее не рекомендуется.Вместо этого 301 перенаправляет имена хостов, которые вам не нужны, на те, которые вам нужны.

Disallow Directive

Мы рассмотрим это более конкретно чуть позже.

Вторая строка в блоке директив - Disallow. Вы можете использовать это, чтобы указать, какие разделы сайта не должны быть доступны ботам. Пустое запрещение означает, что это является бесплатным для всех, и боты могут угождать себе, где они делают, а где не ходят.

Директива карты сайта (XML-карты сайта)

Использование директивы карты сайта сообщает поисковым системам, где найти карту сайта в формате XML.

Однако, вероятно, наиболее полезным было бы отправить каждый из них в специальные инструменты для веб-мастеров поисковых систем. Это потому, что вы можете узнать много ценной информации от каждого о своем веб-сайте.

Однако, если у вас мало времени, директива карты сайта является жизнеспособной альтернативой.

Директива о задержке сканирования

Yahoo, Bing и Яндекс могут быть немного счастливы, когда дело доходит до сканирования, но они действительно реагируют на директиву задержки сканирования, которая удерживает их на некоторое время.

Применение этой строки к вашему блоку:

Crawl-delay: 10

означает, что вы можете заставить поисковые системы ждать десять секунд перед сканированием сайта или десять секунд, прежде чем они повторно получат доступ к сайту после сканирования - это, по сути, то же самое, но немного отличается в зависимости от поисковой системы.

Зачем использовать Robots.txt

Теперь, когда вы знаете об основах и о том, как использовать несколько директив, вы можете собрать свой файл. Однако следующий шаг будет зависеть от типа контента на вашем сайте.

Robots.txt не является важным элементом успешного веб-сайта; Фактически, ваш сайт может нормально функционировать и хорошо ранжироваться без него.

Однако есть несколько ключевых преимуществ, о которых вы должны знать, прежде чем отказываться от этого:
  • Укажите ботам вдали от личных папок : запрет ботам проверять ваши личные папки значительно усложнит их поиск и индексирование.

  • Держите ресурсы под контролем : Каждый раз, когда бот просматривает ваш сайт, он поглощает пропускную способность и другие ресурсы сервера.Для сайтов с тоннами контента и большим количеством страниц, например, на сайтах электронной коммерции могут быть тысячи страниц, и эти ресурсы могут быть истощены очень быстро. Вы можете использовать robots.txt, чтобы затруднить доступ ботам к отдельным скриптам и изображениям; это позволит сохранить ценные ресурсы для реальных посетителей.

  • Укажите местоположение вашей карты сайта : Это довольно важный момент, вы хотите, чтобы сканеры знали, где находится ваша карта сайта, чтобы они могли ее просканировать.

  • Держите дублированный контент подальше от результатов поиска : добавив правило к своим роботам, вы можете запретить поисковым роботам индексировать страницы, содержащие дублированный контент.

Вы, естественно, захотите, чтобы поисковые системы находили путь к наиболее важным страницам вашего веб-сайта. Вежливо ограничивая определенные страницы, вы можете контролировать, какие страницы будут отображаться для поисковиков (однако убедитесь, что никогда не блокирует полностью поисковым системам для просмотра определенных страниц).

Например, если мы посмотрим на файл роботов POD Digital, мы увидим, что этот URL:

poddigital.co.uk/wp-admin был запрещен.

Поскольку эта страница предназначена только для того, чтобы мы могли войти в панель управления, нет смысла позволять ботам тратить свое время и энергию на ее сканирование.

Noindex

В июле 2019 года Google объявил о прекращении поддержки директивы noindex, а также многих ранее неподдерживаемых и неопубликованных правил, на которые многие из нас ранее полагались.

Многие из нас решили поискать альтернативные способы применения директивы noindex, и ниже вы можете увидеть несколько вариантов, которые вы можете выбрать вместо этого:

  • Тег Noindex / Заголовок ответа HTTP Noindex: Этот тег может быть реализовано двумя способами: сначала в виде заголовка HTTP-ответа с тегом X-Robots-Tag или создания тега , который необходимо будет реализовать в разделе .

Ваш тег должен выглядеть, как показано ниже:

СОВЕТ : помните, что если эта страница была заблокирована роботами.txt, сканер никогда не увидит ваш тег noindex, и все еще есть вероятность, что эта страница будет представлена ​​в результатах поиска.

  • Защита паролем: Google заявляет, что в большинстве случаев, если вы скрываете страницу за логином, ее следует удалить из индекса Google. Единственное исключение представлено, если вы используете разметку схемы, которая указывает, что страница связана с подпиской или платным контентом.

  • Код состояния HTTP 404 и 410: Коды состояния 404 и 410 представляют страницы, которые больше не существуют.После сканирования и полной обработки страницы со статусом 404/410 она должна автоматически удаляться из индекса Google.

Вам следует систематически сканировать свой веб-сайт, чтобы снизить риск появления страниц с ошибками 404 и 410, и при необходимости использовать переадресацию 301 для перенаправления трафика на существующую страницу.

  • Правило запрета в robots.txt: Добавив правило запрета для конкретной страницы в файл robots.txt, вы предотвратите сканирование страницы поисковыми системами.В большинстве случаев ваша страница и ее содержание не индексируются. Однако следует иметь в виду, что поисковые системы по-прежнему могут индексировать страницу на основе информации и ссылок с других страниц.

  • Инструмент удаления URL консоли Search Console: Этот альтернативный корень не решает проблему индексации в полной мере, поскольку инструмент удаления URL консоли Search Console удаляет страницу из результатов поиска на ограниченное время.

Однако это может дать вам достаточно времени, чтобы подготовить дальнейшие правила и теги роботов для полного удаления страниц из результатов поиска.

Инструмент удаления URL-адреса находится в левой части основной навигации в Google Search Console.

Noindex против Disallow

Многие из вас, вероятно, задаются вопросом, что лучше использовать тег noindex или правило запрета в вашем файле robots.txt. В предыдущей части мы уже рассмотрели, почему правило noindex больше не поддерживается в robots.txt и других альтернативах.

Если вы хотите убедиться, что одна из ваших страниц не проиндексируется поисковыми системами, вам обязательно стоит взглянуть на метатег noindex.Он позволяет ботам получить доступ к странице, но тег даст роботам знать, что эта страница не должна индексироваться и не должна появляться в результатах поиска.

Правило запрета может быть не так эффективно, как тег noindex в целом. Конечно, добавляя его в robots.txt, вы блокируете сканирование вашей страницы ботами, но если упомянутая страница связана с другими страницами внутренними и внешними ссылками, боты все равно могут индексировать эту страницу на основе информации, предоставленной другими страницами. / сайты.

Вы должны помнить, что если вы запретите страницу и добавите тег noindex, то роботы никогда не увидят ваш тег noindex, что по-прежнему может вызывать появление страницы в поисковой выдаче.

Использование регулярных выражений и подстановочных знаков

Итак, теперь мы знаем, что такое файл robots.txt и как его использовать, но вы можете подумать: «У меня большой веб-сайт электронной коммерции, и я хотел бы запретить все страницы, которые содержат вопросительные знаки (?) в своих URL ".

Здесь мы хотели бы представить ваши подстановочные знаки, которые могут быть реализованы в файле robots.txt. В настоящее время у вас есть два типа подстановочных знаков на выбор.

  • * Подстановочные знаки - где * подстановочные знаки будут соответствовать любой последовательности символов по вашему желанию.Этот тип подстановочного знака будет отличным решением для ваших URL-адресов, которые следуют тому же шаблону. Например, вы можете запретить сканирование всех страниц с фильтрами, в URL-адресах которых стоит вопросительный знак (?).

  • $ Подстановочные знаки - где $ соответствует концу вашего URL. Например, если вы хотите убедиться, что ваш файл robots запрещает ботам доступ ко всем файлам PDF, вы можете добавить правило, подобное приведенному ниже:

Давайте быстро разберем приведенный выше пример.Ваш файл robots.txt позволяет любым ботам User-agent сканировать ваш веб-сайт, но запрещает доступ ко всем страницам, которые содержат конец .pdf.

Ошибок, которых следует избегать

Мы немного поговорили о том, что вы можете сделать, и о различных способах работы с файлом robots.txt. Мы собираемся немного углубиться в каждый пункт в этом разделе и объяснить, как каждый из них может обернуться катастрофой для SEO, если не используется должным образом.

Не блокировать хороший контент

Важно не блокировать любой хороший контент, который вы хотите представить роботам для всеобщего сведения.txt или тега noindex. В прошлом мы видели много подобных ошибок, которые отрицательно сказывались на результатах SEO. Вам следует тщательно проверять свои страницы на наличие тегов noindex и запрещающих правил.

Чрезмерное использование Crawl-Delay

Мы уже объяснили, что делает директива crawl-delay, но вам не следует использовать ее слишком часто, поскольку вы ограничиваете страницы, просматриваемые ботами. Это может быть идеальным для некоторых веб-сайтов, но если у вас большой веб-сайт, вы можете выстрелить себе в ногу и помешать хорошему ранжированию и устойчивому трафику.

Чувствительность к регистру

Файл Robots.txt чувствителен к регистру, поэтому вы должны не забыть создать файл robots правильно. Вы должны называть файл роботов "robots.txt", все в нижнем регистре. Иначе ничего не получится!

Использование Robots.txt для предотвращения индексации содержимого

Мы уже немного рассмотрели это. Запрет доступа к странице - лучший способ предотвратить ее прямое сканирование ботами.

Но это не сработает в следующих случаях:

  • Если на страницу есть ссылка из внешнего источника, боты все равно будут проходить и индексировать страницу.

  • Незаконные боты по-прежнему будут сканировать и индексировать контент.

Использование Robots.txt для защиты частного содержимого

Некоторое личное содержимое, такое как PDF-файлы или страницы с благодарностью, можно индексировать, даже если вы направите роботов от него. Один из лучших способов дополнить директиву disallow - разместить весь ваш личный контент за логином.

Конечно, это означает, что он добавляет дополнительный шаг для ваших посетителей, но ваш контент останется безопасным.

Использование Robots.txt для скрытия вредоносного дублированного содержимого

Дублированное содержимое иногда является неизбежным злом - например, страницы, удобные для печати.

Однако Google и другие поисковые системы достаточно умны, чтобы знать, когда вы пытаетесь что-то скрыть. Фактически, это может привлечь к нему больше внимания, и это потому, что Google распознает разницу между страницей, удобной для печати, и тем, кто пытается заткнуть себе глаза:

Есть еще шанс, что ее можно найти в любом случае.

Вот три способа справиться с этим типом контента:

  1. Перепишите контент - Создание интересного и полезного контента побудит поисковые системы рассматривать ваш сайт как надежный источник. Это предложение особенно актуально, если контент представляет собой задание копирования и вставки.

  2. 301 Redirect - 301 редирект информирует поисковые системы о том, что страница переместилась в другое место. Добавьте 301 на страницу с дублированным контентом и перенаправьте посетителей на исходный контент на сайте.

  3. Rel = «canonical » - это тег, который информирует Google об исходном местонахождении дублированного контента; это особенно важно для веб-сайта электронной коммерции, где CMS часто генерирует повторяющиеся версии одного и того же URL-адреса.

Момент истины: проверка вашего файла Robots.txt

Пришло время протестировать ваш файл, чтобы убедиться, что все работает так, как вы хотите.

Инструменты Google для веб-мастеров содержат файл robots.txt, но в настоящее время он доступен только в старой версии Google Search Console. Вы больше не сможете получить доступ к тестеру robot.txt с помощью обновленной версии GSC (Google усердно работает над добавлением новых функций в GSC, поэтому, возможно, в будущем мы сможем увидеть тестер Robots.txt в основная навигация).

Итак, сначала вам нужно посетить страницу поддержки Google, на которой представлен обзор возможностей тестера Robots.txt.

Там вы также найдете роботов.txt Tester tool:

Выберите свойство, над которым вы собираетесь работать, например, веб-сайт вашей компании из раскрывающегося списка.

Удалите все, что находится в коробке, замените его новым файлом robots.txt и нажмите, протестируйте:

. Если «Тест» изменится на «Разрешено», значит, вы получили полностью работающий robots.txt.

Правильное создание файла robots.txt означает, что вы улучшаете SEO и удобство работы посетителей.

Позволяя ботам тратить свои дни на сканирование нужных вещей, они смогут систематизировать и показывать ваш контент так, как вы хотите, чтобы он отображался в поисковой выдаче.

Ресурсы для платформ CMS

Получите бесплатную 7-дневную пробную версию

Начните работать над своей видимостью в Интернете

# # robots.txt # # Этот файл предназначен для предотвращения сканирования и индексации определенных частей # вашего сайта поисковыми роботами и пауками, управляемыми такими сайтами, как Yahoo! # и Google.Сообщая этим «роботам», куда не следует заходить на вашем сайте, # вы экономите трафик и ресурсы сервера. # # Этот файл будет проигнорирован, если он не находится в корне вашего хоста: # Используется: http://example.com/robots.txt # Игнорируется: http://example.com/site/robots.txt # # Дополнительную информацию о стандарте robots.txt см. В следующих статьях: # http://www.robotstxt.org/robotstxt.html Пользовательский агент: * Задержка сканирования: 10 Пользовательский агент: dotbot Запретить: / Пользовательский агент: Coccocbot Запретить: / Пользовательский агент: SemrushBot Запретить: / Пользовательский агент: linkdexbot Запретить: / User-agent: Яндекс Запретить: / Пользовательский агент: Pinterest Запретить: / Пользовательский агент: BLEXBot Запретить: / Пользовательский агент: LivelapBot Запретить: / Пользовательский агент: DnyzBot Запретить: / Пользовательский агент: Traacker Запретить: / Пользовательский агент: PaperLiBot Запретить: / Пользовательский агент: Даум Запретить: / Пользовательский агент: PrimalBot Запретить: / Пользовательский агент: changedetection Запретить: / Пользовательский агент: EveryoneSocialBot Запретить: / Пользовательский агент: WikiDo Запретить: / Пользовательский агент: Почта.RU Запретить: / Пользовательский агент: SeznamBot Запретить: / Пользовательский агент: TinEye-bot Запретить: / Пользовательский агент: MJ12bot Запретить: / Пользовательский агент: SEOkicks-Robot Запретить: / Пользовательский агент: Yeti Запретить: / Пользовательский агент: TurnitinBot Запретить: / Пользовательский агент: Baidu Запретить: / Пользовательский агент: AhrefsBot Запретить: / Пользовательский агент: Twitterbot Запретить: # CSS, JS, изображения Разрешить: /misc/*.css$ Разрешить: /misc/*.css? Разрешить: /misc/*.js$ Разрешить: /misc/*.js? Разрешить: /misc/*.gif Разрешить: /misc/*.jpg Разрешить: /misc/*.jpeg Разрешить: /misc/*.png Разрешить: / modules / *.css $ Разрешить: /modules/*.css? Разрешить: /modules/*.js$ Разрешить: /modules/*.js? Разрешить: /modules/*.gif Разрешить: /modules/*.jpg Разрешить: /modules/*.jpeg Разрешить: /modules/*.png Разрешить: /profiles/*.css$ Разрешить: /profiles/*.css? Разрешить: /profiles/*.js$ Разрешить: /profiles/*.js? Разрешить: /profiles/*.gif Разрешить: /profiles/*.jpg Разрешить: /profiles/*.jpeg Разрешить: /profiles/*.png Разрешить: /themes/*.css$ Разрешить: /themes/*.css? Разрешить: /themes/*.js$ Разрешить: /themes/*.js? Разрешить: /themes/*.gif Разрешить: /themes/*.jpg Разрешить: /themes/*.jpeg Разрешить: / themes / *.PNG # Каталоги Disallow: / включает / Запретить: / misc / Запретить: / modules / Запретить: / profiles / Запретить: / scripts / Запретить: / themes / # Файлов Запретить: /CHANGELOG.txt Запретить: /cron.php Запретить: /INSTALL.mysql.txt Запретить: /INSTALL.pgsql.txt Запретить: /INSTALL.sqlite.txt Запретить: /install.php Запретить: /INSTALL.txt Запрещено: /LICENSE.txt Запретить: /MAINTAINERS.txt Запретить: /update.php Запретить: /UPGRADE.txt Запретить: /xmlrpc.php # Пути (чистые URL) Запретить: / admin / Запретить: / комментарий / ответ / Запретить: / filter / tips / Запретить: / узел / добавить / Запретить: / search / Запретить: / пользователь / регистрация / Запретить: / пользователь / пароль / Запретить: / пользователь / логин / Запретить: / пользователь / выход из системы / # Пути (без чистых URL) Запретить: /? Q = admin / Запретить: /? Q = комментарий / ответ / Запретить: /? Q = filter / tips / Запретить: /? Q = узел / добавить / Запретить: /? Q = search / Запретить: /? Q = пользователь / пароль / Запретить: /? Q = пользователь / регистрация / Запретить: /? Q = пользователь / логин / Запретить: /? Q = пользователь / выход из системы /

Руководство по оптимизации для вашего SEO

Содержание

Протокол исключения роботов, более известный как роботы .txt - это соглашение, запрещающее поисковым роботам доступ ко всему веб-сайту или его части. Это текстовый файл, используемый для SEO, содержащий команды для индексирующих роботов поисковых систем, которые определяют страницы, которые могут или не могут быть проиндексированы.

Файл robots.txt используется не для деиндексации страниц , а для предотвращения их просмотра. Если страница никогда раньше не индексировалась, предотвращение ее сканирования позволит никогда не проиндексировать ее. Но если страница уже проиндексирована или на нее ссылается другой веб-сайт, файл robots.txt не позволит деиндексировать. Чтобы предотвратить индексирование страницы в Google, вы должны использовать noindex тегами / директивами или защитите его паролем.

Таким образом, основная цель файла robots.txt состоит в том, чтобы управлять бюджетом сканирования робота, запрещая ему просматривать страницы с низкой добавленной стоимостью, но которые должны существовать для пути пользователя (корзина покупок и т. Д.). .

PS: файл robots.txt - один из первых файлов, анализируемых движками.

Пример


У поисковых систем

есть две основные задачи: сканирование Интернета для обнаружения контента и индексация этого контента, чтобы его можно было распространить среди пользователей, ищущих информацию.

Пояснение:

Чтобы сканировать сайты, поисковые системы переходят по ссылкам с одного сайта на другой, они просматривают многие миллиарды ссылок и веб-сайтов. Это называется «спайдинг». Как только робот поисковой системы получает доступ к веб-сайту, он ищет файл robots.txt. Если он найдет его, робот сначала прочитает этот файл, прежде чем продолжить просмотр страницы. Если файл robots.txt не содержит директив, запрещающих действия пользовательского агента, или если на сайте нет файла robots.txt, он просканирует другую информацию на сайте.

Важность robots.txt

Файлы

Robots.txt контролируют доступ роботов к определенным областям вашего сайта. Хотя это может быть очень опасно, если вы случайно запретите роботу Google сканировать весь ваш сайт, в некоторых ситуациях файл robots.txt может оказаться очень полезным.

Общие варианты использования включают:

  • Избегайте сканирования повторяющегося контента.
  • Предотвращение сканирования внутренней поисковой системы.
  • Запрещает поисковым системам индексировать определенные изображения на вашем сайте.
  • Укажите расположение карты сайта.
  • Указание задержки сканирования для предотвращения перегрузки серверов, когда поисковые роботы загружают несколько частей контента одновременно.

Если на вашем сайте нет областей, в которых вы хотите контролировать доступ пользователей, вам может не понадобиться файл robots.txt.

Язык файла Robots.txt

Файл robots.txt состоит из набора блоков инструкций и, возможно, директив карты сайта.

Каждый блок состоит из двух частей:

  • Одна или несколько директив User-agent : Для каких роботов предназначен этот блок.
  • Одна или несколько команд: какие ограничения необходимо соблюдать.
    Самая распространенная команда - Disallow , запрещающая роботам сканировать часть сайта.

Что такое пользовательский агент?

Когда программа инициирует соединение с веб-сервером (будь то робот или стандартный веб-браузер), она предоставляет основную информацию о своей личности через HTTP-заголовок, называемый «пользовательский агент».

Для Google список пользовательских агентов, используемых поисковыми роботами Google, доступен здесь.

Пример:

# Строки, начинающиеся с #, являются комментариями #

# Начало блока 1

Пользовательский агент: Googlebot

Пользовательский агент: Googlebot-News

Запретить: / directory1 /

Запретить: / directory2 /

# Начало блока 2

Пользовательский агент: *

Запретить: / directory3 /

# Дополнительная директива карты сайта

Карта сайта: http: // www.example.com/sitemap.xml

Другие команды блока:

  • Разрешить (Применимо только для робота Googlebot): команда, сообщающая роботу Googlebot, что он может получить доступ к странице или подпапке, даже если родительская страница или подпапка запрещены (эта команда имеет приоритет над командами Disallow).
  • Crawl-delay : этот параметр позволяет указать и установить количество секунд, в течение которых робот должен ждать между каждым последующим запросом.

Дополнительные директивы:

  • Карта сайта: позволяет легко указать поисковым системам страницы ваших сайтов для сканирования.Карта сайта - это файл XML, в котором перечислены URL-адреса сайта, а также дополнительные метаданные по каждому URL-адресу, чтобы обеспечить более интеллектуальное исследование сайта поисковыми системами.

Язык файлов robots.txt: Регулярные выражения

Regex - это специальные символы, которые позволяют упростить написание robots.txt с помощью шаблонов.

В файле robots.txt большинство поисковых систем (Google, Bing, Яндекс ...) включают только две из них:

  • *: соответствует любой последовательности символов
  • $: соответствует концу URL-адреса

Примечание: если использование регулярного выражения приводит к сопоставлению с несколькими блоками для данного робота, будет учитываться только самый конкретный блок.

Например, здесь GoogleBot выберет блок 2:

User-agent: * # Начало блока 1

User-agent: Googlebot # Начало блока 2

Примеры:

  • User-agent: *
    User-agent может иметь любое значение, другими словами, блокировка применяется ко всем роботам.

  • Disallow: /*.gif$
    Эта команда предотвращает сканирование URL-адресов, содержащих последовательность символов (*), за которыми следует ".gif "в конце URL-адреса (" .gif $ "), другими словами изображения gif.
    Примечание: в robots.txt все URL-адреса начинаются с косой черты, поскольку они являются продолжением корня сайта, представленного знаком «/».

  • Disallow: / private
    Запрещает сканирование всех URL-адресов, начинающихся с / private (включая /privateblabla1.html), идентично / private *

  • Disallow: / private /
    Запрещает сканирование всех URL-адресов, начинающихся с / private / (включая / private / page1.html), то же, что и / private / *

  • Disallow: / private / $
    Запретить сканирование именно / private / (например, /private/page1.html все еще доступен).

  • Allow: /wp-admin/admin-ajax.php = Оператор Allow разрешает исключения, здесь он позволяет роботам исследовать admin-ajax.php, который является частью ранее запрещенного каталога / wp-admin /.

  • Карта сайта: «ссылка на карту сайта» также позволяет указать поисковым системам адрес карты сайта.xml-файл сайта, если он есть.

Вы не знаете, есть ли у вас файл robots.txt?

  1. Просто введите свой корневой домен,
  2. затем добавьте /robots.txt в конец URL-адреса. Например, файл роботов Panorabanques находится в домене https://www.panorabanques.com.

Если не отображается страница .txt, значит, у вас нет страницы robots.txt (активной).

Если у вас нет robots.txt:

  • Вам это нужно? Убедитесь, что у вас нет малоценных страниц, на которых это требуется.Пример: корзина покупок, страницы поиска вашей внутренней поисковой системы и т. Д.
  • Если вам это нужно, создайте файл, следуя указанным выше директивам

Файл robots.txt состоит из одного или нескольких правил. Следуйте основным правилам для файлов robots.txt, то есть правилам форматирования, синтаксиса и местоположению, указанным выше, для создания файла robots.txt.

Что касается формата и местоположения, вы можете использовать практически любой текстовый редактор для создания файла robots.txt. Текстовый редактор должен уметь создавать стандартные текстовые файлы ASCII или UTF-8.Не используйте текстовый процессор, так как эти программы часто сохраняют файлы в проприетарном формате и могут добавлять неожиданные символы (например, фигурные кавычки), что может сбить с толку сканеров.

Правила форматирования и использования

  • Имя файла robots.txt должно быть в нижнем регистре (без Robots.txt или ROBOTS.TXT).
  • Ваш сайт может содержать только один файл robots.txt.
  • Если он отсутствует, будет отображена ошибка 404, и роботы сочтут, что никакой контент не запрещен.

Лучшие практики

  • Убедитесь, что вы не блокируете контент или разделы своего веб-сайта, которые нужно сканировать.
  • Ссылки на страницах, заблокированных файлом robots.txt, переходить не будут.
  • Не используйте robots.txt для предотвращения отображения конфиденциальных данных в поисковой выдаче. Поскольку другие страницы могут напрямую ссылаться на страницу, содержащую личную информацию, они все равно могут быть проиндексированы. Если вы хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например защиту паролем или метадирективу noindex.
  • Некоторые поисковые системы имеют несколько пользователей.Например, Google использует Googlebot для обычного поиска и Googlebot-Image для поиска изображений. Большинство пользовательских агентов одной и той же поисковой системы следуют одним и тем же правилам. Следовательно, нет необходимости указывать правила для различных роботов поисковых систем, но это позволяет вам уточнить способ анализа содержания вашего сайта.
  • Поисковая система кэширует содержимое robots.txt, но обычно обновляет кэшированное содержимое не реже одного раза в день. Если вы изменили файл и хотите обновить его быстрее, вы можете отправить свой файл robots.txt URL в Google.

Функция отправки инструмента тестирования robots.txt упрощает сканирование и индексацию нового файла robots.txt для вашего сайта в Google. Сообщайте Google об изменениях в файле robots.txt, выполнив следующие действия:

  1. Нажмите «Отправить» в правом нижнем углу редактора файла robots.txt. Откроется диалоговое окно «Отправить».
  2. Загрузите измененный код robots.txt со страницы инструмента тестирования Robots.txt, нажав кнопку «Загрузить» в диалоговом окне «Загрузить».
  3. Добавьте новый файл robots.txt в корень своего домена в виде текстового файла, который называется файлом robots.txt. URL-адрес вашего файла robots.txt должен быть /robots.txt.
  4. Нажмите «Проверить онлайн-версию», чтобы убедиться, что онлайн-файл robots.txt является той версией, которую Google должен сканировать.
  5. Нажмите «Отправить онлайн-версию», чтобы уведомить Google о том, что ваш файл robots.txt был изменен, и попросить Google просканировать его.
  6. Убедитесь, что ваша последняя версия была успешно просканирована, обновив страницу в браузере, чтобы обновить редактор инструмента и просмотреть свои файлы robots.txt онлайн. После обновления страницы вы также можете щелкнуть раскрывающееся меню над текстовым редактором, чтобы отобразить метку времени, которая указывает, когда Google впервые увидел последнюю версию вашего файла robots.txt.

Вывод:

Файл robots.txt позволяет запрещать роботам доступ к частям вашего веб-сайта, особенно если часть вашей страницы является частной или если содержание не является важным для поисковых систем. Таким образом, robots.txt является важным инструментом для управления индексацией ваших страниц.

Статья написана Луи Шеваном

WordPress Руководство Robots.txt - что это такое и как его использовать

Вы когда-нибудь слышали термин robots.txt и задавались вопросом, как он применим к вашему веб-сайту? На большинстве веб-сайтов есть файл robots.txt, но это не значит, что большинство веб-мастеров его понимают. В этом посте мы надеемся изменить это, предложив более подробное описание файла robots.txt WordPress, а также того, как он может контролировать и ограничивать доступ к вашему сайту. К концу вы сможете ответить на такие вопросы, как:

Есть много чего рассказать, так что приступим!

Что такое роботы WordPress.текст?

Прежде чем мы сможем поговорить о файле robots.txt WordPress, важно определить, что в данном случае представляет собой «робот». Роботы - это любой тип «ботов», который посещает веб-сайты в Интернете. Самый распространенный пример - поисковые роботы. Эти боты «ползают» по сети, чтобы помочь поисковым системам, таким как Google, индексировать и ранжировать миллиарды страниц в Интернете.

Итак, боты есть, в общем , вещь для интернета хорошая… или хотя бы необходимая вещь. Но это не обязательно означает, что вы или другие веб-мастера хотите, чтобы боты работали без ограничений.Желание контролировать взаимодействие веб-роботов с веб-сайтами привело к созданию в середине 1990-х годов стандарта исключения роботов . Robots.txt - это практическая реализация этого стандарта - , он позволяет вам контролировать, как участвующие боты взаимодействуют с вашим сайтом . Вы можете полностью заблокировать ботов, ограничить их доступ к определенным областям вашего сайта и многое другое.

Эта «участвующая» часть, тем не менее, важна. Robots.txt не может заставить бота следовать его директивам.А вредоносные боты могут и будут игнорировать файл robots.txt. Кроме того, даже авторитетные организации игнорируют некоторые команды , которые вы можете поместить в Robots.txt. Например, Google проигнорирует любые правила, которые вы добавляете в свой robots.txt, о том, как часто его сканеры посещают. Если у вас много проблем с ботами, вам может пригодиться такое решение безопасности, как Cloudflare или Sucuri.

Почему вам следует заботиться о своем файле Robots.txt?

Для большинства веб-мастеров преимущества хорошо структурированного файла robots.txt можно разделить на две категории:

  • Оптимизация ресурсов сканирования поисковых систем путем указания им не тратить время на страницы, которые вы не хотите индексировать. Это помогает гарантировать, что поисковые системы сосредоточатся на сканировании наиболее важных для вас страниц.
  • Оптимизация использования вашего сервера за счет блокировки ботов, тратящих ресурсы впустую.

Robots.txt конкретно не касается управления тем, какие страницы индексируются в поисковых системах

Robots.txt - не надежный способ контролировать, какие страницы индексируются поисковыми системами.Если ваша основная цель - предотвратить включение определенных страниц в результаты поисковой системы, правильный подход - использовать метатег noindex или другой аналогичный прямой метод.

Это связано с тем, что ваш Robots.txt напрямую не говорит поисковым системам не индексировать контент - он просто говорит им не сканировать его. Хотя Google не будет сканировать отмеченные области внутри вашего сайта, сам Google заявляет, что если внешний сайт ссылается на страницу, которую вы исключаете с помощью файла Robots.txt, Google все равно может проиндексировать эту страницу.

Джон Мюллер, аналитик Google для веб-мастеров, также подтвердил, что, если на странице есть ссылки, указывающие на нее, даже если она заблокирована файлом robots.txt, все равно может проиндексироваться. Вот что он сказал на видеовстрече в Центре веб-мастеров:

Здесь следует иметь в виду одну вещь: если эти страницы заблокированы файлом robots.txt, то теоретически может случиться так, что кто-то случайно перейдет по ссылке на одну из этих страниц. И если они это сделают, то может случиться так, что мы проиндексируем этот URL без какого-либо контента, потому что он заблокирован роботами.текст. Таким образом, мы не узнаем, что вы не хотите, чтобы эти страницы действительно индексировались.

Если они не заблокированы файлом robots.txt, вы можете поместить на эти страницы метатег noindex. И если кто-нибудь будет ссылаться на них, и мы просканируем эту ссылку и подумаем, что, может быть, здесь есть что-то полезное, тогда мы будем знать, что эти страницы не нужно индексировать, и мы можем просто полностью пропустить их из индексации.

Итак, в связи с этим, если на этих страницах есть что-то, что вы не хотите индексировать, не запрещайте их, используйте вместо этого noindex .

Как создать и отредактировать файл WordPress Robots.txt

По умолчанию WordPress автоматически создает виртуальный файл robots.txt для вашего сайта. Поэтому, даже если вы и пальцем не пошевелите, на вашем сайте уже должен быть файл robots.txt по умолчанию. Вы можете проверить, так ли это, добавив «/robots.txt» в конец своего доменного имени. Например, «https://kinsta.com/robots.txt» вызывает файл robots.txt, который мы используем здесь, в Kinsta:

.

Пример файла Robots.txt

Поскольку этот файл виртуальный, вы не можете его редактировать.Если вы хотите отредактировать файл robots.txt, вам нужно будет фактически создать на своем сервере физический файл, которым вы можете манипулировать по мере необходимости. Вот три простых способа сделать это…

Как создать и отредактировать файл Robots.txt с помощью Yoast SEO

Если вы используете популярный плагин Yoast SEO, вы можете создать (а позже отредактировать) файл robots.txt прямо из интерфейса Yoast. Однако, прежде чем вы сможете получить к нему доступ, вам необходимо включить расширенные функции Yoast SEO, перейдя в SEO → Панель инструментов → Функции и переключившись на страницы дополнительных настроек :

Как включить расширенные функции Yoast

После активации вы можете перейти в SEO → Инструменты и нажать Редактор файлов :

Как получить доступ к редактору файлов Yoast

Если у вас еще нет физического робота.txt, Yoast предоставит вам возможность Создать файл robots.txt :

Как создать Robots.txt в Yoast

И как только вы нажмете эту кнопку, вы сможете редактировать содержимое вашего файла Robots.txt прямо из того же интерфейса:

Как редактировать Robots.txt в Yoast

По мере чтения мы подробнее рассмотрим, какие типы директив следует добавлять в файл robots.txt WordPress.

Как создать и отредактировать файл Robots.txt с помощью универсального средства SEO

Если вы используете почти такой же популярный плагин, как Yoast All in One SEO Pack , вы также можете создавать и редактировать свои роботы WordPress.txt прямо из интерфейса плагина. Все, что вам нужно сделать, это перейти в All in One SEO → Feature Manager и Активировать в файле Robots.txt feature:

Как создать Robots.txt в All In One SEO

Затем вы сможете управлять своим файлом Robots.txt, перейдя в All in One SEO → Robots.txt:

Как редактировать Robots.txt в All In One SEO

Как создать и отредактировать файл Robots.txt через FTP

Если вы не используете плагин SEO, который предлагает robots.txt, вы по-прежнему можете создавать файл robots.txt и управлять им через SFTP. Сначала с помощью любого текстового редактора создайте пустой файл с именем «robots.txt»:

.

Как создать свой собственный файл Robots.txt

Затем подключитесь к своему сайту через SFTP и загрузите этот файл в корневую папку вашего сайта. Вы можете внести дополнительные изменения в файл robots.txt, отредактировав его через SFTP или загрузив новые версии файла.

Что помещать в файл Robots.txt

Хорошо, теперь у вас есть физический робот.txt на вашем сервере, который вы можете редактировать по мере необходимости. Но что вы на самом деле делаете с этим файлом? Как вы узнали из первого раздела, robots.txt позволяет вам контролировать взаимодействие роботов с вашим сайтом. Вы делаете это с помощью двух основных команд:

  • User-agent - позволяет настраивать таргетинг на определенных ботов. Пользовательские агенты - это то, что боты используют для идентификации себя. С их помощью вы можете, например, создать правило, которое применяется к Bing, но не к Google.
  • Запретить - это позволяет запретить роботам доступ к определенным областям вашего сайта.

Существует также команда Allow , которую вы будете использовать в нишевых ситуациях. По умолчанию все на вашем сайте помечено как Разрешить , поэтому нет необходимости использовать команду Разрешить в 99% случаев. Но он пригодится там, где вы хотите Запретить доступ к папке и ее дочерним папкам, но Разрешить доступ к одной конкретной дочерней папке.

Вы добавляете правила, сначала указывая, к какому User-agent должно применяться правило, а затем перечисляя, какие правила применять, используя Disallow и Allow .Есть также некоторые другие команды, такие как Crawl-delay и Sitemap , но это либо:

  • Игнорируется большинством основных поисковых роботов или интерпретируется совершенно по-разному (в случае задержки сканирования)
  • Изменилось с помощью таких инструментов, как Google Search Console (для карт сайта)

Давайте рассмотрим некоторые конкретные варианты использования, чтобы показать вам, как все это сочетается.

Как использовать Robots.txt для блокировки доступа ко всему сайту

Допустим, вы хотите заблокировать всем поисковым роботам доступ к вашему сайту.Это маловероятно на действующем сайте, но может пригодиться для сайта разработки. Для этого вы должны добавить этот код в свой файл robots.txt WordPress:

  Агент пользователя: *
Disallow: /  

Что происходит в этом коде?

Звездочка * рядом с User-agent означает «все пользовательские агенты». Звездочка - это подстановочный знак, означающий, что он применяется к каждому пользовательскому агенту. / косая черта рядом с Disallow означает, что вы хотите запретить доступ к всем страницам, содержащим «yourdomain.com / »(т.е. каждая страница вашего сайта).

Как использовать Robots.txt, чтобы заблокировать доступ одного бота к вашему сайту

Давайте изменим ситуацию. В этом примере мы сделаем вид, что вам не нравится, что Bing сканирует ваши страницы. Вы все время работаете в команде Google и даже не хотите, чтобы Bing просматривал ваш сайт. Чтобы заблокировать сканирование вашего сайта только Bing, замените подстановочный знак * звездочку на Bingbot:

Подпишитесь на информационный бюллетень

Хотите узнать, как мы увеличили наш трафик более чем на 1000%?

Присоединяйтесь к 20 000+ других, которые получают нашу еженедельную рассылку с инсайдерскими советами по WordPress!

Подпишитесь сейчас
  Пользовательский агент: Bingbot
Disallow: /  

По сути, приведенный выше код говорит, что только применяет правило Disallow к ботам с пользовательским агентом «Bingbot» .Вы вряд ли захотите блокировать доступ к Bing, но этот сценарий действительно пригодится, если есть конкретный бот, которому вы не хотите получать доступ к своему сайту. На этом сайте есть хороший список известных имен User-agent большинства сервисов.

Как использовать Robots.txt для блокировки доступа к определенной папке или файлу

В этом примере предположим, что вы хотите заблокировать доступ только к определенному файлу или папке (и всем подпапкам этой папки). Чтобы применить это к WordPress, допустим, вы хотите заблокировать:

  • Вся папка wp-admin
  • wp-логин.php

Вы можете использовать следующие команды:

  Агент пользователя: *
Запретить: / wp-admin /
Запрещено: /wp-login.php  

Как использовать Robots.txt для разрешения доступа к определенному файлу в запрещенной папке

Хорошо, теперь допустим, что вы хотите заблокировать всю папку, но все же хотите разрешить доступ к определенному файлу внутри этой папки. Здесь вам пригодится команда Allow . И это действительно очень применимо к WordPress.Фактически, виртуальный файл robots.txt WordPress прекрасно иллюстрирует этот пример:

  Агент пользователя: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php  

Этот фрагмент блокирует доступ ко всей папке / wp-admin / , за исключением файла /wp-admin/admin-ajax.php .

Как использовать Robots.txt, чтобы запретить ботам сканировать результаты поиска WordPress

Одна специальная настройка WordPress, которую вы, возможно, захотите сделать, - это запретить поисковым роботам сканировать ваши страницы результатов поиска.По умолчанию WordPress использует параметр запроса «? S =». Итак, чтобы заблокировать доступ, все, что вам нужно сделать, это добавить следующее правило:

  Агент пользователя: *
Запретить: /? S =
Запретить: / search /  

Это также может быть эффективным способом остановить мягкие ошибки 404, если вы их получаете. Обязательно прочтите наше подробное руководство о том, как ускорить поиск в WordPress.

Как создать разные правила для разных ботов в robots.txt

До сих пор все примеры касались одного правила за раз.Но что, если вы хотите применить разные правила к разным ботам? Вам просто нужно добавить каждый набор правил в декларацию User-agent для каждого бота. Например, если вы хотите создать одно правило, которое применяется к , все боты , а другое правило, которое применяется к , только Bingbot , вы можете сделать это следующим образом:

  Агент пользователя: *
Запретить: / wp-admin /
Пользовательский агент: Bingbot
Disallow: /  

В этом примере всем ботам будет заблокирован доступ к / wp-admin /, но Bingbot будет заблокирован от доступа ко всему вашему сайту.

Тестирование файла Robots.txt

Вы можете протестировать свой файл robots.txt WordPress в Google Search Console, чтобы убедиться, что он правильно настроен. Просто нажмите на свой сайт и в разделе «Сканирование» нажмите «Тестер robots.txt». Затем вы можете отправить любой URL, включая вашу домашнюю страницу. Вы должны увидеть зеленый значок Разрешено , если все доступно для сканирования. Вы также можете проверить URL-адреса, которые вы заблокировали, чтобы убедиться, что они действительно заблокированы, или Запрещено .

Тестовый файл robots.txt

Остерегайтесь спецификации UTF-8

BOM обозначает знак порядка байтов и, по сути, является невидимым символом, который иногда добавляется к файлам старыми текстовыми редакторами и т.п.Если это произойдет с вашим файлом robots.txt, Google может неправильно его прочитать. Вот почему так важно проверять файл на наличие ошибок. Например, как показано ниже, в нашем файле был невидимый символ, и Google жалуется на непонятный синтаксис. Это по существу делает недействительной первую строку нашего файла robots.txt, что не очень хорошо! У Гленна Гейба есть отличная статья о том, как бомба UTF-8 может убить вашего SEO.

Спецификация UTF-8 в вашем файле robots.txt

Робот Googlebot в основном базируется в США

Также важно не блокировать робота Googlebot из США, даже если вы нацеливаетесь на регион за пределами США.Иногда они выполняют локальное сканирование, но Googlebot в основном находится в США .

Робот Googlebot в основном находится в США, но иногда мы также выполняем локальное сканирование. https://t.co/9KnmN4yXpe

- Центр поиска Google (@googlesearchc) 13 ноября 2017 г.

Что популярные сайты WordPress помещают в свой файл Robots.txt

Чтобы на самом деле предоставить некоторый контекст для пунктов, перечисленных выше, вот как некоторые из самых популярных сайтов WordPress используют своих роботов.txt файлы.

TechCrunch

TechCrunch Файл Robots.txt

Помимо ограничения доступа к ряду уникальных страниц, TechCrunch, в частности, запрещает поисковым роботам:

Еще они установили особые ограничения для двух ботов:

Если вам интересно, IRLbot - это сканер из исследовательского проекта Техасского университета A&M. Это странно!

Фонд Обамы

Файл Robots.txt Фонда Обамы

Фонд Обамы не делал никаких специальных дополнений, предпочитая ограничивать доступ исключительно к / wp-admin /.

Злые птицы

Angry Birds Файл Robots.txt

Angry Birds имеет те же настройки по умолчанию, что и The Obama Foundation. Ничего особенного не добавлено.

Дрифт

Файл Drift Robots.txt

Наконец, Drift решает определить свои карты сайта в файле Robots.txt, но в остальном оставляет те же ограничения по умолчанию, что и The Obama Foundation и Angry Birds.

Правильно используйте Robots.txt

Завершая руководство по robots.txt, мы хотим еще раз напомнить вам, что использование команды Disallow в вашем файле robots.txt - это не то же самое, что использовать тег noindex . Robots.txt блокирует сканирование, но не обязательно индексацию. Вы можете использовать его для добавления определенных правил, определяющих, как поисковые системы и другие боты взаимодействуют с вашим сайтом, но он не будет явно контролировать, индексируется ваш контент или нет.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *