Директива host robots txt: Хост в robots.txt – директива для указания основного зеркала сайта.

Содержание

Яндекс отменил директиву host в файле robots.txt

Главная » Статьи о SEO » Яндекс отменил директиву host в файле robots.txt

Просмотры: 1647

Публикация: 02 Июля 2018

Редакция: 30 Августа 2022

Прочтение ~ 5 мин.

Сложность: Продвинутый

  • Какая команда появилась после директивы host
  • Как проходит смена протокола или переезд на другой домен
  • Можно ли переехать без настройки редиректа 301
  • Можно ли поставить редиректы, но не переезжать
  • Что будет, если не ставить редиректы и никуда не переезжать
  • Если поисковик не обращает внимания на редиректы
  • Редиректы на мобильных версиях
  • Заключение

В файле robots. txt содержится информация о сайте для поисковых роботов. Раньше Яндекс требовал размещения в этом файле директивы host, которая указывала на главное зеркало сайта. В 2018 году от нее решили отказаться полностью, чтобы вебмастерам было легче работать. В Google эта директива не учитывалась никогда. Чтобы изменить протокол на безопасный или переехать на другой домен, теперь используют более простой способ.

Какая команда появилась после директивы host

Раньше длительность переезда сайта на новый домен в Яндексе доходила до месяца, так как связь главного и второстепенного зеркал оказывала большое влияние на позиции в выдаче. Сейчас переезд проходит всего за несколько дней, что благоприятно сказывается на продвижении. Такое стало возможным благодаря редиректу 301, который заменил директиву хост. Теперь алгоритм смены протокола и домена ничем не отличается. Google изначально работал по такому принципу.

Для продолжения работы в обязательном порядке настраивают 301 редирект (переадресацию), директива host при переезде значение утратила полностью. Нововведения помогли ускорить и облегчить процесс перехода. Однако при переезде на новый домен или смене протокола нередко возникают непредвиденные ситуации, индивидуальные для каждого случая, поэтому алгоритм действий может отличаться. Иногда процесс затягивается, но в большинстве случаев переехать удается гораздо быстрее, чем раньше.

Как проходит смена протокола или переезд на другой домен

Чтобы сменить протокол на безопасный или переехать на другой домен, убедитесь в том, что права собственности на обе версии сайта подтверждены. Затем выполните несколько простых действий:

  • настройте редирект 301;
  • перейдите в панель Вебмастера;
  • в разделе «Переезд сайта» пропишите адрес зеркала — выберите в чек-боксе «добавить https» или «добавить www», если это необходимо.

Сразу проверять корректность переиндексации ресурса не стоит, так как для обновления требуется несколько дней. Зато команду host можно удалять, ведь она стала бесполезной как для Гугла, так и для Яндекса.

Обе версии сайта должны быть доступны для поисковых роботов.

Можно ли переехать без настройки редиректа 301

Переезд без настройки 301 редиректа возможен, однако это сопряжено с рядом проблем:

  1. Например, вы переезжаете с домена на домен, и у вас нет технической возможности настроить 301 редирект. В этом случае старый домен должен быть удален или скрыт от индексации. Если оставить старый домен после переезда, индексация нового будет невероятно долгой — займет даже не недели, а месяцы. Когда она будет завершена, есть вероятность, что оба домена будут признаны аффилиатами в Яндексе и приняты за дубли в Google.
    То есть, после того, как сайт переедет с домена на домен, индексироваться поисковиками должен только один — новый. Также учитывайте, что без настройки 301 редиректа произойдет неизбежная и длительная просадка трафика. Гарантия, что трафик вернется к уровню старого домена, когда работала директива host, отсутствует.
    Напоминаем, что оставлять открытыми для индексации старый и новый домены можно было до 2018 года, а далее директиву host отменили.
  2. Если вы меняете протокол http на https, но не настраиваете 301 редирект, хорошего результата ждать не стоит. Да, в панели вебмастера вы укажете Яндексу, какое зеркало — главное. Однако в индексе появятся дубли каждой страницы — одновременно на двух протоколах, и поисковые роботы сочтут их разными. Таким образом, вы задублируете весь сайт.
    Настоятельно рекомендуем настраивать редиректы с http на https, все современные CMS без проблем позволяют это сделать.
  3. Переезд на новое зеркало с www или без www в этом смысле схож со сменой протокола на https. Нужна настройка 301 редиректа, иначе вы также задублируете весь сайт.

Отметим, что переадресацию желательно было настраивать и до 2018 года, когда директива host еще учитывалась, поскольку редирект передает вес страниц, и Google никогда не «понимал» host.

Можно ли поставить редиректы, но не переезжать

Такое тоже возможно. Главное, чтобы все редиректы вели на основное зеркало. Если раньше для распознавания Яндекс изучал директиву host, то теперь поисковик определяет главный домен самостоятельно.

Если вы выполнили настройку редиректа, Яндекс «поймет» факт переезда. Раньше на это указывала директива host и соответствующие настройки в Вебмастере. Теперь достаточно заполнить соответствующие поля в Вебмастере. Даже если вы этого не сделаете — некритично, на возможность переезда это не повлияет. Просто переезд займет больше времени.

Что будет, если не ставить редиректы и никуда не переезжать

Если не провести процедуру переезда правильно, поисковые системы либо сочтут новый сайт дублем (либо имеющим много внутренних дублирующихся страниц), либо решат, что вы просто создали несколько одинаковых сайтов. И то и другое может повлечь негативные последствия, вплоть до наложения санкций.

Позиция «я что-то такое сделал (например переехал на https), но не выяснил, как посмотрят на это Яндекс и Google» — губительна для ранжирования нового или обновленного ресурса в рейтинге поисковых систем. Переезд должен быть обоснован, продуман, выполнен технически грамотно. Так было и когда работала директива host, и после того, как ее упразднили, с той лишь разницей, что до 2018 года старый сайт мог оставаться в выдаче, а в директиве host мог быть прописан новый. При этом трафик в любом случае приносил только один ресурс.

Если поисковик не обращает внимания на редиректы

Обычно такая ситуация возникает, когда редиректы установили с ошибками, поэтому в первую очередь проверьте корректность выполнения настроек. Остальные действия будут такими же, как и в случае со стандартным переездом или сменой протокола.

Редиректы на мобильных версиях

Директива host не требовала настройки отдельных редиректов для мобильных версий, хотя иногда поисковых роботов перенаправляли на основное зеркало. Сейчас ситуация практически не изменилась. Роботы без проблем могут исследовать любую версию сайта.

Заключение

Директиву host теперь можно смело удалять из robots.txt, ведь Яндекс тоже стал ее игнорировать. В принципе, если ее оставить, она никак не повлияет на SEO, так как стала бесполезным атрибутом. Подобные изменения Яндекс проводит для того, чтобы повысить скорость индексации и сделать процессы переезда на новый домен и смены протокола более удобными и быстрыми.

#seo

https://blog.aventon.ru/otmena-direktivy-host

ВАМ ТАКЖЕ МОЖЕТ БЫТЬ ИНТЕРЕСНО

Использование файла robots.txt — Вебмастер. Справка

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

Яндекс поддерживает стандарт исключений для роботов (Robots Exclusion Protocol) с расширенными возможностями.

При очередном обходе сайта робот Яндекса загружает файл robots.txt. Если при последнем обращении к файлу, страница или раздел сайта запрещены, робот не проиндексирует их.

  1. Требования к файлу robots.txt
  2. Рекомендации по наполнению файла
  3. Использование кириллицы
  4. Как создать robots.txt
  5. Вопросы и ответы

Роботы Яндекса корректно обрабатывают robots. txt, если:

  • Размер файла не превышает 500 КБ.

  • Это TXT-файл с названием robots — robots.txt.

  • Файл размещен в корневом каталоге сайта.

  • Файл доступен для роботов — сервер, на котором размещен сайт, отвечает HTTP-кодом со статусом 200 OK. Проверьте ответ сервера

Если файл не соответствует требованиям, сайт считается открытым для индексирования.

Яндекс поддерживает редирект с файла robots.txt, расположенного на одном сайте, на файл, который расположен на другом сайте. В этом случае учитываются директивы в файле, на который происходит перенаправление. Такой редирект может быть удобен при переезде сайта.

Яндекс поддерживает следующие директивы:

ДирективаЧто делает
User-agent *Указывает на робота, для которого действуют перечисленные в robots. txt правила.
DisallowЗапрещает индексирование разделов или отдельных страниц сайта.
SitemapУказывает путь к файлу Sitemap, который размещен на сайте.
Clean-paramУказывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
AllowРазрешает индексирование разделов или отдельных страниц сайта.
Crawl-delay

Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Рекомендуем вместо директивы использовать настройку скорости обхода в Яндекс Вебмастере.

* Обязательная директива.

Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:

User-agent: * #указывает, для каких роботов установлены директивы
Disallow: /bin/ # запрещает ссылки из "Корзины с товарами".
Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска
Disallow: /admin/ # запрещает ссылки из панели администратора
Sitemap: http://example.com/sitemap # указывает роботу на файл Sitemap для сайта
Clean-param: ref /some_dir/get_book.pl

Роботы других поисковых систем и сервисов могут иначе интерпретировать директивы.

Примечание. Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.

Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.

Для указания имен доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.

Пример файла robots.txt:

#Неверно:
User-agent: Yandex
Disallow: /корзина
Sitemap: сайт.рф/sitemap.xml
#Верно:
User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml
  1. В текстовом редакторе создайте файл с именем robots.txt и укажите в нем нужные вам директивы.

  2. Проверьте файл в Вебмастере.

  3. Положите файл в корневую директорию вашего сайта.

Пример файла. Данный файл разрешает индексирование всего сайта для всех поисковых систем.

Сайт или отдельные страницы запрещены в файле robots.txt, но продолжают отображаться в поиске

Как правило, после установки запрета на индексирование каким-либо способом исключение страниц из поиска происходит в течение двух недель. Вы можете ускорить этот процесс.

В Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots. txt»

Чтобы файл robots.txt учитывался роботом, он должен находиться в корневом каталоге сайта и отвечать кодом HTTP 200. Индексирующий робот не поддерживает использование файлов, расположенных на других сайтах.

Чтобы проверить доступность файла robots.txt для робота, проверьте ответ сервера.

Если ваш robots.txt выполняет перенаправление на другой файл robots.txt (например, при переезде сайта), Яндекс учитывает robots.txt, на который происходит перенаправление. Убедитесь, что в этом файле указаны верные директивы. Чтобы проверить файл, добавьте сайт, который является целью перенаправления, в Вебмастер и подтвердите права на управление сайтом.

что это такое, что будет, если она отсутствует

Мы увеличиваем посещаемость и позиции в выдаче. Вы получаете продажи и платите только за реальный результат, только за целевые переходы из поисковых систем

Заказывайте честное и прозрачное продвижение

Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подпишись на рассылку и получи книгу в подарок!

Директива Host – это команда или правило, сообщающее поисковой машине о том, какое зеркало веб-ресурса (с www или без) считать основным. Находится директива Host в файле Robots.txt и предназначена исключительно для Яндекса.

Часто возникает необходимость, чтобы поисковая система не индексировала некоторые страницы сайта или его зеркала. Например, ресурс находится на одном сервере, однако в интернете есть идентичное доменное имя, по которому осуществляется индексация и отображение в результатах поисковой выдачи.

Поисковые роботы Яндекса обходят страницы сайтов и добавляют собранную информацию в базу данных по собственному графику. В процессе индексации они самостоятельно решают, какую страницу необходимо обработать. К примеру, роботы обходят стороной различные форумы, доски объявлений, каталоги и прочие ресурсы, где индексация бессмысленна. Также они могут определять главный сайт и зеркала. Первые подлежат индексации, вторые – нет. В процессе часто возникают ошибки. Повлиять на это можно посредством использования директивы Host в файл Robots.txt.

Зачем нужен файл Robots.txt

Robots – это обычный текстовый файл. Его можно создать через блокнот, однако работать с ним (открывать и редактировать информацию) рекомендуется в текстовом редакторе Notepad++. Необходимость данного файла при оптимизации веб-ресурсов обуславливается несколькими факторами:

  1. Если файл Robots.txt отсутствует, сайт будет постоянно перегружен из-за работы поисковых машин.
  2. Существует риск, что индексироваться будут лишние страницы или сайты зеркала.

Индексация будет проходить гораздо медленнее, а при неправильно установленных настройках он вовсе может исчезнуть из результатов поисковой выдачи Google и Яндекс.

Как оформить директиву Host в файле Robots.txt

Файл Robots включает в себя директиву Host – инструкцию для поисковой машины о том, где главный сайт, а где его зеркала.

Директива имеет следующую форму написания: Host: [необязательный пробел] [значение] [необязательный пробел]. Правила написания директивы требуют соблюдения следующих пунктов:

  • Наличие в директиве Host протокола HTTPS для поддержки шифрования. Его необходимо использовать, если доступ к зеркалу осуществляется только по защищенному каналу.
  • Доменное имя, не являющееся IP-адресом, а также номер порта веб-ресурса.

Корректно составленная директива позволит веб-мастеру обозначить для поисковых машин, где главное зеркало. Остальные будут считаться второстепенными и, следовательно, индексироваться не будут. Как правило, зеркала можно отличить по наличию или отсутствию аббревиатуры www. Если пользователь не укажет главное зеркало веб-ресурса посредством Host, поисковая система Яндекс пришлет соответствующее уведомление в Вебмастер. Также уведомление будет выслано, если в файле Роботс задана противоречивая директива Host.

Определить, где главное зеркало сайта можно через поисковик. Необходимо вбить в поисковую строку адрес ресурса и посмотреть на результаты выдачи: сайт, где перед доменом в адресной строке стоит www, является главным доменом.

В случае, если ресурс не отображается на странице выдачи, пользователь может самостоятельно назначить его главным зеркалом, перейдя в соответствующий раздел в Яндекс.Вебмастере. Если веб-мастеру необходимо, чтобы доменное имя сайта не содержало www, следует не указывать его в Хосте.

Многие веб-мастера используют кириллические домены в качестве дополнительных зеркал для своих сайтов. Однако в директиве Host кириллица не поддерживается. Для этого необходимо дублировать слова на латинице, с условием, что их можно будет легко узнать, скопировав адрес сайта из адресной строки.

Хост в файле Роботс

Главное предназначение данной директивы состоит в решении проблем с дублирующими страницами. Использовать Host необходимо в случае, если работа веб-ресурса ориентирована на русскоязычную аудиторию и, соответственно, сортировка сайта должна проходить в системе Яндекса.

Не все поисковики поддерживают работу директивы Хост. Функция доступна только в Яндексе. При этом даже здесь нет гарантий, что домен будет назначен в качестве главного зеркала, но по заверениям самого Яндекса, приоритет всегда остается за именем, которое указано в хосте.

Чтобы поисковые машины правильно считывали информацию при обработке файла robots.txt, необходимо прописывать директиву Host в соответствующую группу, начинающуюся после слов User-Agent. Однако, роботы смогут использовать Host независимо от того, будет директива прописана по правилам или нет, поскольку она является межсекционной.

что это такое и для чего нужен этот файл на сайте

Robots.txt – это файл с набором инструкций для поисковых роботов, его задача – регулирование процесса индексации сайта. По своей сути это обычный файл в формате txt, который размещается в корневом каталоге. В его разделах могут быть директивы, открывающие или закрывающие доступ к разделам и страницам сайта. Но важно учитывать, что роботы разных поисковых систем используют свои алгоритмы обработки этого файла, зачастую они отличаются. В корневой каталог сайта файл robots.txt закачивается с использованием любого FTP-клиента. После его размещения необходимо проверить доступность файла по адресу site.com/robots.txt.

Требования к файлу robots.txt

Если файла robots.txt нет в корневом каталоге сайта или он настроен неправильно, это создает угрозу. Сайт может быть недоступен в поиске, а значит, и его посещаемость будет крайне низкой. Все директивы в файле прописываются на латинице, использование символов кириллицы запрещено. Чтобы работать с кириллическими доменами, необходимо применять Punycode. Но важно помнить, что кодировка адресов страниц и кодировка применяемой структуры сайта должны соответствовать друг другу.

Какие функции выполняет robots.txt

Основное назначение файла – размещение указаний для поисковых роботов. Функции зависят от директив. Главные среди них – Allow и Disallow. Первая разрешает индексацию конкретной страницы или раздела. Disallow, наоборот, запрещает индексацию. Еще одна важная директива – User-agent. Она указывает на определенных роботов, к которым относятся разрешительные и запрещающие действия. У инструкций robots.txt рекомендательный характер. Это значит, что в некоторых случаях роботы могут игнорировать их.

Примеры:

User-agent: *
Disallow: /

Такая запись запрещает всем роботам проводить индексацию сайта.

User-agent: Yandex
Disallow: /private/

Данная запись применяется для запрета индексации для основного робота поисковой системы Яндекс только директории /private/.

Другие директивы файла

Помимо основных директив Allow, Disallow и User-agent, есть еще ряд других со своими важными функциями.

Host. Позволяет указать зеркало сайта (главное к индексированию) и не допустить появления дублей в выдаче. Данная директива применима для роботов всех поисковых систем.

Пример:

User-Agent: Yandex
Disallow: /blog
Disallow: /custom
Host: https://onesite. com

Так выглядит директива Host, если https://onesite.com является главным зеркалом для группы сайтов.

Если файл robots.txt содержит несколько значений директивы Host, поисковый робот обратиться только к первой, остальные он игнорирует.

Sitemap. Чтобы сделать индексацию сайта более быстрой и правильной, рекомендуется использовать файл или группу файлов Sitemap. Эта директива межсекционная, т. е. где бы она ни была расположена в robots.txt, поисковые роботы ее обязательно учтут. Как правило, ее выносят в самый конец файла.

Робот обрабатывает эту директиву, запоминает и перерабатывает данные. Полученная информация будет основой при формировании следующих сессий загрузки страниц сайта.

Пример:

User-agent: *
Allow: /catalog
sitemap: https://mysite.com/my_sitemaps0.xml
sitemap: https://mysite.com/my_sitemaps1.xml

Clean-param. Дополнительная директива, предназначенная для роботов поисковой системы Яндекс. В настоящее время у многих сайтов сложная структура названий с использованием динамических параметров.

Так выглядит описание стандартного синтаксиса этой директивы:
Clean-param: s0[&s1&s2&..&sn] [path]

В первом поле указаны параметры, которые не следует учитывать. Для их разделения используется символ «&». Во втором поле стоит префикс пути страниц, подпадающих под действие этого правила.

Пример:

User-agent: *
Disallow:
Clean-param: id /forum.com/index.php

Пример использования директивы Clean-param для некого форума, где движок сайта генерирует длинные ссылки и присваивает каждому пользователю персональный параметр id. Содержание страниц при этом остается неизменным. Данный файл robots.txt не дает попасть в индекс множеству фактически одинаковых страниц.

Crawl-delay. Эта директива задает минимальное время (в секундах) между концом загрузки страницы и обращением робота к следующей. Crawl-delay используется тогда, когда боты создают слишком высокую нагрузку на сервер сайта. Кстати, роботы поисковой системы Яндекс умеют считывать дробные значения. В Google директива не учитывается.

Пример:

User-agent: *
Disallow: /cgi
Crawl-delay: 4.1 # таймаут 4.1 секунды для роботов

Спецсимволы

Внесение любых директив требует по умолчанию приписывать в конце спецсимвол «*». Таким образом, действие указания будет распространяться на все страницы или разделы сайта, которые начинаются с определенной комбинации символов. Для отмены действия по умолчанию нужно использовать специальный символ «$».

Согласно стандарту использования файла robots.txt, рекомендуется вставлять пустой перевод строки после каждой группы директив User-agent. Специальный символ «#» служит для размещения комментариев в файле. Роботы не учитывают содержание строки, размещенное за символом «#» до знака пустого перевода.

Пример:

User-agent: Googlebot
Disallow: /pictures$ # запрещает ‘/pictures’,
# но не запрещает ‘/pictures.html’

Как запретить индексацию сайта или его разделов

Зачем прятать информацию от поисковых роботов? Для продвижения в поиске важно показывать только полезную информацию, от публичного просмотра лучше скрыть технические и служебные страницы, дубли, ресурсы в разработке, конфиденциальную информацию. Для этого и используется описанная в начале статьи директива Disallow.

Пример:

User-agent: *
Disallow: /
# блокирует доступ ко всему сайту
User-agent: Yandex
Disallow: / bin
# блокирует доступ к страницам,
# которые начинаются с ‘/bin’

Как проверить файл robots.

txt

Если в файл robots.txt были внесены изменения, то его нужно проверить на правильность. Даже небольшая ошибка в размещении символа грозит серьезными проблемами. Для начала стоит проверить robots.txt в инструментах для веб-мастеров Яндекса, затем в Google. Предварительно необходимо авторизоваться в панели веб-мастера, после этого внести в нее данные сайта.

Файл robots.txt — зачем нужен, основные директивы, как выглядит

Многие начинающие вебмастера рано или поздно сталкиваются с понятием роботс. В этом посте я расскажу, что значит robots.txt и для чего он нужен.

Robots.txt — это файл в корневой директории сайта, который ограничивает поисковым роботам индексацию данных на сервере.

Говоря более простым языком, роботс запрещает поисковикам заходить на определенные страницы или разделы вашего сайта, например, доступ в админку сайта или личный кабинет. Обычно закрывают служебные папки или файлы, технические страницы, дубликаты и не уникальные страницы.

Если на вашем сайте отсутствует файл robots.txt или он пустой, то это дает роботам полное право индексировать весь сайт и включать в поиск все страницы, в том числе разный мусор, хлам, который там абсолютно не нужен. Для сайта это может быть чревато плохой индексацией главных продвигаемых страниц, а также наличием дублей, что в итоге скажется на общем рейтинге в глазах поисковых систем.

Еще хочу сказать такую штуку — для google роботс нахер не нужен по сути, он его игнорирует. В индексе все равно появляются страницы, закрытые в роботсе, только у них надпись, что просмотр содержимого недоступен, но сами страницы в индексе. Поэтому, если хотите закрыть от индексации гугла какой-то контент, то пользуйтесь другими способами — meta robots noindex или x-robots tag.

Содержание:

  • 1 Как выглядит файл robots txt
  • 2 Директивы файла robots.txt
    • 2.1 User-agent
    • 2.2 Allow и Disallow
    • 2.3 Crawl-delay
    • 2.4 Clean-param
    • 2.5 Host
    • 2. 6 Sitemap
  • 3 Что закрывать в robots txt

Как выглядит файл robots txt

Вот как должен выглядеть пример файла для CMS WordPress

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-content/themes/mytheme/*
Allow: /wp-includes/js/jquery/*
Allow: /wp-content/plugins/*
Allow: /wp-content/uploads/*
Clean-Param: utm_source&utm_medium&utm_campaign

Sitemap: https://mydaoseo.ru/sitemap.xml

Как видим, содержимое robots.txt достаточно обширное. Но не нужно пугаться, все объяснимо и понятно. Давайте разберемся вместе.

Директивы файла robots.txt

Существуют определенные правила для поисковых роботов согласно спецификации W3C от 30 января 1994 года. Но поисковые системы по-разному придерживаются этих директив.

User-agent

Это главная директива, она определяет, для каких роботов прописаны правила.

Например, для всех роботов

User-agent: *

Для Яндекса

User-agent: Yandex

Для Google

User-agent: Googlebot

Allow и Disallow

Если перевести эти слова, то достаточно просто понять, что значат директивы allow и disallow в robots.txt. Allow разрешает роботу сканировать страницы или разделы, а disallow этого не позволяет.

Например, данная команда полностью запрещает весь сайт к индексации.

User-agent: *
Disallow: /

Если нужно закрыть отдельную страницу, то прописываем ее адрес (без домена)

User-agent: *
Disallow: /articles/kak-prodvinut-sait/

Директива Allow открывает нужные нам разделы или страницы сайта. Например, необходимо закрыть папку со статьями, но одну статью оставить открытой для индекса. Прописываем так:

User-agent: *
Disallow: /articles*
Allow: /articles/kak-prodvinut-sait/

Дополнительно еще нужно сказать про спецсимволы:

* — означает, что правило применимо для всех документов раздела. Выше я прописал относительный путь Disallow: /articles* — это значит, от индекса закрыты все статьи. Если бы я прописал абсолютный путь Disallow: /articles/, то закрыт был бы только раздел статей, но сами статьи продолжали бы индексироваться.

# — означает комментарий, все, что написано после # до перевода строки, роботом не учитывается. Например:

User-agent: *
Disallow: /articles*
# закрывает от индекса все страницы раздела статей

$ — отменяет спецсимвол * (закрывает от робота только то, что написано до спецсимвола $). Например:

User-agent: *
Disallow: /articles$
# от индекса закрыт только раздел статей, но сами статьи продолжают индексироваться.

Crawl-delay

Директива crawl-delay в robots.txt раньше применялась яндексом для регулирования частоты запросов роботов на сайт. Но в феврале 2018 года поисковик отменил директиву. Теперь вместо нее в вебмастере появился раздел «Скорость обхода».

Clean-param

Директива clean-param в robots.txt сообщает роботу, что нельзя индексировать url адрес с заданными параметрами, например, префиксы, идентификаторы сессий, utm-метки. Это нужно для того, чтобы не загружать один и тот же документ много раз и сделать индексацию сайта эффективнее.

Например, у нас есть страница https://mydaoseo.ru/articles/kak-prodvinut-sait.php и нам нужно отследить, откуда приходят на нее пользователи.

https://mydaoseo.ru/articles/kak-prodvinut-sait.php?site=1&r_id=123
https://mydaoseo.ru/articles/kak-prodvinut-sait.php?site=2&r_id=123
https://mydaoseo.ru/articles/kak-prodvinut-sait.php?site=3&r_id=123

В данном случае директива clean-param будет записана вот так:

User-agent: *
Disallow:
Clean-param: site /articles/kak-prodvinut-sait.php

В результате данной команды робот сведет все страницы к одной

https://mydaoseo.ru/articles/kak-prodvinut-sait.php?site=1&r_id=123

Host

Директива host использовалась раньше яндексом, чтобы показать роботу основное зеркало сайта (с www или без www, http или https), которое будет участвовать в поиске. Но в марте 2018 года яндекс отменил host, теперь его использовать не нужно.

Читайте также: как сделать правильный переезд сайта с http на https. 

Sitemap

Директива sitemap нужна, чтобы указать путь к XML карте сайта. Обычно sitemap располгается в корне сайта по следующему адресу site.ru/sitemap.xml. Например:

User-agent: *
Disallow:

Sitemap: https://mydaoseo.ru/sitemap.xml

Директиву можно прописать несколько раз, особенно это актуально для больших интернет магазинов, где огромное количество страниц, и в один XML файл все страницы не умещаются. Расположение sitemap.xml также особого значения не имеет, но по правилам хорошего тона следует его располагать в самом низу роботса.

Это основные команды robots.txt. Есть еще и другие, но они не поддерживаются большинством поисковых систем.

Читайте также: как сделать технический аудит сайта

Что закрывать в robots txt

Роботс будет отличаться для разных сайтов, в зависимости от того, на какой платформе он разработан. Сайт может быть самописным, на платном или бесплатном движке (CMS) или сделан с помощью конструктора. В любом случае универсального варианта нет, нужно отталкиваться конкретно от вашей ситуации.

Есть кстати, еще один способ составить роботс самому. Нужно найти несколько сайтов с такой же CMS, как у вас и составить свой роботс на их примере. Для того, чтобы найти и посмотреть файл robots.txt чужого сайта, нужно к домену прописать /robots.txt. Например:

https://mydaoseo.ru/robots.txt

Так вы можете подсмотреть, проанализировать и скомпоновать свой собственный файл. Но учтите, что можно таким способом нахватать фатальных ошибок от чужих роботсов. Будьте аккуратны при этом способе.

Итак, мы разобрались, зачем нужен файл robots txt, какие функции выполняет, основные директивы. Посмотрите также небольшое видео, чтобы закрепить материал.

P.S. Если вам понравилась статья, то поделитесь ею со своими друзьями. Если у вас есть вопросы или дополнения, то пишите комментарий внизу.

Файл robots.txt и как его правильно настроить

Robots.txt — это файл, который размещается в папке сайта на хостинге и содержит правила индексирования вашего сайта поисковыми системами. Как понятно из названия, файл имеет обычный текстовый формат. Если при обращении в браузере к вашему сайту по ссылке вида http://site.com/robots.txt корректно отображается содержимое файла — значит он будет правильно прочитан роботами поисковиков.

Зачем нужен robots.txt и как настроить robots?

Чтобы в индекс поисковых систем не попали страницы, которых там быть не должно. Если файла с настройками нет или же он пустой или настроен неправильно, то в индекс могут попасть критические данные, такие как конфигурационные файлы с паролями, ссылки на админку, какие-то системные файлы и каталоги движка сайта. В результате неправильной настройки поисковик может проиндексировать и показать всем желающим, к примеру, логин-детали для подключения к базе данных.

Страницы, которые нужно закрывать от индексации:

  • Страницы поиска по сайту
  • Корзина
  • Сравнение, сортировка и фильтры товаров
  • Теги, если их нельзя оптимизировать и модерировать
  • Страницы регистрации и авторизации
  • Личный кабинет и профайлы пользователей
  • Системные файлы и каталоги
  • Версии для печати
  • Пустые страницы и т. д.

Блокировать индексацию следует для всех тех страниц, которые не несут пользу для посетителя, недоработаны, содержат чувствительные данные или являются дублями.

Как создать файл robots.txt?

Структура файла robots.txt имеет такой вид:

  • Поисковый робот 1
  • Инструкции для робота 1
  • Дополнительные опции
  • Поисковый робот 2
  • Инструкции для робота 2
  • Дополнительные опции

и т. д.

Порядок написания инструкций не имеет значения, поскольку обработка их происходит от менее вложенного к более вложенному. Регистр написания правил важен: cart.php и Cart.PHP — это разные страницы.

User-agent

Данная директива отвечает за имя робота, для которого будут указаны правила в этой секции. Обычно для User-agent используют два значения:

  • User-agent: * — для всех роботов
  • User-agent: Yandex — для всех роботов системы Yandex.

Также при необходимости можно указывать любые другие существующие user-агенты.

Disallow

Отвечает за запрет индексации указанных директорий. Нельзя указывать несколько папок в одной строке, поскольку роботы не смогут правильно интерпретировать правило. Данная директива может быть проигнорирована Googlebot, если на запрещенные к индексации директории есть ссылки на вашем сайте или других сайтах.

Если ваш сайт находится на стадии разработки и вы не хотите показывать его поисковикам, то запретить индексирование можно командами:

User-agent: * 
Disallow: /

Не забудьте изменить эти настройки после завершения всех работ по созданию сайта.

Allow

А эта директива, соответственно, открывает доступ роботов к указанным каталогам.

Причем указывать Allow: / не имеет смысла, поскольку по умолчанию индексация разрешена для всех каталогов, на которые не установлен запрет (Disallow).

Allow применяется обычно в комбинации с Disallow, например:

Disallow: /
Allow: /catalog

Запрет индексации корневой папки, но индексировать папку catalog можно.

Host

На данный момент директива не обрабатывается поисковыми роботами Google и Yandex (с марта 2018 года). Потому можно ее не использовать.

Ранее директива Host указывала на основное зеркало вашего сайта:

Host: https://site.com

Сейчас достаточно правильно настроить редиректы 301 с неосновных зеркал на основное.

Sitemap

Указывает ботам, где находится карта сайта, если это не стандартный путь https://site.com/sitemap.xml. Важно указывать полную ссылку на карту сайта, а не относительный путь:

Sitemap: https://site. com/private/sitemaps/sitemap_new.xml

Вы можете указывать разные карты для разных роботов при необходимости.

Crawl-Delay

Если роботы Yandex сильно нагружают хостинг, можно задать минимальный интервал между запросами. Например:

Crawl-Delay: 10 

Запись означает, что роботу разрешено делать запросы не чаще, чем раз в 10 секунд.

На практике это правило не всегда соблюдается, а Googlebot и вовсе его игнорирует — скорость обхода сайта регулируется в Search Console.

Также указав интервал, например, 0.1 сек вы можете ускорить индексацию сайта. Не факт, что запросы будут приходить по 10 раз в секунду, но сайт точно будет проиндексирован быстрее. Будьте осторожны с этой настройкой, если не уверены, что ваш сервер выдержит такой большой поток запросов.

Clean-param

Эта команда используется довольно редко и призвана убрать дубли страниц, которые образуются различными utm-метками, сессиями, сортировками, фильтрами.

Например, при переходе на страницу сайта в URL подставляется referrer — сайт откуда был сделан переход:

https://site. com/catalog/dveri?ref=google.com.ua&model_id=125
https://site.com/catalog/dveri?ref=yandex.ua&model_id=125
https://site.com/catalog/dveri?ref=ek.ua&model_id=125

Поисковики будут считать эту страницу как три разных. Чтобы склеить дубли, нужно добавить команду:

Clean-param: ref /catalog/dveri

Подстановочные символы

Подстановочные символы в robots.txt используются для упрощения и сокращения записей.

Символ * — любая последовательность символов.

Disallow: /images/*.jpg$

Запись означает: запретить индексирование всех изображений jpg в папке images.

Символ $ — конец строки. Данный символ ограничивает раскрытие содержимого каталогов, например:

Disallow: /images/$ 

Эта запись не позволит попасть в индекс элементам непосредственно в папке images, но элементы в папках /images/public1//images/public2/ и т. д. будут индексироваться.

Символ # — комментирование. Все символы в строке, идущие за этим символом будут проигнорированы ботами.

Какие ошибки часто допускают при написании robots.txt?

  1. Имя робота в Disallow.
    Неправильно:
Disallow: Yandex

Правильно:

User-agent: Yandex
Disallow: /

2. Несколько папок в одной строке Disallow.
Неправильно:

Disallow: /admin/ /tmp/ /private/

Правильно:

Disallow: /admin/
Disallow: /tmp/
Disallow: /private/

3. Сам файл должен называться только robots.txt, а не Robots.txt, ROBOTS.TXT и т. д.

4. Нельзя оставлять пустым правило User-agent, нужно прописать * или имя робота, для которого далее будут прописаны правила.

5. Имена папок и доменов кириллицей. URL нужно писать в формате URL-encode, а IDN-домены в puny-code.
Неправильно:

Disallow: /корзина

Правильно:

Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

Неправильно:

Sitemap: https://мойсайт. com/admin/sitemap1.xml

Правильно:

Sitemap: https://xn--80arbjktj.com/admin/sitemap1.xml

6. Очень много правил — большой размер файла. Если файл robots.txt весит больше 32 КБ, то он не обрабатывается и считается полностью разрешающим.

Надеемся, что мы смогли ответить на некоторые вопросы о настройке robots.txt и процессе индексации в поисковых системах.

Ниже оставим ссылки с примерами файла robots.txt для популярных CMS. Если будете использовать эти файлы, не забудьте изменить имя домена на свое:

  • Robots для wordpress: WordPress
  • Robots для Joomla: Joomla
  • Robots для OpenCart: OpenCart
  • Robots для Bitrix: Bitrix
  • Robots для Drupal: Drupal
  • Robots для MODX Evolution: MODX Evolution
  • Robots для MODX Revolution: MODX Revolution
  • Robots для Webasyst: Webasyst

Robots.txt для SEO (основы SEO)

9 марта 2022 г.   | Сообщение от Liraz Postan

Файлы robots.txt — это элементы на ваших веб-сайтах, которые вы не хотите выбрасывать. Они разрешают и блокируют вход нежелательным посетителям-ботам, пытающимся «подсмотреть» контент вашего сайта.

Это более или менее простой способ определения файлов robots.txt.

В этом посте я расскажу об основах SEO в файле robots.txt.

Вы узнаете:

  • Когда их следует использовать
  • Как их реализовать
  • Ошибки, которых следует избегать

Боты, используемые поисковыми системами, — это пауки, которые сканируют Интернет для индексации содержимого веб-сайтов со всего Интернета. Эта информация позволяет поисковым системам узнать о содержимом веб-страниц, чтобы его можно было получить при необходимости.

Как только вы поймете процесс веб-сканирования, вы также поймете, почему файлы robots.txt полезны для вашего веб-сайта. Они здесь, чтобы защитить вас от посетителей, шныряющих вокруг. Они будут предоставлять только ту информацию, которую вы хотите показать о своем сайте.

Чтобы лучше понять файлы robots. txt, давайте подробнее рассмотрим, что они из себя представляют и как они сочетаются друг с другом.

Что такое файлы robots.txt?

Robots.txt. файлы, также известные как протокол исключения роботов, — это файлы, читаемые поисковыми системами и содержащие правила предоставления или отказа в доступе ко всем или определенным частям вашего веб-сайта. Поисковые системы, такие как Google или Bing, отправляют поисковые роботы для доступа к вашему веб-сайту и собирают информацию, которую они могут использовать, чтобы ваш контент мог отображаться в результатах поиска.

Чтобы понять, как работают файлы robot.txt, попробуйте представить ботов или маленьких пауков, ползающих по вашему сайту в поисках информации. Подумайте о тех научно-фантастических фильмах, когда миллионы роботов-пауков ползают по этому месту и вынюхивают, чтобы найти хотя бы малейшее возможное свидетельство присутствия самозванца.

через GIPHY

Эти простые текстовые файлы используются для SEO, выдавая команды индексирующим ботам поисковых систем, которые могут или не могут сканировать страницу. Файлы robots.txt в основном используются для управления бюджетом поисковых роботов и пригодятся, когда вы не хотите, чтобы эти поисковые роботы получали доступ к части вашего сайта.

Robots.txt. файлы очень важны, потому что они сообщают поисковым системам, где им разрешено сканировать. По сути, они блокируют ваш сайт частично или полностью или индексируют ваш сайт. Другими словами, это способ сделать ваш сайт доступным для поисковых систем.

Процесс сканирования в действии

Процесс сканирования веб-сайтов в поисках контента известен как сканирование. Основная задача поисковых систем — сканировать сеть, чтобы находить и индексировать контент, переходя по миллионам ссылок. Когда робот заходит на сайт, первое, что он делает, — это ищет файлы robots.txt, чтобы получить информацию о том, сколько «отслеживания» он может сделать.0003

Поисковые системы соблюдают правила, установленные в ваших файлах robots.txt. Если файла robot.txt нет или на сайте нет запрещенной деятельности, боты будут сканировать всю информацию. Однако некоторые поисковые системы, такие как Google, не поддерживают все указанные директивы, и мы подробнее остановимся на этом ниже.

Зачем использовать файлы robots.txt?

Файлы robots.txt позволяют веб-сайтам делать несколько вещей, например:

  • блокировать доступ ко всему сайту
  • Заблокировать доступ к части сайта
  • Блокировать доступ к одному URL-адресу или определенным параметрам URL-адреса
  • Блокировать доступ ко всему каталогу
  • Позволяет устанавливать подстановочные знаки

Файлы robots.txt контролируют активность поисковых роботов на вашем сайте, предоставляя им доступ к определенным областям. Всегда есть причины, по которым вы не предоставляете Google или другим поисковым системам доступ к определенным частям вашего сайта. Одним из них может быть то, что вы все еще разрабатываете свой веб-сайт или хотите защитить конфиденциальную информацию.

Хотя веб-сайты могут работать без файла robots. txt, важно помнить о некоторых преимуществах их использования:

  • Предотвращение сканирования личных папок или поддоменов поисковыми системами
  • Предотвращение сканирования дублированного контента и посещения страниц, которые вы считаете незначительными
  • Запретить индексацию некоторых изображений на вашем сайте
  • Предотвращение и управление перегрузкой сервера
  • Предотвратить замедление работы сайта

Обратите внимание, что указание ботам не сканировать страницу не означает, что она не будет проиндексирована. URL-адрес появится в поисковой системе, но без мета-описания.

Как найти, создать и протестировать файлы robots.txt?

Файл robots.txt всегда находится в корневом домене веб-сайта. Например, вы можете найти его как https://www.example.com/robots.txt. Если вы хотите отредактировать его, вы можете получить доступ к диспетчеру файлов в CPanel хоста.

Если на вашем веб-сайте нет файла robots.txt, создать его довольно просто, поскольку это обычный текстовый файл, созданный в текстовом редакторе. Просто откройте пустой документ .txt и вставьте свои директивы. Когда вы закончите, просто сохраните файл как «robots.txt», и он у вас есть.

Если вы обычно делаете много ошибок при наборе текста, может быть разумно использовать генератор robots.txt, чтобы избежать SEO-катастроф и свести к минимуму синтаксические ошибки.Помните, что даже малейшая ошибка в пропущенной или добавленной букве или цифре может привести к проблемам.

После создания файла robots.txt поместите его в соответствующий корневой каталог домена. Обязательно проверьте файл перед запуском, чтобы убедиться, что он действителен. Для этого вам необходимо перейти на страницу поддержки Google и нажать кнопку «открыть тестер robots.txt». К сожалению, этот вариант тестирования доступен только в старой версии Google Search Console.

Выберите свойство, которое вы хотите проверьте, удалите все, что может быть в поле, и вставьте свой файл robots. txt. Если ваш файл получает одобрение, значит, у вас есть полнофункциональный файл robots.txt. Если нет, вам нужно вернуться и найти ошибку.

Реализация директив сканирования 

Каждый файл robots.txt состоит из директив, предоставляющих поисковым системам доступ к информации. Каждая директива начинается с указания пользовательского агента, а затем установки правил для этого пользовательского агента. Ниже мы составили два списка; один содержит поддерживаемые директивы, а другой не поддерживается пользовательскими агентами.

Поддерживаемые директивы 

  • User-agent — директива, используемая для определенных ботов. Поисковые системы ищут пользовательские агенты и блоки, которые к ним применяются. У каждой поисковой системы есть отметка user-agent. Из-за чувствительности к регистру убедитесь, что вы вводите правильную форму пользовательских агентов.

    Например:

    Агент пользователя: Googlebot

    Агент пользователя: Bingbot


    • Запретить — используйте эту директиву, если хотите, чтобы поисковые системы не сканировали определенные области веб-сайта. Вы можете сделать следующее:
    заблокировать доступ к каталогу в целом для всех юзер-агентов:
    пользовательский агент: *
    Запретить: /
    Заблокировать определенный каталог, в частности, для всех пользовательских агентов
    пользовательский агент: *
    Запретить: /portfolio
    Заблокируйте доступ к PDF или любым другим файлам для всех пользовательских агентов. Просто используйте соответствующее расширение файла.
    пользовательский агент: *
    Disallow: *.pdf$

    • Allow — эта директива позволяет поисковым системам сканировать страницу или каталог. Следует помнить, что вы можете переопределить запрещенную директиву. Допустим, вы не хотите, чтобы поисковые системы сканировали каталог портфолио, но разрешите им доступ к определенному.
    агент пользователя: *
    Запретить: /portfolio
    Разрешить: /portfolio/allowed-portfolio

    • Карта сайта — предоставление поисковым системам карты сайта облегчает их сканирование.

    Неподдерживаемые директивы 

    • Задержка сканирования — это хорошая директива, которую можно использовать, когда вы хотите, чтобы боты замедлялись и задерживались между сканированиями, чтобы не перегружать ваши серверы. Эта директива весьма полезна для небольших веб-сайтов, а не для больших. Просто обратите внимание, что директива задержки сканирования больше не поддерживается Google и Baidu, но Яндекс и Bing все еще поддерживают ее.
    • Noindex — директива, используемая для исключения веб-сайта или файла из поисковых систем. Эта команда никогда не поддерживалась Google. Итак, если вы хотите избежать поисковых систем, вам нужно использовать HTTP-заголовок x-robots или метатег robots.
    • Nofollow — еще одна директива, никогда не поддерживаемая Google и используемая для указания поисковым системам не переходить по ссылкам на страницах. Используйте заголовки x-robots или роботы с метатегами, чтобы использовать директиву nofollow для всех ссылок.
    • Директива хоста — используется, чтобы решить, хотите ли вы показывать www. перед URL-адресом (example.com или www.example.com). Эта директива на данный момент поддерживается только Яндексом, поэтому не рекомендуется полагаться на нее.

    Использование подстановочных знаков

    Подстановочные знаки — это символы, используемые для упрощения инструкций robots.txt. Подстановочные знаки могут использоваться для адресации и применения директив ко всем пользовательским агентам или для индивидуального обращения к конкретным пользовательским агентам. Вот часто используемые подстановочные знаки:

    • Звездочка (*) — в директивах соответствует «применить ко всем пользовательским агентам». Также может использоваться для соответствия «соответствовать шаблонам URL или любой последовательности символов». Если у вас есть URL-адреса, которые следуют одному и тому же шаблону, это значительно облегчит вам жизнь.
    • Знак доллара ($) — используется для обозначения конца URL-адреса.

    Давайте посмотрим, как это будет выглядеть на примере. Если вы решили, что все поисковые системы не должны иметь доступ к вашим PDF-файлам, тогда robots.txt должен выглядеть так:
    пользовательский агент: *
    Disallow: /*.pdf$

    Таким образом, URL-адреса, заканчивающиеся на .pdf, будут недоступны. Но обратите внимание, что если ваш URL-адрес содержит дополнительный текст после окончания .pdf, этот URL-адрес будет доступен. Таким образом, при написании файлов robots.txt убедитесь, что вы учли все аспекты.

    Ошибки, которых следует избегать 

    Использование файлов robot.txt полезно, и существует множество способов их работы. Но давайте углубимся и рассмотрим ошибки, которых следует избегать при использовании файла robots.txt.

    Преимущества огромны, но есть и много вреда, который может быть нанесен, если файлы robot.txt не используются должным образом.

    • Новая строка — используйте новую строку для каждой директивы, чтобы не путать поисковые системы
    • Обратите внимание на чувствительность к регистру — правильно создавайте файлы robots. txt, так как они чувствительны к регистру. Обратите на это пристальное внимание, иначе они не будут работать
    • Избегайте блокировки контента. Не забудьте несколько раз просмотреть теги disallow и noindex, потому что они могут повредить результатам SEO. Будьте осторожны, чтобы не заблокировать хороший контент, который должен быть представлен публично
    • Защитите личные данные — для защиты личной информации разумно попросить посетителей войти в систему. Таким образом, вы будете уверены, что PDF-файлы или другие файлы будут в безопасности
    • Чрезмерное использование задержки сканирования. Небольшой совет: не злоупотребляйте никакими директивами, особенно задержкой сканирования. Если вы работаете с большим веб-сайтом, использование этой директивы может привести к обратным результатам. Вы ограничите сканирование ботов максимальным количеством URL-адресов в день, что нецелесообразно.

    Дублированный контент 

    Существует несколько причин, по которым ваш сайт может содержать дублированный контент. Это может быть версия для печати, страница, доступная по нескольким URL-адресам, или разные страницы с похожим содержанием. Поисковые системы не могут распознать, является ли это дубликатом или нет.

    В подобных случаях пользователю необходимо пометить URL-адрес как канонический. Этот тег используется для информирования поисковой системы об исходном местонахождении дубликата. Если пользователь этого не сделает, тогда пользовательский агент выберет, что является каноническим, или, что еще хуже, они могут пометить оба содержимого как канонические. Другой способ избежать этого — переписать контент.

    Let Crawling Eyes Index 

    Когда поисковые системы сканируют или просматривают ваш веб-сайт, они просматривают все содержимое веб-сайта для его индексации. Этот процесс позволяет просканированным веб-сайтам появляться в разделе результатов поисковых систем.

    Используя robots.txt, вы сообщаете поисковым системам, где у них есть или нет доступ. Вы в основном ограничиваете их, устанавливая соответствующие правила. Использование robots.txt довольно простое и полезное. Как только вы изучите правила назначения директив, вы сможете многое сделать со своим веб-сайтом.

    Рекомендуется следить за файлами robots.txt, чтобы убедиться, что они настроены правильно и работают в соответствии с кодом. Если вы заметили какую-либо неисправность, реагируйте быстро, чтобы избежать катастроф.

    Считайте файлы robots.txt важным инструментом для успешного управления индексацией вашего веб-сайта.

    Об авторе

    Лираз Постан

    Follow @MordyOberstein

    Лираз — международный эксперт по SEO и контенту, помогающий брендам и издателям расти с помощью поисковых систем. Она является бывшим директором по поисковой оптимизации и контенту Outbrain, а ранее более десяти лет работала в игровой индустрии, B2C и B2B.



    Robots.txt для SEO: Ваше полное руководство

    Что такое robots.txt и почему он важен для поисковой оптимизации (SEO)? Robots. txt — это набор необязательных директив, которые сообщают поисковым роботам, к каким частям вашего веб-сайта они могут получить доступ. Большинство поисковых систем, в том числе Google, Bing, Yahoo и Yandex, поддерживают и используют txt-роботы для определения веб-страниц, которые следует сканировать, индексировать и отображать в результатах поиска.

    Если у вас возникли проблемы с индексацией вашего веб-сайта поисковыми системами, проблема может быть в файле robots.txt. Ошибки robot.txt являются одними из наиболее распространенных технических проблем SEO, которые появляются в отчетах SEO-аудита и приводят к значительному падению поискового рейтинга. Даже опытные поставщики технических услуг SEO и веб-разработчики подвержены ошибкам robot.txt.

    Таким образом, важно, чтобы вы понимали две вещи: 1) что такое robots.txt и 2) как использовать robots.txt в WordPress и других системах управления контентом (CMS). Это поможет вам создать файл robots. txt, оптимизированный для SEO, и упростит для веб-пауков сканирование и индексирование ваших веб-страниц.

    В этом руководстве мы рассмотрим:

    • Что такое robots.txt?
    • Что такое поисковый робот и как он работает?
    •  Как выглядит Robot Txt?
    •  Для чего используется robots.txt?
    • Расположение файла robots.txt WordPress
    • Где находится файл robots.txt в WordPress?
    •  Как найти Robots.txt в cPanel
    •  Как найти Magento Robots.txt
    •  Передовой опыт работы с Robots Txt

     
    Давайте углубимся в основы robots.txt. Читайте дальше и узнайте, как вы можете использовать файл robots.txt для улучшения индексируемости и индексируемости вашего веб-сайта.


    Что такое robots.txt?

    Robots txt, также известный как стандарт или протокол исключения роботов, представляет собой текстовый файл, расположенный в корневом или основном каталоге вашего веб-сайта. Он служит инструкцией для поисковых роботов, какие части вашего сайта они могут и не могут сканировать.

    Robots.Text Timeline

    Текстовый файл robots.txt представляет собой стандарт, предложенный создателем Allweb Мартейном Костером для регулирования того, как различные роботы поисковых систем и поисковые роботы получают доступ к веб-контенту. Вот обзор разработки файла robots txt за последние годы:

    В 1994 году Костер создал веб-паука, который вызывал вредоносные атаки на его серверы. Чтобы защитить веб-сайты от плохих поисковых роботов, Костер разработал robot.text, чтобы направлять поисковых ботов на нужные страницы и препятствовать им достигать определенных областей веб-сайта.

    В 1997 году в Интернете был создан черновик для определения методов управления веб-роботами с использованием файла txt для роботов. С тех пор robot.txt использовался для ограничения или направления робота-паука для выбора частей веб-сайта.

    1 июля 2019 года Google объявила, что работает над формализацией спецификаций протокола исключения роботов (REP) и превращением его в веб-стандарт — спустя 25 лет после того, как текстовый файл robots был создан и принят поисковыми системами.

    Цель состояла в том, чтобы детализировать неуказанные сценарии для синтаксического анализа и сопоставления роботов txt для адаптации к современным веб-стандартам. Этот интернет-проект указывает, что:

    1.  Любой протокол передачи на основе универсального идентификатора ресурса (URI), такой как HTTP, протокол ограниченных приложений (CoAP) и протокол передачи файлов (FTP), может использовать robots txt.
    2.  Веб-разработчики должны проанализировать как минимум первые 500 кибибайт файла robot.text, чтобы уменьшить ненужную нагрузку на серверы.
    3.  SEO-контент robots.txt обычно кэшируется на срок до 24 часов, чтобы у владельцев веб-сайтов и веб-разработчиков было достаточно времени для обновления их файла robots.txt.
    4.  Запрещенные страницы не сканируются в течение достаточно длительного периода, когда текстовый файл robots становится недоступным из-за проблем с сервером.

    Со временем в отрасли было предпринято несколько усилий по расширению механизмов исключения роботов. Однако не все поисковые роботы могут поддерживать эти новые текстовые протоколы для роботов. Чтобы четко понять, как работает robots.text, давайте сначала определим поисковый робот и ответим на важный вопрос: как работают поисковые роботы?


    Что такое поисковый робот и как он работает?

    сканер веб-сайтов , также называемый роботом-пауком , сканер или поисковый бот 9029 , обычно управляемый поисковыми системами Google и поисковыми системами , 9029 . Веб-паук сканирует сеть, чтобы анализировать веб-страницы и гарантировать, что информация может быть получена пользователями в любое время, когда они в ней нуждаются.

    Что такое поисковые роботы и какова их роль в техническом SEO? Для определения поискового робота крайне важно ознакомиться с различными типами поисковых роботов в Интернете. У каждого робота-паука своя цель:

    1. Боты поисковых систем

    Что такое поисковый робот? Бот поисковой системы-паука — один из наиболее распространенных поисковых роботов, используемых поисковыми системами для сканирования и очистки Интернета. Боты поисковых систем используют SEO-протоколы robots.txt, чтобы понять ваши предпочтения при сканировании веб-страниц. Зная ответ на вопрос, что такое поисковый паук? дает вам преимущество в оптимизации вашего robots.text и обеспечении его работы.

    2. Коммерческий веб-паук

    Коммерческий сканер сайтов — это инструмент, разработанный компаниями-разработчиками программного обеспечения, чтобы помочь владельцам веб-сайтов собирать данные с их собственных платформ или общедоступных сайтов. Несколько фирм предоставляют рекомендации по созданию поискового робота для этой цели. Обязательно сотрудничайте с коммерческой компанией, занимающейся сканированием веб-страниц, которая максимизирует эффективность поискового робота для удовлетворения ваших конкретных потребностей.

    3. Персональный поисковый бот

    Персональный поисковый робот помогает компаниям и частным лицам извлекать данные из результатов поиска и/или отслеживать эффективность своего веб-сайта. В отличие от поискового робота-паука, персональный поисковый робот имеет ограниченную масштабируемость и функциональность. Если вам интересно, как создать поисковый робот для веб-сайтов, выполняющий определенные задачи для поддержки ваших усилий по технической оптимизации, обратитесь к одному из многочисленных руководств в Интернете, в которых показано, как создать поисковый робот, работающий с вашего локального устройства.

    4. Настольный сканер сайтов

    Настольный робот-сканер запускается локально с вашего компьютера и полезен для анализа небольших веб-сайтов. Однако поисковые роботы для настольных компьютеров не рекомендуются, если вы анализируете десятки или сотни тысяч веб-страниц. Это связано с тем, что для сканирования больших сайтов требуется специальная настройка или прокси-серверы, которые не поддерживаются ботом-обходчиком.

    5. Боты, сканирующие авторские права

    Поисковый робот веб-сайтов, защищающих авторские права, ищет контент, нарушающий закон об авторских правах. Поисковым ботом этого типа может управлять любая компания или лицо, владеющее материалами, защищенными авторским правом, независимо от того, знаете ли вы, как создать поисковый робот или нет.

    6. Облачный краулер-робот

    Облачные краулер-боты используются в качестве инструмента технического SEO-сервиса. Облачный поисковый робот, также известный как «Программное обеспечение как услуга» (SaaS), работает на любом устройстве с подключением к Интернету. Этот интернет-паук становится все более популярным, потому что он сканирует веб-сайты любого размера и не требует нескольких лицензий для использования на разных устройствах.

    Почему важно знать: что такое поисковые роботы?

    Поисковые боты обычно запрограммированы на поиск robot.text и выполнение его указаний. Однако некоторые сканирующие боты, такие как спам-боты , сборщики электронной почты и вредоносные роботы , часто игнорируют SEO-протокол robots.txt и не имеют лучших намерений при доступе к содержимому вашего сайта.

    Что такое поведение поискового робота, если не превентивная мера, направленная на улучшение вашего присутствия в Интернете и улучшение взаимодействия с пользователем? Пытаясь понять ответ на вопрос, что такое паук поисковой системы? и чем он отличается от плохих сканеров сайта, вы можете гарантировать, что паук хорошей поисковой системы сможет получить доступ к вашему сайту и предотвратить нежелательные поисковые роботы, которые могут испортить ваш пользовательский интерфейс (UX) и поисковый рейтинг.

    8-й ежегодный отчет о плохих ботах, подготовленный Imperva, показывает, что в 2020 году плохие поисковые роботы генерировали 25,6% всего трафика сайта , в то время как хорошие поисковые роботы генерировали только 15,2% трафика . Из-за множества разрушительных действий, на которые способны роботы-пауки, такие как мошенничество с кликами, захват учетных записей, очистка контента и рассылка спама, стоит знать 1) какой веб-сканер полезен для вашего сайта? и 2) каких ботов вам нужно блокировать при создании текста для роботов?

    Должны ли маркетологи научиться создавать поисковый робот для веб-сайтов?

    Вам не обязательно учиться создавать поисковый робот для веб-сайтов. Оставьте технические аспекты разработки поискового робота SEO компаниям, занимающимся программными решениями, и вместо этого сосредоточьтесь на оптимизации txt для своих SEO-роботов.

    Никто не создает свой собственный веб-краулер, если он специально не собирает данные с сайта», — сказал Роннел Вилориа, старший SEO-стратег Thrive по формированию спроса. «С точки зрения технического SEO инструменты для сканирования сайтов уже существуют. Только в том случае, если вы постоянно собираете десятки ГБ данных, было бы рентабельно создавать и размещать свой собственный поисковый робот».

    Как работают поисковые роботы?

    В этом быстро меняющемся цифровом ландшафте простого знания того, что такое веб-краулер, недостаточно, чтобы оптимизировать txt для SEO-роботов. Помимо «что такое поисковые роботы?» вам также необходимо ответить на вопрос «как работают поисковые роботы?» чтобы убедиться, что вы создаете текст для робота, содержащий правильные директивы.

    Поисковые пауки в основном запрограммированы на выполнение автоматических повторяющихся поисков в Интернете для создания индекса. Индекс — это место, где поисковые системы хранят веб-информацию для извлечения и отображения в релевантных результатах поиска по запросу пользователя.

    Поисковый робот следует определенным процессам и политикам, чтобы улучшить процесс сканирования веб-сайта и достичь своей цели в паутине.

    Итак, как именно работает поисковый робот? Давайте взглянем.

    Поиск URL-адресов Веб-пауки начинают сканирование веб-страниц со списка URL-адресов, а затем переходят между ссылками на страницы для сканирования веб-сайтов. Чтобы улучшить возможности сканирования и индексации вашего сайта, обязательно расставьте приоритеты в отношении навигации по сайту, создайте четкую карту сайта robots.txt и отправьте файл robots.txt в Google.
    Исследуйте список семян Поисковые системы предоставляют своим поисковым роботам список семян или URL-адресов для проверки. Затем пауки поисковых систем посещают каждый URL-адрес в списке, определяют все ссылки на каждой странице и добавляют их в список семян для посещения. Веб-пауки используют карты сайта и базы данных ранее просканированных URL-адресов, чтобы исследовать больше веб-страниц в Интернете.
    Добавить в индекс Как только поисковый робот посещает URL-адреса в списке, он находит и отображает контент, включая текст, файлы, видео и изображения, на каждой веб-странице и добавляет его в список. индекс.
    Обновление индекса Поисковые роботы учитывают ключевые сигналы, такие как релевантность и свежесть ключевых слов и контента, при анализе веб-страницы. Как только поисковый робот обнаруживает какие-либо изменения на вашем веб-сайте, он соответствующим образом обновляет свой поисковый индекс, чтобы убедиться, что он отражает последнюю версию веб-страницы.

    Согласно Google, компьютерные программы определяют, как сканировать веб-сайт. Они оценивают воспринимаемую важность и релевантность, спрос на сканирование и уровень интереса поисковых систем и онлайн-пользователей к вашему веб-сайту. Эти факторы влияют на то, как часто интернет-паук будет сканировать ваши веб-страницы.

    Как работает поисковый робот и обеспечивает выполнение всех политик Google в отношении сканирования Интернета и запросов поискового робота?

    Чтобы лучше сообщать поисковым системам о том, как сканировать веб-сайт, поставщики технических услуг SEO и эксперты по веб-дизайну WordPress советуют вам создать файл robots.txt, в котором четко указаны ваши предпочтения по сканированию данных. SEO robots txt — это один из протоколов, которые веб-пауки используют для управления процессом сканирования Google и данных в Интернете.


    png» nitro-lazy-empty=»» src=»data:image/svg+xml;nitro-empty-id=MTI1Mzo1NDY=-1;base64,PHN2ZyB2aWV3Qm94PSIwIDAgMzk3IDExMSIgd2lkdGg9IjM5NyIgaGVpZ2h0PSIxMTEiIHhtbG5zPSJodHRwOi8vd3d3LnczLm9yZy8yMDAwL3N2ZyI+PC9zdmc+»/>

    Инструкции сканирования Spider задаются с помощью следующих директив:

    User-agent

    Директива user-agent относится к имени поискового робота, для которого предназначена команда. Это первая строка для любого формата robots.txt или группы правил.

    Команда агента пользователя использует подстановочный знак или символ * . Это означает, что директива распространяется на всех поисковых ботов. Директивы могут также применяться к определенным пользовательским агентам.

    Каждый поисковик SEO имеет свое имя. Поисковые роботы Google называются Googlebot , поисковый робот Bing идентифицируется как BingBot , а интернет-паук Yahoo называется Slurp . Вы можете найти список всех пользовательских агентов здесь.

    # Пример 1
    Пользовательский агент: *
    DISLAING: / WP-ADMIN /

    В этом примере, с с тех пор *. все пользовательские агенты от доступа к URL-адресу. 9Пример 2 Это означает, что все поисковые роботы могут получить доступ к URL-адресу, кроме поисковых роботов Google.

    04040404040404040404040404040404040404040404040404040404040404040404040404040404040н.0002 Пример № 3 показывает, что всем агентам пользователя, кроме поискового робота Google и интернет-паука Yahoo, разрешен доступ к URL-адресу.

    Разрешить

    Команда robots.txt allow указывает, какой контент доступен агенту пользователя. Директива разрешения Robots.txt поддерживается Google и Bing.

    Имейте в виду, что за протоколом robot.txt , разрешающим , должен следовать путь , к которому могут получить доступ поисковые роботы Google и другие поисковые роботы. Если нет указан путь , поисковые роботы Google будут игнорировать разрешающую директиву robot.txt.

    # Пример 3
    Пользовательский агент: Googlebot
    Пользовательский агент: SLURP
    DISLINGEIT: / WP-ADMIN /

    # Пример 1
    Пользовательский агент: *
    ALLICE: /WP-ADMIN/ADMIN-AJAX.PHP
    DISLILLY: /WP-ADMIN.PHP
    . Например, директива robots.txt allow применяется ко всем пользовательским агентам. Это означает, что роботы txt блокируют доступ всех поисковых систем-пауков к каталогу /wp-admin/, кроме страницы 9.0225 /wp-admin/admin-ajax.php .

    # Пример 2: Избегайте противоречивых директив, подобных этим
    Пользовательский агент: *
    . Таким образом, сканеры Google и поисковые пауки будут сбиты с толку тем, что делать с URL-адресом http://www.yourwebsite.com/example.php . Непонятно, какому протоколу следовать.

    Во избежание проблем со сканированием веб-страниц Google избегайте использования подстановочных знаков при совместном использовании директив robot.txt allow и robots disallow.

    Disallow

    Команда robots.txt disallow используется для указания того, какие URL-адреса не должны использоваться роботами Google и поисковыми роботами веб-сайтов. Как и за командой robots.txt allow, за директивой robots.txt disallow также должен следовать путь , к которому вы не хотите, чтобы поисковые роботы Google имели доступ.

    # Пример 1
    User-agent: *
    Disallow: /wp-admin/

    /wp-admin/ каталог.
    Команда disallow в файле robots. txt используется для указания того, какие URL-адреса не должны использоваться роботами Google и поисковыми роботами веб-сайтов. Как и команда robots.txt allow, директива robots.txt disallow также должна сопровождаться путем, к которому вы не хотите, чтобы поисковые роботы Google имели доступ.

    # Пример 2
    Пользовательский агент: *
    DISLAING:

    Этот робот. весь веб-сайт — потому что ничего не запрещено.

    Примечание: Несмотря на то, что эта директива robots disallow содержит всего две строки, обязательно используйте правильный формат robots.txt. Не писать user-agent: * Disallow: в одной строке, потому что это неправильно. При создании robots.txt каждая директива должна находиться на отдельной строке.

    # Пример 3
    User-agent: *
    Disallow: /

    a2’s2

    В этом примере директива disallow в файле robot. txt эквивалентна команде robots disallow all. Проще говоря, вы скрываете весь свой сайт от поисковых роботов Google и других поисковых роботов.

    Примечание: Аналогично приведенному выше примеру ( user-agent: * Disallow: ), избегайте использования однострочного синтаксиса robots.txt ( user-agent: * Disallow: / ), чтобы запретить доступ к вашему Веб-сайт.

    Формат robots.txt, подобный этому user-agent: * Disallow: / , может запутать поисковый робот Google и вызвать проблемы с разбором robot.txt в WordPress.

    Карта сайта

    Команда robots.txt sitemap используется для указания поисковым роботам Google и поисковым роботам XML-карты сайта. Карта сайта robots.txt поддерживается Bing, Yahoo, Google и Ask.

    Как добавить карту сайта в robots.txt? Знать ответы на эти вопросы полезно, особенно если вы хотите, чтобы как можно больше поисковых систем получили доступ к вашей карте сайта.

    # Пример
    User-agent: *
    Disallow: /wp-admin/
    Карта сайта: https://yourwebsite.com/sitemap1.xml
    Карта сайта: https://yourweb.com /sitemap2.xml

    В этом примере команда robots disallow запрещает всем поисковым ботам доступ к /wp-admin/. Синтаксис robot.txt также указывает на то, что на веб-сайте можно найти две карты сайта. Когда вы знаете, как добавить карту сайта в robots.txt, вы можете поместить несколько карт сайта в формате XML в файл txt вашего робота.

    Crawl-delay

    Директива robots.txt о задержке сканирования поддерживается основными роботами-пауками. Он предотвращает перегрузку сервера поисковым роботом Google и другими поисковыми роботами. Команда robots txt crawl delay позволяет администраторам указать, как долго поисковые роботы Google и поисковые роботы должны ждать между каждым запросом сканирования Google в миллисекундах.

    # Пример
    User-agent: *
    Disallow: /wp-admin/
    Запретить: /calendar/
    Запретить: /events/

    Агент пользователя: BingBot
    Запретить: /calendar/
    Запретить: /events/
    Задержка сканирования: 10

    Карта сайта: https://yourwebsite.com/sitemap .xml

    В этом примере директива задержки сканирования robots.txt указывает поисковым роботам ждать не менее 10 секунд перед запросом другого URL-адреса.

    Некоторые веб-пауки, такие как поисковый робот Google, не поддерживают команды задержки сканирования robots txt. Прежде чем отправлять robots.txt в Google и другие поисковые системы, обязательно проверьте синтаксис robots.txt в средстве проверки txt, чтобы избежать проблем с синтаксическим анализом.

    Baidu, например, не поддерживает директивы о задержке сканирования txt для роботов, но вы можете использовать инструменты Baidu для веб-мастеров, чтобы контролировать частоту сканирования вашего веб-сайта. Вы также можете использовать Google Search Console (GSC) для определения скорости сканирования поисковым роботом.

    Host

    Директива host сообщает поисковым роботам предпочитаемый вами зеркальный домен или копию вашего веб-сайта, размещенную на другом сервере. Зеркальный домен используется для распределения нагрузки по трафику и предотвращения задержек и нагрузки на сервер на вашем сайте.

    # Пример
    Пользовательский агент: *
    DISLAIN вы хотите, чтобы поисковые системы показывали yourwebsite.com или www.yourwebsite.com .

    Оператор конца строки

    Знак $ используется для обозначения конца URL-адреса и указывает поисковому роботу Google, как сканировать веб-сайт с параметрами. Ставится в конце пути.

    # Пример
    Пользовательский агент: *
    DISLAING: * . HTML $

    В этом примере. для сканирования URL-адресов веб-сайтов Google, которые заканчиваются на .html .

    Это означает, что URL-адреса с такими параметрами, как этот https://yourwebsite.com/page.html?lang=en , по-прежнему будут включены в запрос сканирования Google, поскольку URL-адрес не заканчивается после 9.0225 .html .

    Комментарии

    Комментарии служат руководством для специалистов по веб-дизайну и разработке, и им предшествует знак # . Их можно разместить в начале строки файла robot.txt WordPress или после команды. Если вы размещаете комментарии после директивы, убедитесь, что они находятся в одной строке.

    Все после # будет игнорироваться поисковыми роботами Google и поисковыми роботами.

    # Пример 1: Запретить доступ к директории /wp-admin/ всем поисковым ботам.
    User-agent: *
    Disallow: /wp-admin/


    Disallow: /wp-admin/ # Блокировать доступ к каталогу /wp-admin/.


    Для чего используется robots.txt?

    Синтаксис Robot.txt используется для управления трафиком сканирования вашего веб-сайта. Он играет решающую роль в том, чтобы сделать ваш сайт более доступным для поисковых систем и онлайн-посетителей.

    Хотите научиться использовать robots.txt и создавать robots txt для своего веб-сайта? Вот основные способы улучшить эффективность SEO с помощью файла robots.txt для WordPress и других CMS:

    1 . Не перегружайте свой веб-сайт поисковым роботом и поисковым роботом.
    2 . Запретите поисковым роботам Google и поисковым роботам сканировать частные разделы вашего веб-сайта с помощью директив robots txt nofollow .
    3 . Защитите свой сайт от плохих ботов.
    4 . Максимально увеличьте бюджет сканирования — количество страниц, которые поисковые роботы могут просканировать и проиндексировать на вашем веб-сайте в течение заданного периода времени.
    5 . Повысьте сканируемость и индексируемость вашего сайта.
    6 . Избегайте дублирования контента в результатах поиска.
    7 . Скрывайте незавершенные страницы от поисковых роботов Google и поисковых роботов до того, как они будут готовы к публикации.
    8 . Улучшите пользовательский опыт.
    9 . Передайте ссылочный вес или ссылочный вес на нужные страницы.

    Трата краулингового бюджета и ресурсов на страницы с малозначительными URL-адресами может отрицательно сказаться на возможности сканирования и индексации. Не ждите, пока ваш сайт столкнется с некоторыми техническими проблемами SEO и значительным падением рейтинга, прежде чем вы, наконец, отдадите приоритет изучению того, как создавать файлы robots txt для SEO.

    Освойте оптимизацию robots.txt Google, и вы защитите свой сайт от вредоносных ботов и онлайн-угроз.

    Все ли веб-сайты должны создавать текст робота?

    Не всем веб-сайтам необходимо создавать файл robots.txt. У поисковых систем, таких как Google, есть системы для сканирования страниц веб-сайта Google, и они автоматически игнорируют дубликаты или неважные версии страницы.

    Технические специалисты по поисковой оптимизации, однако, рекомендуют вам создать файл robots.txt и внедрить передовые методы robots.txt, чтобы обеспечить более быстрое и лучшее сканирование и индексирование веб-страниц роботами Google и поисковыми роботами.

    По словам Эдгара Дагохоя, специалиста по поисковой оптимизации Thrive, новым веб-сайтам не нужно беспокоиться о том, как использовать robots.txt, поскольку ваша цель — сделать свои веб-страницы доступными для как можно большего числа поисковых роботов. С другой стороны, если вашему веб-сайту больше года, он может начать набирать трафик и привлекать запросы сканирования Google и проблемы с запросами поисковых роботов.

    [Когда это произойдет], вам нужно будет заблокировать эти URL-адреса в файле robots.txt WordPress, чтобы это не повлияло на ваш краулинговый бюджет», — сказал Дагохой. «Обратите внимание, что веб-сайты со многими неработающими URL-адресами реже сканируются ботами поисковых систем, и вы не хотели бы этого для своего сайта».

    Как упоминалось выше, знание того, как редактировать robots.txt для SEO, дает вам значительное преимущество. Что еще более важно, это дает вам уверенность в том, что ваш сайт защищен от вредоносных атак со стороны плохих ботов.

    WordPress Robots.txt Местоположение

    Готовы создать robots.txt? Первый шаг к достижению целевого бюджета паутины — научиться находить robots.txt на своем веб-сайте. Вы можете найти местоположение robots.txt WordPress, перейдя по URL-адресу вашего сайта и добавив /robots.txt параметр.

    Например: yourwebsite.com/robots.txt

    Вот скриншот синтаксиса robots. txt на веб-сайте Thrive:

    Это пример оптимизированной поисковой системы и текстового файла Google robots. Синтаксис robot.txt Thrive содержит команды robots.txt disallow и robot.txt allow, которые указывают роботам веб-сканирования Google и поисковым роботам, какие страницы сканировать и индексировать.

    Помимо директив robot.txt disallow и allow, каталог robots.txt для Google и поисковых роботов также содержит карту сайта robots.txt, которая направляет поисковые роботы на XML-карту сайта и позволяет избежать траты целевого бюджета сканирования паутины.

    Где находится robots.txt в WordPress?

    WordPress считается самой популярной и широко используемой системой управления контентом в мире, поддерживающей примерно 40% всех веб-сайтов в Интернете. Неудивительно, что многие владельцы веб-сайтов стремятся научиться редактировать файл robots.txt WordPress. Некоторые даже обращаются к специалистам по веб-дизайну WordPress, чтобы получить помощь в оптимизации файла robots. txt для WordPress.

    Где находится robots.txt в WordPress? Выполните следующие действия, чтобы получить доступ к файлу robots.txt WordPress:

    1 . Войдите в панель управления WordPress как администратор.


    2
    . Перейдите к «SEO».
    3 . Нажмите «Закваска». Это плагин WordPress, который вы должны установить на своем веб-сайте, чтобы редактировать robots.txt WordPress и создавать обновления robots txt в любое время.

    4 . Нажмите «Редактор файлов». Этот инструмент позволяет быстро вносить изменения в директивы Google robots.txt.

    5 . Теперь вы можете просматривать файл robots.txt WordPress и редактировать каталог robots.txt WordPress.

    Что касается того, как получить доступ к robots.txt в WordPress и обновить директивы robot.txt, запрещающие показывать URL-адрес, ограниченный robots txt? Просто следуйте тому же процессу, который вы использовали, чтобы определить, где находится файл robots. txt в WordPress.

    Не забудьте сохранить все изменения, внесенные вами в файл robots.txt для WordPress, чтобы обеспечить актуальность команд robots.txt no index и robot.txt allow.

    Как найти Robots.txt в cPanel

    cPanel — одна из самых популярных панелей управления на базе Linux, используемая для максимально эффективного управления учетными записями веб-хостинга. Веб-разработчики также используют cPanel для создания файла robots.txt.

    Как найти robots.txt в cPanel: выполните следующие действия, чтобы получить доступ к поисковым роботам и txt-файлу Google robots в cPanel.

    1 . Войдите в свою учетную запись cPanel.
    2 . Откройте « File Manager » и перейдите в корневой каталог вашего сайта.
    3 . Вы должны иметь доступ к поисковым ботам и текстовому файлу роботов Google в том же месте, что и индекс или первая страница вашего сайта.

    Как редактировать robots. txt в cPanel

    Если вы хотите отредактировать папку запрета robots.txt или внести необходимые изменения в синтаксис robots.txt, просто:

    1 . Выделите файл robots.txt без индекса.
    2 . Нажмите « Editor » или « Code Edit » в верхнем меню, чтобы отредактировать команды robots txt nofollow.
    3 . Нажмите « Сохранить изменения », чтобы сохранить последние изменения в каталоге запрета robots.txt.

    Как создать файл robots.txt в cPanel

    Чтобы создать файл robots.txt в cPanel, выполните следующие действия:

    1 . Войдите в свою учетную запись cPanel.
    2 . Перейдите в раздел « Files » и нажмите « File Manager ».
    3 . Нажмите « Новый файл » и нажмите «9».0225 Создать новый файл Кнопка «. Теперь вы можете создать файл robots. txt.

    Как найти Magento Robots.txt

    Помимо распространенного вопроса о том, как получить доступ к robots.txt в WordPress, многие владельцы веб-сайтов также стремятся узнать, как получить доступ, редактировать и оптимизировать Magento robots.txt, чтобы лучше общаться для поиска пауков URL ограниченный robots txt.

    Magento — это платформа электронной коммерции со встроенным PHP, предназначенная для помощи веб-разработчикам в создании SEO-оптимизированных веб-сайтов электронной коммерции. А как найти Magento robots.txt?

    1 . Войдите в свою панель управления Magento.
    2 . Перейдите к « Admin panel », затем нажмите « Stores ».
    3 . Перейдите в « Settings », затем выберите « Configuration ».
    4 . Откройте раздел « поисковых роботов ». Теперь вы можете просматривать и редактировать файл robots. txt, чтобы определить URL-адрес, ограниченный robots txt.
    5 . По завершении нажмите кнопку « Save Config 9».0226 ”кнопка.

    А как насчет того, как создать robots txt в Magento? Тот же процесс применяется при создании файла robots.txt для Magento. Вы также можете нажать кнопку « Reset to Default », если вам нужно восстановить инструкции по умолчанию.


    Robots Txt Best Practices

    Изучение того, как получить доступ к robots.txt в WordPress и как редактировать robots.txt на различных платформах, — это только первые шаги в оптимизации ваших директив robots.txt no index и robot.txt allow.

    Чтобы управлять процессом оптимизации файла robots.txt, выполните следующие действия:

    1 . Проводите регулярные аудиты с помощью средства проверки текста robots. Google предлагает бесплатную программу проверки txt для роботов, которая поможет вам определить любые проблемы с файлом robots. txt на вашем веб-сайте.

    2 . Узнайте, как добавить карту сайта в robots.txt и применить ее к файлу robots.txt.
    3 . Используйте блокировку всех директив robots.txt, чтобы поисковые роботы не могли получить доступ к личным файлам или незавершенным страницам на вашем веб-сайте.
    4 . Проверьте журналы вашего сервера.
    5 . Отслеживайте отчет о сканировании в Google Search Console (GSC), чтобы определить, сколько поисковых роботов сканирует ваш сайт. В отчете GSC показано общее количество запросов на сканирование с разбивкой по ответам, типам файлов, целям и типам роботов Googlebot.

    6 . Проверьте, генерирует ли ваш сайт трафик и запросы от плохих ботов. Если это так, вам нужно заблокировать их с помощью robots.txt block all директив.
    7 . Если на вашем веб-сайте много ошибок 404 и 500, и они вызывают проблемы с веб-сканированием, вы можете реализовать 301 перенаправляет . В случае быстрого роста ошибок и достижения миллионов 404 страниц и 500 ошибок, вы можете использовать директивы robots txt block all, чтобы ограничить доступ некоторых пользовательских агентов к вашим веб-страницам и файлам. Обязательно оптимизируйте файл robots.txt, чтобы устранить повторяющиеся проблемы со сканированием веб-страниц.
    8 . Заручитесь услугами профессиональных технических SEO-сервисов и решений для веб-разработки, чтобы правильно внедрить robots txt block all, robot.txt allow и другие директивы в синтаксисе robots.txt.

    Распространенные ошибки в robots.txt, которых следует избегать

    Обратите внимание на эти распространенные ошибки при создании файла robots.txt и избегайте их, чтобы улучшить сканируемость сайта и производительность в Интернете:

    Размещение robots.txt директивы в одну строку. Каждая директива txt для робота всегда должна располагаться на отдельной строке, чтобы предоставить поисковым роботам четкие инструкции о том, как сканировать веб-сайт.
    Неверно: User-agent: * Disallow: /
    Неверно: User-agent: * Disallow:

    ❌Не удалось отправить robots.txt в Google. Всегда отправляйте обновленный файл robots.txt в Google. Независимо от того, внесли ли вы небольшие изменения, например, добавили robots.txt, запрещающие все команды для определенных пользовательских агентов, или удалили robots.txt, запрещающие все директивы, обязательно нажмите кнопку «Отправить». Таким образом, Google будет уведомлен о любых изменениях, внесенных вами в файл robots.txt.

    ❌Размещение неверных директив robots.txt no index. Это может привести к тому, что ваш веб-сайт не будет просканирован поисковыми ботами, потеря ценного трафика и, что еще хуже, внезапное падение рейтинга в поиске.

    ❌Не помещать текстовый файл робота в корневой каталог. Размещение файла robots.txt в подкаталогах может сделать его недоступным для поисковых роботов.
    Неверно: https://www.yourwebsite.com/assets/robots.txt
    Правильно: https://www.yourwebsite.com/robots.txt

    ❌Неправильное использование robots.txt Запретить все команды, подстановочные знаки, косая черта в конце и другие директивы. Всегда запускайте файл robot.text на валидаторе robots.txt перед сохранением и отправкой в ​​Google и другие поисковые системы, чтобы не создавать ошибки robots.txt.

    ❌ Использование генератора файлов robots.txt для создания файла robots.txt. Хотя генератор файла robots.txt является полезным инструментом, полагаться исключительно на него, не выполняя ручную проверку директив robots.txt, запрещающих все, robot.txt разрешать команды и пользовательские агенты в вашем txt-файле робота, — плохая практика. у вас небольшой веб-сайт, допустимо использование генератора файлов robots.txt для создания robots.txt. Но если у вас есть веб-сайт электронной коммерции или вы предлагаете множество услуг, обязательно обратитесь за помощью к специалисту по созданию и оптимизации файла robots. txt.

    ❌Игнорирование отчетов валидатора robots.txt. Валидатор robots.txt существует не просто так. Таким образом, максимально используйте средство проверки robots.txt и другие инструменты, чтобы убедиться, что ваши усилия по оптимизации robots.txt для SEO находятся на правильном пути.


    Получите контроль над бюджетом сканирования

    Работа с оптимизацией robots.txt и другими техническими вопросами SEO может быть утомительной, особенно если у вас нет необходимых ресурсов, рабочей силы и возможностей для выполнения необходимых задач. Не напрягайтесь, решая проблемы с сайтом, которые быстро могут решить профессионалы.

    Доверьте свои локальные SEO, техническую оптимизацию и другие нужды цифрового маркетинга Агентству интернет-маркетинга Thrive, и мы поможем вам укрепить ваш онлайн-авторитет.

    robots.txt | Часто задаваемые вопросы по Вики

    Внимание!

    Директивы указанные в файле robots. txt являются только рекомендациями для ботов, они не гарантируют их выполнение отдельными сервисами.

    Файл robots.txt состоит из групп правил, определяющих поведение роботов на сайте.

    Важные моменты:
    • Файл robots.txt должен иметь именно такое имя и его кодировка должна быть UTF-8.

    • Размер файла robots.txt не должен превышать 32 КБ.

    • Файл robots.txt должен находиться в корневом каталоге сайта… То есть он должен быть доступен через браузер по адресу вида http://www.example.com/robots.txt .

    • На одном сайте может существовать только один файл robots.txt .

    • Каждая директива должна начинаться с новой строки.

    • По умолчанию все страниц сайта разрешены для обработки роботом. Запрет определенных страниц осуществляется с помощью директивы Disallow .

    • Правила чувствительны к регистру.

    Синтаксис

    Каждая группа может содержать несколько одинаковых правил. Например, это полезно для указания нескольких роботов или страниц.

    Группа правил должна быть в следующем порядке и состоять из указанных директив:

    1. User-agent обязательная директива , может быть указана несколько раз в одной группе правил.

    2. Запретить и Разрешить обязательные директивы. По крайней мере один из них должен быть указан в каждой группе правил.

    3. Хост , Задержка сканирования , Карта сайта — необязательные директивы.

    Чтобы указать регулярные выражения, используйте:

    Основные директивы

    Внимание!

    Следует иметь в виду, что адреса или имена, указанные в правилах, чувствительны к регистру. Индикация Пример и Пример дадут разные результаты.

    Агент пользователя

    Директива User-agent определяет имя робота, к которому будет применяться правило. Чтобы указать всех роботов, вы можете использовать:

     Агент пользователя: * 

    Если эта директива указана с конкретным именем робота — правило с * будет проигнорировано.

    Указанные директивы разрешат доступ роботу с именем Googlebot и запретят другим:

     Агент пользователя: *
    Запретить: /
    Агент пользователя: Googlebot
    Запретить: 

    Запретить

    Директива Disallow определяет страницы, доступ к которым роботам запрещен.

    Вы можете запретить доступ ко всему сайту, указав:

     Запретить: / 

    Запрет на отдельные страницы может быть указан следующим образом:

     Запретить: /admin 
    Внимание!

    При указании /admin доступ будет запрещен к каталогу admin и файлам с таким именем, например admin. php и admin.html … Запретить доступ только к каталогу можно указать /admin/ .

    Разрешить

    Директива Разрешить определяет страницы, доступ к которым роботам запрещен. Директива используется для создания исключений при указании Запретить .

    Следующее правило определяет блокировку для робота Googlebot всего сайта, кроме каталога страниц :

     Агент пользователя: Googlebot
    Запретить: /
    Разрешить: /pages/ 

    Хост

    Директива Хост определяет базовый домен сайта . Директива полезна, если к сайту привязано несколько доменных имен и для корректной поисковой индексации, таким образом, можно указать, какой домен будет основным, чтобы остальные домены определялись как зеркала, технические адреса и т.д.

    Пример использования директивы внутри сайта с доменами example.com и domain.com , где для всех роботов example. com будет основным доменом:

     Агент пользователя: *
    Запретить:
    Хост: domain.com 

    Задержка сканирования

    Директива Crawl-delay определяет интервал между окончанием загрузки одной страницы и началом загрузки следующей для роботов. Эта директива полезна для уменьшения запросов к сайту, что помогает снизить нагрузку на сервер. Интервал указывается в секундах.

    Пример использования:

     Агент пользователя: *
    Запретить:
    Задержка сканирования: 3 

    Карта сайта

    Директива Карта сайта определяет URL — адрес файла карты сайта на сайте. Эта директива может быть указана несколько раз. Адрес должен быть указан в формате протокол://адрес/путь/к/карте сайта .

    Пример использования:

     Карта сайта: https://example.com/sitemap.xml
    Карта сайта: http://www.example.com/sitemap.xml 

    Многодоменный robots.txt

    Внимание!

    Для реализации существующий файл robots. txt необходимо удалить, а также в настройках сайта должен быть установлен параметр « Отправлять запросы на бэкэнд, если файл не найден » или расширение txt должно быть удалено из статические файлы.

    Если сайт использует несколько доменов, например с помощью псевдонимов, то настройки, указанные в файле robots.txt , могут отличаться для каждого сайта из-за конкретной SEO-оптимизации или других задач. Для реализации динамического robots.txt выполните следующие действия:

    1. Прочтите важную информацию в этой статье и убедитесь, что соблюдены все условия.

    2. Создать файлы domain.com-robots.txt в корневом каталоге сайта, где вместо domain.com указать домен, для которого будут действовать указанные правила.

    3. Укажите необходимые правила для каждого домена в созданных файлах.

    4. Настроить вывод файлов, добавив в начало файла 9robots\. txt$ %{HTTP_HOST}-robots.txt [L]

    5. Проверить вывод правил для каждого из доменов.

    Как использовать файл robots.txt для улучшения сканирования вашего сайта поисковыми ботами? — База знаний

    Органический поиск стал неотъемлемой частью нашей повседневной жизни. Последние данные показывают, что около 30 процентов глобального веб-трафика приходится на онлайн-поиск.

    Поисковые системы каждый день просматривают и индексируют миллиарды веб-контента, ранжируя его в результатах поиска в соответствии с релевантностью— насколько они релевантны поисковым запросам — сделать их общедоступными.

    Вы можете настроить директивы о том, как вы хотите, чтобы поисковые системы сканировали и показывали ваш веб-контент публике, используя файл robot.txt . В этой статье вы узнаете все, что вам нужно знать о файле robots.txt.

    Понимание файла Robot.txt

    Поисковая индексация начинается с простого сканирования поисковой системой. Файл robots.txt, также известный как Протокол исключения роботов инструктирует поисковых роботов о сканировании веб-сайта — куда и куда не идти. Пользователи часто используют этот файл для указания страниц, которые поисковые системы не должны сканировать .

    Когда поисковая система обнаруживает веб-сайт по ссылкам или карте сайта , она открывает файл robots.txt веб-сайта, чтобы узнать, какие страницы сканировать, а какие нет. Сканер кэширует файл robots.txt, чтобы он не открывался при каждом посещении веб-сайта. Кэшированный файл автоматически обновляется несколько раз каждый раз , регулярно обновляя его.

    Файл robots.txt чувствителен к регистру и находится в корне домена, например, www.domain.com/robots.txt.

    Почему файл robots.txt имеет значение

    Создание файла robot.txt для вашего веб-сайта имеет множество преимуществ; например, вы можете использовать его для управления краулинговым бюджетом . Поисковые пауки часто имеют заранее определенное количество страниц , которые они могут просканировать на веб-сайте, или количество времени, которое они могут провести на веб-сайте. Если вы управляете веб-сайтом с тысячами страниц, вы можете блокировать неважные страницы, чтобы максимизировать краулинговый бюджет .

    Другие преимущества использования файла robots.txt включают:

    • Он помогает веб-администраторам контролировать веб-страницы, которые могут посещать поисковые системы.
    • Файл дает пользователям полную свободу блокировать определенных ботов от сканирования их веб-сайтов.
    • Этот файл помогает предотвратить индексирование конфиденциального содержимого.
    • Вы можете использовать его для блокировки индексации ненужных файлов, таких как изображения, PDF и видео.

    Улучшение сканируемости с помощью файла robots. txt

    Теперь, как улучшить сканируемость веб-сайта с помощью файла robots.txt? Конечно, узнаем.

    Синтаксис Robots.txt 

    Файл robots содержит один или несколько блоков директив для поисковых систем, причем в первой строке указывается пользовательский агент — имя поискового паука, которому вы даете директиву сканирования.

    Вот как выглядит базовый файл robots.txt:

    Карта сайта: https://yourdomain.com/sitemap_index.xml

    Агент пользователя: *

    Запретить: /*?comments=all

    Запретить: /wp-content/themes/user/js/script-comments.js

    Запретить: /wp-comments-post.php

    Запретить: /go/

     

    Агент пользователя: Googlebot

    Запретить: /login

     

    User-agent: bingbot

    Disallow: /photo

    Приведенный выше файл robots.txt содержит три блока директив: первая директива предназначена для всех пользовательских агентов, вторая директива — для поисковых роботов Google , а третья — для ботов Bing.

    Вот что означают эти термины:

    • Карта сайта указывает местоположение карты сайта веб-сайта, в которой перечислены все страницы веб-сайта, что упрощает их поиск и сканирование поисковыми роботами. Вы также можете разместить карту сайта в конце файла robots.txt.
    • Агент пользователя относится к поисковым роботам, которым вы хотите адресовать директивы, как объяснялось ранее. Использование подстановочного знака звездочки (*) назначает директиву всем пользовательским агентам, но вы можете указать пользовательский агент, используя его правильное имя.
    • Disallow предписывает агентам пользователя не сканировать указанный URL-адрес. Вы можете оставить строку пустой, чтобы указать, что вы ничего не запрещаете.

    Директива Allow предписывает ботам сканировать указанный URL-адрес, даже если предыдущая инструкция запрещала его каталог, и вот пример.

    Агент пользователя: *

    Запретить: /wp-admin/

    Разрешить: /wp-admin/admin-ajax. php

    Файл robots.txt блокирует каталог wp-admin , который содержит конфиденциальный WordPress файлов, включая плагины и темы, но позволяет паукам сканировать и индексировать файл admin-ajax.php в каталоге.

    Директива crawl-delay (crawl-delay: 10) сообщает пользовательским агентам ждать указанное количество секунд (например, десять секунд) перед обходом страницы.

    Директива указывает поисковым системам изменить частоту сканирования страницы, помогая вам сэкономить трафик. К сожалению, Google больше не распознает эту директиву, но Yahoo и Bing все еще распознают ее.

    Директивы User-Agent

    Большинство поисковых систем имеют разные сканеры для разных целей. Например, в некоторых поисковых системах есть пауки для обычной индексации изображений и видео, а в некоторых, таких как Bing, есть пауки даже для их рекламной программы.

    Итак, мы составили таблицу всех распространенных пользовательских агентов, доступных на сегодняшний день, в алфавитном порядке.

    Давайте посмотрим.

    Серийный номер Поисковая система Боты Тип Агент пользователя
    1 Байду Общая индексация байдуспайдер
    2 Байду Изображение baiduspider-изображение
    3 Байду Мобильное индексирование байдуспайдер-мобиль
    4 Байду Новости baiduspider-новости
    5 Байду Видео baiduspider-видео
    6 Бинг Общий Бингбот
    7 Бинг Общий msnbot
    8 Бинг Изображения и видео мснбот-медиа
    9 Бинг Объявления adidxbot
    10 Гугл Общий Гуглбот
    11 Гугл Изображения Googlebot-изображение
    12 Гугл Мобильный Googlebot для мобильных устройств
    13 Гугл Новости Googlebot-Новости
    14 Гугл Видео Googlebot-видео
    15 Гугл Адсенс Медиапартнеры-Google
    16 Гугл Объявления AdsBot-Google
    17 Яху Общий чавкать
    18 Яндекс Общий яндекс

    Пользовательские агенты чувствительны к регистру, поэтому правильно используйте имя при настройке файла robots. txt.

    Настройка директив сканирования

    Давайте рассмотрим некоторые способы использования файла robots.txt для беспрепятственного сканирования вашего веб-сайта.

    Сканирование всего веб-сайта

    Вы, , можете настроить файл robots.txt, чтобы все поисковые роботы могли сканировать и индексировать весь ваш веб-сайт. Мы не рекомендуем это делать, если на вашем веб-сайте есть личные или конфиденциальные файлы.

    Однако, чтобы дать эту директиву, добавьте следующие строки в файл robots.txt.

    User-agent: *

    Disallow: 

    Но если вы хотите разрешить только избранным паукам сканировать и индексировать весь веб-сайт , то укажите юзер-агентам, конечно, один блок директив на каждый user-agent.

    Блокировка всего веб-сайта

    Чтобы запретить поисковым системам сканировать и индексировать ваш веб-сайт, особенно если вы редизайнируете веб-сайт, вы можете заблокировать индексацию всего веб-сайта. Добавьте эту директиву в файл robots.txt, чтобы это было сделано.

    User-agent: *

    Disallow: /

    Чтобы бот не сканировал ваш сайт, укажите user-agent.

    Блокировка выбранных разделов

    Чтобы заблокировать определенные разделы веб-сайта, настройте директиву запрета для папки или страницы, и вот пример.

    User-agent: *

    Disallow: /Videos

    Директива запрещает всем поисковым роботам сканировать каталог видео и все, что в нем. Вы также можете использовать регулярные выражения, такие как подстановочный знак (*) и ($), чтобы заблокировать группы файлов . К сожалению, большинство поисковых систем не распознают последний, в том числе Google.

    Но вот как использовать регулярные выражения для блокировки группы файлов.

    Запретить: images/*.jpg

    Запретить: /*php$

    Подстановочный знак (*) блокирует файлы в каталоге изображений , содержащие .jpg в имени файла, а ($) блокирует все файлы, имена которых заканчиваются на . php.

    Обратите внимание, что значения disallow, allow и user-agent чувствительны к регистру. В двух приведенных выше примерах поисковые роботы блокируют:

    •   Каталог видео , но не блокирует /видео
    • /images/beach.jpg но будет сканироваться /images/beach.JPG

    Файл Robot.txt против. Тег NoIndex

    Файл robots.txt предписывает поисковым роботам не сканировать страницу, но может не мешать поисковым системам индексировать страницу, если на нее ссылается множество веб-сайтов. Если поисковая система обнаружит достаточное количество внешних ссылок на страницу , она проиндексирует страницу, не зная ее содержания, и даст вам результат поиска, который выглядит следующим образом:

    Но вы можете добавить директиву Noindex в файл robots.txt , чтобы файлы не отображались в результатах поиска.

    User-agent: *

    Disallow: /Videos

    Noindex: /Videos

    Вы также можете добавить мета-тег robots noindex в заголовок страницы, чтобы надежно предотвратить ее индексацию поисковыми системами. Если вы используете эту опцию, избегайте блокировки страницы с помощью robots.txt, чтобы поисковые роботы могли найти тег.

    Создание файла robot.txt

    Вы можете создать файл robots.txt для своего веб-сайта с помощью некоторых интуитивно понятных онлайн-инструментов, и вот только пять:

    • Генератор файлов SureOak Robots.txt
    • Бесплатный генератор SEOptimer Robots.txt
    • Генератор SEO PowerSuite Robots.txt
    • Генератор файлов SEOBook Robots.txt

    Добавление файла robots.txt в ваш домен

    Вы можете добавить недавно созданный файл robots.txt в свой домен через панель управления учетной записью, и вот как это сделать.

    Шаг 1: Доступ к панели управления вашей учетной записью

    Получите доступ к панели управления вашей учетной записи, войдя в SPanel. Посетите www.domain.com/spanel/login , заменив domain.com своим доменным именем.

    Введите свои учетные данные для входа в систему. 

    Если вы вошли в систему как администратор , SPanel перенесет вас на панель администратора, но при доступе пользователя вы попадете в панель управления. На панели администратора прокрутите до БЫСТРЫЕ ССЫЛКИ и нажмите Список учетных записей .

    Нажмите кнопку Действия учетной записи, для которой вы хотите получить доступ к панели управления, и выберите Войти из раскрывающегося меню , чтобы получить доступ.

    Шаг 2: Откройте диспетчер файлов

    На панели управления щелкните Диспетчер файлов в разделе ФАЙЛЫ .

    Откройте базовый или корневой каталог вашего сайта. Корневой домен использует папку public_html в качестве корневого каталога.

    Шаг 3. Создайте файл Robots. txt

    В корневом каталоге щелкните значок Новый файл/папка и выберите Новый файл .

    Назовите новый файл robots.txt без заглавных букв и нажмите OK для сохранения

    Напишите свои директивы сканирования или скопируйте и вставьте их в пустой файл и сохраните.

    Вот и все.

    Подведение итогов

    При публикации файла robots.txt используйте инструмент Google robots.txt Tester , чтобы проверить директивы сканирования, чтобы убедиться, что вы не отклонили по ошибке страницы, которые не собираетесь блокировать.

    И вы можете выбрать любой агент пользователя Google, который вы хотите имитировать . Если у вас есть вопросы, связанные с robots.txt, обратитесь в нашу службу поддержки для получения быстрой помощи. Мы всегда доступны и готовы помочь.

    Robots.txt Рекомендации для начинающих

    Файл robots. txt — это файл на вашем веб-сервере, используемый для управления ботами, такими как Googlebot, поисковый робот Google. Вы можете использовать его, чтобы запретить Google и Bing сканировать части вашего сайта.

    Мой друг Себастьян также был достаточно любезен, чтобы помочь мне создать руководство для идиотов по Robots.txt. Q&A ниже:

    Что ж, в «идиотской версии» не будет интересных деталей, но она поможет вам начать. Robots.txt — это обычный текстовый файл. Вы не должны редактировать его с помощью HTML-редакторов, текстовых процессоров или любых других приложений, кроме обычного текстового редактора, такого как vi (Хорошо, notepad.exe тоже разрешен). Вы не должны вставлять изображения и тому подобное, а также любой другой HTML-код строго запрещен.

    Содержание
    [hoboTOC use=”h3″]

    Почему мне не следует редактировать файл robots.txt, например, с помощью FTP-клиента Dreamweaver?

    Потому что все эти причудливые приложения вставляют бесполезную чепуху вроде форматирования, HTML-кода и прочего. Скорее всего, поисковые системы не способны интерпретировать файл robots.txt вида:

    .
     DOCTYPE текстовый/обычный ПУБЛИЧНЫЙ
    "-//W3C//DTD TEXT 1.0 Transitional//Суахили"
    "http://www.w3.org/TR/text/DTD/plain1-transitional.dtd">
    {\b\lang2057\langfe1031\langnp2057\insrsid6
    4\charrsid11089941 Агент пользователя: Googlebot } { \lang2057\langfe1031\langnp2057\insrsid6
    4\charrsid11089941 \строка Запретить: / \line Разрешить: }{\cs15\i\lang2057\langfe1031\langnp2057\insrsid6
    4\charrsid2

    5 {\i\lang2057\langfe1031\langnp2057\insrsid6
    4\charrsid2

    5 content }{ \cs15\i\lang2057\langfe1031\langnp2057\insrsid6
    4\charrsid2

    5 / 0 ...

     

    (Хорошо, хорошо, я придумал этот пример, но он представляет необработанное содержимое текстовых файлов, сохраненных с помощью HTML-редакторов и текстовых процессоров.)

    Где разместить на веб-сайте файл robots. txt?

    Robots.txt находится в корневом каталоге вашего веб-пространства, это либо домен, либо поддомен, например

     "/веб/пользователь/htdocs/example.com/robots.txt" 

    преобразование в

     http://example.com/robots.txt. 

    Могу ли я использовать Robots.txt в подкаталогах?

    Конечно, вы можете создавать файлы robots.txt во всех ваших подкаталогах, но вы не должны ожидать, что поисковые системы будут запрашивать или выполнять их. Если вы по каким-то странным причинам используете поддомены, такие как crap.example.com, то example.com/robots.txt не совсем подходящий инструмент для управления сканированием поддоменов, поэтому убедитесь, что каждый поддомен обслуживает свой собственный robots.txt. Когда вы загружаете свой robots.txt, обязательно делайте это в режиме ASCII, ваш FTP-клиент обычно предлагает «ASCII|Авто|Двоичный» — выберите «ASCII», даже если вы использовали редактор ANSI для его создания.

    Почему я должен создавать файл robots.txt только с содержимым ASCII?

    Поскольку текстовые файлы содержат только содержимое ASCII. Иногда стандарты, которые говорят «загружать *.htm *.php *.txt .htaccess *.xml файлы в режиме ASCII, чтобы предотвратить их непреднамеренное повреждение во время передачи, хранения с недопустимыми кодами EOL и т. д.». есть смысл. (Вы просили идиотскую версию, не так ли?)

    Могу ли я использовать файл Robots.txt, если я нахожусь на Свободный хост?

    Если вы используете бесплатный хостинг, robots.txt не для вас. Ваша служба хостинга создаст «файл» robots.txt, доступный только для чтения, который подходит для кражи даже большего трафика, чем его реклама, которую вы не можете удалить из своих верхних и нижних колонтитулов. Теперь, если вам все еще интересна эта тема, вы должны изучить, как работают поисковые системы, чтобы понять, что вы можете заархивировать с помощью файла robots. txt, а что просто мифы, размещенные на вашем любимом форуме.

    Что добавить в файл robots.txt?

    Ваш файл robots.txt содержит полезные, но часто игнорируемые операторы, такие как

     # Пожалуйста, не сканируйте этот сайт в рабочее время! 

    (краулер не знает о вашем часовом поясе и не получает ваши рабочие часы с вашего сайта), а также фактические директивы краулера. Другими словами, все, что вы пишете в файле robots.txt, является директивой для поисковых роботов (глупых веб-роботов, которые могут извлекать ваше содержимое, но не более того), а не для индексаторов (высокосложных алгоритмов, которые ранжируют только наши с Мэттом мозги).

    В настоящее время в robots.txt можно использовать только три оператора:

     Запретить: /путь 
     Разрешить: /путь 
     Карта сайта: http://example.com/sitemap.xml 

    Некоторые поисковые системы поддерживают другие директивы, такие как «задержка сканирования», но это полная ерунда, поэтому смело игнорируйте их.

    Содержимое файла robots.txt состоит из разделов, посвященных определенным поисковым роботам. Если вам нечего скрывать, то ваш файл robots.txt выглядит так:

     Пользовательский агент: *
     Запретить:
     Разрешать: /
     Карта сайта: http://example.com/sitemap.xml 

     

    Если вас устраивает Google, но MSN вас пугает, то пишите:

     Пользовательский агент: *
     Запретить: 
     Агент пользователя: Googlebot
     Запретить: 
     Агент пользователя: msnbot
     Запретить: /

     

    Обратите внимание, что вы должны завершать каждый раздел искателя пустой строкой. Вы можете узнать имена сканеров, посетив раздел поисковой системы для веб-мастеров.

    Из приведенных выше примеров вы узнали, что у каждой поисковой системы есть свой раздел (по крайней мере, если вы хотите что-то скрыть от конкретной поисковой системы), что каждый раздел начинается с

     Агент пользователя: [имя сканера] 

    , и каждый раздел заканчивается пустой строкой. Имя пользовательского агента «*» обозначает универсального веб-робота, это означает, что если в вашем файле robots.txt отсутствует раздел для определенного поискового робота, он будет использовать директивы «*», и если у вас есть раздел для определенного сканер, он будет игнорировать раздел «*». Другими словами, если вы создаете раздел для краулера, вы должны продублировать все операторы из раздела «все краулеры» («User-agent: *»), прежде чем редактировать код.

    Теперь к директивам. Самая важная директива сканера —

    .
     Запретить: /путь 

    «Запретить» означает, что сканер не должен извлекать содержимое из URI, соответствующих «/path». «/path» — это либо относительный URI, либо шаблон URI («*» соответствует любой строке, а «$» отмечает конец URI). Не все поисковые системы поддерживают подстановочные знаки, например, MSN не поддерживает подстановочные знаки (когда-нибудь они могут вырасти).

    URI всегда относятся к корню веб-пространства, поэтому, если вы копируете и вставляете URL-адреса, удалите часть http://example. com, но не ведущую косую черту.

     

     Разрешить: путь/ 

    уточняет Запретить: утверждения, например

     Агент пользователя: Googlebot
     Запретить: /
     Разрешить: /content/ 

    разрешает сканирование только в пределах http://example.com/content/

     

     Карта сайта: http://example.com/sitemap.xml 

    указывает поисковым системам, поддерживающим протокол Sitemaps, файлы отправки.

    Обратите внимание, что все директивы robots.txt являются директивами сканера , которые не влияют на индексацию. Поисковые системы индексируют запрещенные URL-адреса, извлекая заголовок и фрагмент из иностранных источников, например, из списков ODP (DMOZ — The Open Directory) или из каталога Yahoo. Некоторые поисковые системы предоставляют метод для удаления запрещенного контента из своей поисковой выдачи по запросу.

    Скажем, я хочу, чтобы файл/папка не попадала в Google. Что именно мне нужно сделать?

    Вы бы проверили каждый HTTP-запрос для робота Googlebot и предоставили ему код ответа HTTP 403 или 410. Или поместите метатег Googlebot «noindex,noarchive».
    (*meta name="Googlebot" content="noindex,noarchive" /*). Блокирует robots.txt с помощью Disallow: не запрещать индексацию. Не блокируйте сканирование страниц, которые вы хотите деиндексировать, если вы не хотите использовать терминатор URL-адресов Google на основе robots.txt каждые шесть месяцев.

    Если кто-то хочет узнать больше о robots.txt, куда им обратиться?

    Честно говоря, я не знаю лучшего ресурса, чем мой мозг, частично сваленный сюда. Я даже разработал несколько новых директив robots.txt и отправил запрос на комментарии несколько дней назад. Я надеюсь, что Google, единственная поисковая система, которая серьезно инвестирует в развитие REP, не проигнорирует этот пост, вызванный украдкой встроенной «избиением Google». Планирую написать еще несколько постов, не то чтобы технических и с примерами из реального мира.

    Можно ли автоматически создать и замаскировать файл robots. txt?

    Конечно, вы можете спросить, и да, это для всех и на 100% этично. Это очень простая задача, по сути это обычная маскировка. Хитрость заключается в том, чтобы сделать файл robots.txt скриптом на стороне сервера. Затем проверьте все запросы проверенных поисковых роботов и предоставьте правильное содержимое каждой поисковой системе. Умный robots.txt даже поддерживает списки IP-адресов сканера и хранит необработанные данные для отчетов. Недавно я написал руководство по замаскированным файлам robots.txt по просьбе преданного читателя.

    Если вам понравилось это пошаговое руководство для начинающих, вы можете повысить свои знания на http://sebastians-pamphlets.com/

    Что Google говорит о файлах txt для роботов

    A robots .txt ограничивает доступ к вашему сайту для роботов поисковых систем, которые сканируют Интернет. Эти боты автоматизированы, и прежде чем получить доступ к страницам сайта, они проверяют, существует ли файл robots. txt, который не позволяет им получить доступ к определенным страницам. (Все уважаемые роботы будут соблюдать директивы в файле robots.txt, хотя некоторые могут интерпретировать их по-разному. Однако файл robots.txt не подлежит принудительному исполнению, и некоторые спамеры и другие нарушители спокойствия могут его игнорировать. По этой причине мы рекомендуем защищать паролем конфиденциальная информация.)

    Если вы хотите, чтобы поисковые системы индексировали все на вашем сайте, вам не нужен файл robots.txt (даже пустой). Хотя Google не будет сканировать или индексировать содержимое страниц, заблокированных robots.txt, мы может по-прежнему индексировать URL-адреса, если мы найдем их на других страницах в Интернете.

    В результате URL-адрес страницы и, возможно, другая общедоступная информация, такая как якорный текст в ссылках на сайт…. может отображаться в результатах поиска Google.

    • http://support.google.com/webmasters/bin/answer.py?hl=ru&answer=156449
    • http://code. google.com/web/controlcrawlindex/docs/robots_meta_tag.html

     


    Полное руководство по Robots.txt для SEO

    Robots.txt — это файл, который вы можете создать для управления сканированием вашего веб-сайта.

    Это практическая реализация протокола исключения роботов, который был создан для того, чтобы не позволял поисковым роботам перегружать веб-сайты слишком большим количеством запросов.

    Владельцам служб может быть неудобно, если сканеры посещают все их пространство URI. В этом документе указаны правила, изначально определенные «Протоколом исключения роботов», которым должны подчиняться сканеры при доступе к URI.

    источник: Протокол исключения роботов

    Несмотря на то, что вашему веб-сайту не обязательно использовать robots.txt , наличие файла может положительно повлиять на ваш бизнес, оптимизируя сканирование вашего сайта ботами поисковых систем.  

    По данным Веб-альманаха 2021 года, около 16,5% веб-сайтов вообще не имеют файла robots.txt. Кроме того, не все реализуют его правильно.

    На веб-сайтах могут быть неправильно сконфигурированы файлы robots.txt. Например, некоторые популярные веб-сайты (предположительно по ошибке) блокировали поисковые системы. Google может индексировать эти веб-сайты в течение определенного периода времени, но в конечном итоге их видимость в результатах поиска уменьшится.

    источник: Веб-альманах

    В зависимости от размера вашего веб-сайта неправильное использование robots.txt может быть незначительной ошибкой или очень дорогостоящей ошибкой.

    Эта статья покажет вам , как создать файл robots.txt и избежать потенциальных ошибок.

    Что такое robots.txt?

    Robots.txt — это простой текстовый файл, который вы можете разместить на своем сервере, чтобы контролировать доступ ботов к вашим страницам. Он содержит правила для поисковых роботов, определяющие, какие страницы следует или не следует сканировать.

    Файл должен находиться в корневом каталоге вашего сайта. Так, например, если ваш веб-сайт называется domain.com, файл robots.txt должен располагаться по адресу domain.com/robots.txt.

    Но как работает файл? Как боты узнают об этом?

    Краулеры — это программы, которые сканируют Интернет. Они используются по-разному, но поисковые системы используют их для поиска веб-контента для индексации. Этот процесс можно разделить на несколько шагов:

    1. Поисковые роботы имеют очередь URL-адресов, содержащих как новые, так и ранее известные веб-сайты, которые они хотят просканировать.
    2. Прежде чем сканировать веб-сайт, сканеры сначала ищут файл robots.txt в корневом каталоге веб-сайта.
    3. Если файл robots.txt не существует, поисковые роботы продолжают свободно сканировать веб-сайт. Однако, если существует действительный файл robots. txt, поисковые роботы ищут в нем директивы и соответствующим образом продолжают сканировать веб-сайт.

    Если поисковая система не может просканировать страницу, то эта страница не может быть проиндексирована и, следовательно, не будет отображаться на страницах результатов поиска.

    Однако есть два предостережения:

    1. Заблокированная для сканирования страница может быть проиндексирована

    Запрет сканирования в файле robots.txt не гарантирует, что поисковые системы не будут индексировать страницу. Они все равно могут это сделать, если найдут информацию о контенте в других источниках и решат, что это важно. Например, они могут найти ссылки, ведущие на страницу с других сайтов, использовать анкорный текст и показать его на странице результатов поиска.

    2. Вы не можете заставить роботов подчиняться правилам в robots.txt

    Robots.txt — это только рекомендация, а не обязательное правило. Вы не можете заставить ботов ему подчиняться. Большинство сканеров, особенно те, которые используются поисковыми системами, не будут сканировать страницы, заблокированные файлом robots.txt. Однако поисковые системы не единственные, кто использует сканеры. Вредоносные боты могут проигнорировать инструкции и все равно получить доступ к страницам. Вот почему вы не должны использовать robots.txt как способ защиты конфиденциальных данных на вашем веб-сайте от сканирования. Если вам нужно убедиться, что боты не будут сканировать часть вашего контента, лучше защитить его паролем.

    Зачем нужен файл robots.txt?

    Robots.txt не является обязательной частью вашего веб-сайта, но хорошо оптимизированный файл может принести вашему сайту множество преимуществ.

    Самое главное, это может помочь вам оптимизировать бюджет сканирования. Боты поисковых систем имеют ограниченные ресурсы, что ограничивает количество URL-адресов, которые они могут сканировать на данном веб-сайте. Поэтому, если вы тратите свой краулинговый бюджет на менее важные страницы, его может не хватить на более ценные. Если у вас небольшой веб-сайт, это может показаться поверхностным вопросом, но любой, кто поддерживает большой веб-сайт, знает, насколько важно эффективно использовать ресурсы поисковых ботов.

    С помощью файла robots.txt вы можете предотвратить сканирование определенных страниц, например некачественных . Это очень важно, потому что если у вас много индексируемых страниц низкого качества, это может повлиять на весь сайт и помешать ботам поисковых систем сканировать даже высококачественные страницы.

    Кроме того, файл robots.txt позволяет указать местоположение вашей XML-карты сайта. Карта сайта — это текстовый файл со списком URL-адресов, которые поисковые системы должны индексировать. Определение его ссылки в файле robots.txt облегчает его поиск ботам поисковых систем.

    Как изменить файл robots.txt

    Способ изменения файла robots.txt сильно зависит от используемой вами системы.

    Если вы используете CMS или платформу электронной коммерции, у вас может быть доступ к специальным инструментам или плагинам, которые помогут вам легко получить доступ к файлу и изменить его. Например, Wix и Shopify позволяют напрямую редактировать файл robots.txt. Для WordPress вы можете использовать такие плагины, как Yoast SEO.

    Если вы не используете CMS или платформу электронной коммерции, вам может потребоваться сначала загрузить файл, отредактировать его, а затем загрузить обратно на свой сайт.

    Вы можете загрузить файл различными способами:

    • Отобразите файл в браузере, добавив «/robots.txt» в корневой каталог, а затем просто скопируйте содержимое.
    • Используйте инструменты, предоставляемые вашим хостингом. Например, это может быть выделенная панель для управления файлами или доступа по протоколу FTP.
    • Используйте инструменты консоли, такие как cURL, для загрузки файла, введя эту команду:
     curl https://example.com/robots.txt -o robots.txt 
    • Используйте тестеры robots.txt от Google или Bing, чтобы загрузить копию файла.

    Загрузив robots.txt, вы можете просто отредактировать его в выбранном вами текстовом редакторе, таком как Блокнот (Windows) или TextEdit (Mac). Убедитесь, что файл закодирован в стандарте UTF-8, и помните, что он должен называться «robots.txt».

    После модификации robots.txt вы можете загрузить файл аналогично его скачиванию. Вы можете использовать специальные инструменты, предоставляемые вашим хостингом, использовать встроенные инструменты CMS или отправлять файлы напрямую на сервер по протоколам FTP.

    Как только ваш файл станет общедоступным, поисковые системы смогут найти его автоматически. Если по какой-то причине вы хотите, чтобы поисковые системы сразу же увидели изменения, вы можете использовать опцию «Отправить» в тестировщиках robots.txt от Google и Bing.

    Во время автоматического сканирования поисковые роботы Google замечают изменения, внесенные вами в файл robots.txt, и обновляют кешированную версию каждые 24 часа. Если вам нужно быстрее обновить кеш, используйте функцию Submit тестера robots.txt .

    источник: Google

    Синтаксис файла robots.

    txt

    Robots.txt состоит из блоков текста. Каждый блок начинается со строки User-agent и группирует директивы (правила) для конкретного бота.

    Вот пример файла robots.txt:

     User-agent: *
    Запретить: /admin/
    Запретить: /пользователи/
    
    #специфические инструкции для робота Googlebot
    Агент пользователя: Googlebot
    Разрешить: /wp-admin/
    Запретить: /пользователи/
    
    #специфические инструкции для Bingbot
    Агент пользователя: Bingbot
    Запретить: /admin/
    Запретить: /пользователи/
    Запретить:/не для Bingbot/
    Задержка сканирования: 10
    
    Карта сайта: https://www.example.com/sitemap.xml 

    User-agent

    Существуют сотни поисковых роботов, которые могут захотеть получить доступ к вашему веб-сайту. Вот почему вы можете захотеть определить для них разные границы в зависимости от их намерений. Вот когда User-agent может пригодиться.

    User-agent — это строка текста, идентифицирующая конкретного бота. Так, например, Google использует Googlebot, Bing использует Bingbot, DuckDuckGo использует DuckDuckBot, а Yahoo использует Slurp. Поисковые системы также могут иметь более одного User-agent. Здесь вы можете найти полный список пользовательских агентов, используемых Google и Bing.

    User-agent — обязательная строка в каждой группе директив. Вы можете думать об этом как об обращении к ботам по их именам и предоставлении каждому из них конкретной инструкции. Все директивы, которые следуют за User-agent, будут нацелены на определенного бота, пока не будет указан новый User-agent.

    Вы также можете использовать подстановочный знак и давать инструкции всем ботам одновременно. Я расскажу о подстановочных знаках позже.

    Директивы

    Директивы — это правила, которые вы определяете для роботов поисковых систем. Каждый блок текста может иметь одну или несколько директив. Каждая директива должна начинаться с отдельной строки.

    Директивы включают:

    • Запретить,
    • Разрешить,
    • Карта сайта,
    • Задержка сканирования.

    Примечание. Существует также неофициальная директива noindex, которая должна указывать, что страница не должна индексироваться. Однако большинство поисковых систем, включая Google и Bing, его не поддерживают. Если вы не хотите, чтобы некоторые страницы индексировались, используйте заголовок noindex Meta Robots Tag или X-Robots-Tag (я объясню их позже в статье).

    Запретить
     Агент пользователя: Googlebot
    Disallow: /users/ 

    Эта директива указывает, какие страницы не следует сканировать. По умолчанию боты поисковых систем могут сканировать каждую страницу, не заблокированную директивой disallow.

    Чтобы заблокировать доступ к определенной странице, необходимо определить ее путь относительно корневого каталога.

    Давайте представим, что на вашем сайте есть два сайта:

    • Website.com/products/shoes/item1.html
    • веб-сайт.com/products/shirts/item2.html

    Теперь давайте рассмотрим несколько примеров блокировки этих путей:

    Путь Заблокировано
    Запретить: /item1.html  Запрещен только файл /products/shoes/item1. html
    Запретить: /products/  И /products/shoes/item1.html, и /products/shirts/item2.html запрещены

     

    Вы можете запретить сканирование всего сайта, добавив символ «/» следующим образом:

     Агент пользователя: Googlebot
    Запретить: / 
    Разрешить
     Агент пользователя: Googlebot
    Запретить: /пользователи/
    Разрешить: /users/very-important-user.html 

    Вы можете использовать директиву allow, чтобы разрешить сканирование страницы в запрещенном каталоге.

    В приведенном выше примере запрещены все страницы в каталоге /user/, кроме одной с именем /very-important-user.html.

    Карта сайта
     Карта сайта: https://website.com/sitemap.xml 

    Директива карты сайта указывает местоположение вашей карты сайта. Вы можете добавить его в начало или конец вашего файла и определить более одной карты сайта.

    В отличие от путей, определенных в других директивах, всегда добавляет полный URL-адрес вашей карты сайта, включая протокол HTTP/HTTPS или версию с www/без www.

    Директива карты сайта не требуется, но настоятельно рекомендуется. Даже если вы отправили карту сайта в Google Search Console или Bing Webmaster Tools, всегда полезно добавить ее в файл robots.txt, чтобы все роботы поисковых систем могли найти ее быстрее.

    Crawl-delay
     Crawl-delay: 10 

    Боты поисковых систем могут сканировать многие ваши страницы за короткое время. Каждое сканирование использует часть ресурсов вашего сервера.

    Если у вас большой веб-сайт с большим количеством страниц или для открытия каждой страницы требуется много ресурсов сервера, ваш сервер может не справиться со всеми запросами. В результате он станет перегруженным, а пользователи и поисковые системы могут временно потерять доступ к вашему сайту. Вот где директива Crawl-delay может пригодиться и замедлить процесс сканирования.

    Значение директивы Crawl-delay определяется в секундах. Вы можете установить его в диапазоне от 1 до 30 секунд.

    Важно отметить, что не каждая поисковая система следует этой директиве. Например, Google вообще не поддерживает Crawl-delay.  

    Кроме того, его интерпретация может различаться в зависимости от поисковой системы. Например, для Bing и Yahoo Crawl-delay представляет собой длину промежутка между окнами, в течение которого бот может получить доступ к странице только один раз.

    Для Яндекса Crawl-delay указывает время, в течение которого бот должен ждать, прежде чем запросить другую страницу.

    Комментарии в robots.txt
     #Блокирует доступ к разделу блога
    Агент пользователя: Googlebot
    Запретить: /блог/
    
    Агент пользователя: Bingbot
    Запретить: /users/ #блокирует доступ к разделу пользователей 

    Вы можете добавлять комментарии в файл robots.txt, добавляя символ решетки # в начале строки или после директивы. Поисковые системы игнорируют все, что следует за # в той же строке.

    Комментарии предназначены для того, чтобы люди могли объяснить, что означает конкретный раздел. Всегда полезно добавить их, потому что они позволят вам быстрее понять, что происходит, когда вы в следующий раз откроете файл.

    Вы можете использовать комментарии для добавления пасхальных яиц в файл robots.txt. Если вы хотите узнать об этом больше, вы можете прочитать нашу статью о том, как сделать директивы robots интересными для людей, или посмотреть пример в файле robots.txt.

    Подстановочные знаки

    Подстановочные знаки — это специальные символы, которые могут использоваться в качестве заполнителей для других символов в тексте и, следовательно, упрощают процесс создания файла robots.txt. Среди них:

    • Звездочка * и
    • Знак доллара $.

    Звездочка может заменить любую строку.  

     User-agent: * 

    В приведенном выше примере звездочка в строке User-agent указывает на всех ботов поисковых систем. Следовательно, каждая директива, следующая за ней, будет направлена ​​на всех поисковых роботов.

     Запретить: /*? 

    Вы также можете использовать его для определения пути. Приведенные выше примеры означают, что каждый URL-адрес, оканчивающийся на «?» запрещено.

    Знак доллара указывает на определенный элемент, который соответствует концу URL-адреса.

     Запретить: /*.jpeg$  

    В приведенном выше примере показано, что все URL-адреса, оканчивающиеся на «.jpeg», должны быть запрещены.

    Вы можете использовать подстановочные знаки в каждой директиве, кроме карты сайта.

    Тестирование файла robots.txt

    Вы можете протестировать его с помощью средства тестирования robots.txt в Google Search Console и Bing Webmaster Tools. Просто введите URL-адрес, который вы хотите проверить, и инструмент покажет вам, разрешен он или запрещен.

    Вы также можете отредактировать файл непосредственно в тестировщиках robots.txt и повторно протестировать изменения. Имейте в виду, что изменения не сохраняются на вашем сайте. Вам необходимо самостоятельно скопировать файл и загрузить его на свой сайт.

    Если вы более технически подкованы, вы также можете использовать библиотеку robots.txt с открытым исходным кодом Google для локального тестирования файла robots. txt на вашем компьютере.

    Robots.txt, тег Meta Robots и X-Robots-Tag

    Robots.txt — не единственный способ связи со сканерами. Вы также можете использовать теги Meta Robots и X-Robots-Tag.

    Наиболее важным отличием является тот факт, что robots.txt контролирует сканирование веб-сайта, , а Meta Robots Tag и X-Robots-Tag позволяют контролировать его индексацию.  

    Кроме всего прочего, эти методы отличаются еще и способами реализации.

    Реализация
    Robots.txt Простой текстовый файл добавлен в корневой каталог вашего сайта.
    Метатег роботов Тег HTML добавлен в раздел кода.
    X-Robots-Tag Часть заголовка ответа HTTP добавлена ​​на стороне сервера.

     

    Когда робот поисковой системы находит страницу, он сначала просматривает файл robots.txt. Если сканирование не запрещено, оно может получить доступ к веб-сайту и только после этого найти потенциальные теги Meta Robots или заголовки X-Robots-Tag. Это важно помнить по двум причинам:

    1. Комбинация методов — ботам поисковых систем необходимо разрешить сканировать страницу, чтобы увидеть теги Meta Robots и X-Robots-Tag. Если боты не могут получить доступ к странице, они не будут работать корректно.
    2. Оптимизация краулингового бюджета — из этих трех методов только robots.txt может помочь вам сэкономить краулинговый бюджет.

    Рекомендации

    Вот несколько рекомендаций и советов по созданию файла robots.txt: