Robots txt host: Хост в robots.txt – директива для указания основного зеркала сайта.

Содержание

Директива host в файле robots.txt. Как сделать правильное имя сайта в результатах поиска.

Когда ваш сайт выдается в результатах поиска, у него есть определенное доменное имя, на которое ведет ссылка:

Например, здесь это webkyrs.info.

Что делать если поисковая система выбрала это доменное имя не правильно? Например, я хочу, чтобы поисковая система переносила меня не на webkyrs.info, а на www.webkyrs.info или наоборот.

Как этого добиться?

Кроме основной директивы Disallow, которая используется в файле robots.txt, мы можем использовать еще ряд дополнительных директив. Одной из них является директива host.

Именно эта директива может помочь решить проблему.

Основное ее назначение указать основной домен вашего сайта, среди зеркал, который будет для поисковой системы главным.

Практически у всех сайтов есть зеркала, например, мы можем обратиться к сайту:

site.ru

и точно также можно обратиться к нему же по адресу

www.site.ru

Это разные домены, но ведут они на один и тот же сайт. Это и есть те самые зеркала.

Чтобы поисковая система могла определиться, что здесь является главным, и какое доменное имя использовать в результатах поисковой выдачи, в файл robots.txt добавляют директиву host.

Например,

host: site.ru

Обратите внимание, что если ваш сайт работает на протоколе http, здесь его указывать нельзя.

host: http://site.ru – Это не правильная форма записи.

Но, если ваш сайт работает на протоколе https, то указывать его в директиве host обязательно:

host: https://site.ru – Это правильная форма записи.

Как правило, директива host указывается в самом конце файла robots.txt.

User-agent: *
 Disallow: /cgi-bin
 Host: www.site.ru

Таким образом, добавив всего одну строку кода в файл robots.txt, мы можем сообщить поисковой системе о главном зеркале сайта.

Еще мои уроки по основам SEO и поисковому продвижению здесь.

robots.txt | Вопросы-ответы на Wiki

Директивы, указанные в файле

robots.txt, являются лишь рекомендациями для ботов, они не гарантируют их выполнение отдельными сервисами.

Файл robots.txt состоит из групп правил, которые определяют поведение роботов на сайте.

Важные моменты:

Каждая группа может содержать несколько одинаковых правил. К примеру, это удобно для указания нескольких роботов или страниц.

Группа правил должна быть в следующем порядке и состоять из указанных директив:

  1. User-agentобязательная директива, может быть указана множество раз в одной группе правил.

  2. Disallow и Allowобязательные директивы. Как минимум одна из них должна быть указана в каждой группе правил.

  3. Host, Crawl-delay, Sitemap — необязательные директивы.

Для указания регулярных выражений используются:

Стоит учитывать, что указываемые в правилах адреса или имена чувствительны к регистру. Указание

Example и example будет давать разный результат.

Директива User-agent определяет имя робота, на которого будет распространяться правило. Для указания всех роботов можно использовать:

User-agent: *

Если данная директива будет указана с определенным именем робота — правило с * будет проигнорировано.

Указанные директивы разрешат доступ роботу с именем Googlebot и запретят остальным:

User-agent: *
Dissalow: /
User-agent: Googlebot
Dissalow: 

Директива Disallow определяет страницы, к которым запрещён доступ роботов.

Запретить доступ ко всему сайту можно, указав:

Dissalow: /

Запрет к отдельным страницам можно указать так:

Dissalow: /admin

При указании /admin доступ будет запрещён к каталогу

admin и файлам с таким именем, например admin.php и admin.html. Для запрета доступа только к каталогу можно указать /admin/.

Директива Allow определяет страницы, к которым запрещён доступ роботов. Директива используется для создания исключений при указании Disallow.

Следующее правило указывает заблокировать для робота Googlebot весь сайт, кроме каталога pages:

User-agent: Googlebot
Disallow: /
Allow: /pages/

Директива Host определяет основной домен сайта. Директива полезна, если к сайту привязано несколько доменных имён и для корректной поисковой индексации, таким образом, можно указать, какой домен будет являться основным, чтобы остальные домены были определены как зеркала, технические адреса и т. д.

Пример использования директивы в рамках сайта с доменами example.com и domain.com

, где для всех роботов example.com будет основным доменом:

User-agent: *
Disallow: 
Host: domain.com

Директива Crawl-delay определяет интервал между окончанием загрузки одной страницы и началом загрузки следующей для роботов. Данная директива полезна для уменьшения запросов к сайту, что помогает снизить нагрузку на сервер. Интервал указывается в секундах.

Пример использования:

User-Agent: *
Disallow:
Crawl-delay: 3

Директива Sitemap определяет URL-адрес файла sitemap на сайте. Данная директива может быть указана множество раз. Указание адреса должно быть обязательно в формате протокол://адрес/путь/к/sitemap.

Пример использования:

Sitemap: https://example.com/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
Для реализации существующий файл robots.txt должен быть удалён, а также в настройках сайта должен быть установлен параметр «
Передавать запросы на бекенд в случае, если файл не найден
» или расширение txt должно быть удалено из статических файлов.robots\.txt$ %{HTTP_HOST}-robots.txt [L]
  • Проверьте вывод правил по каждому из доменов.

  • Ошибки, часто встречающиеся в файле robots.txt — Robots.Txt по-русски

    Непосредственно ошибки

    Перепутанные инструкции

    Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:

    User-agent: /
    Disallow: Yandex

    Правильно писать вот так:

    User-agent: Yandex
    Disallow: /

    Указание нескольких каталогов в одной инструкции Disallow

    Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.

    Disallow: /css/ /cgi-bin/ /images/

    Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.

    Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:

    Disallow: /css/
    Disallow: /cgi-bin/
    Disallow: /images/

    Имя файла содержит заглавные буквы

    Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.

    Использование файла robot.txt вместо robots.txt

    Еще раз – файл должен называться robots.txt.

    Пустая строка в User-agent

    Так неправильно:

    User-agent:
    Disallow:

    Так правильно:

    User-agent: *
    Disallow:

    Url в директиве Host

    Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /

    Неправильно:

    User-agent: Yandex
    Disallow: /cgi-bin

    Host: http://www.site.ru/

    Правильно:

    User-agent: Yandex
    Disallow: /cgi-bin
    Host: www.site.ru

    Директива host Является корректной только для робота Яндекса

    Использование в Disallow символов подстановки

    Иногда хочется написать что-то вроде:

    User-agent: *
    Disallow: file*.html

    для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).

    Плохой стиль

    Комментарии на одной строке с инструкциями

    По стандарту, такая запись вполне возможна:

    Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin

    В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.

    Редирект на страницу 404-й ошибки:

    Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.

    Заглавные буквы – это плохой стиль

    USER-AGENT: GOOGLEBOT
    DISALLOW:

    Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.

    User-agent: googlebot
    Disallow:

    Перечисление всех файлов

    Еще одной ошибкой является перечисление каждого файла в директории:

    User-agent: *
    Disallow: /AL/Alabama.html
    Disallow: /AL/AR.html
    Disallow: /Az/AZ.html
    Disallow: /Az/bali.html
    Disallow: /Az/bed-breakfast.html

    Вместо этого можно просто закрыть от индексации директорию целиком:

    User-agent: *
    Disallow: /AL/
    Disallow: /Az/

    Инструкции Allow не существует! [перевод устаревший]

    Примечание: Не существовало на момент перевода данного текста, сейчас эта инструкция поддерживаетcя и Гуглом, и Яндексом. Уточняйте по использованию для других роботов.

    Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

    Отдельные роботы (например googlebot) понимают директиву Allow

    Так неправильно:

    User-agent: Yandex
    Disallow: /john/
    Allow: /jane/

    А вот так – правильно:

    User-agent: Yandex
    Disallow: /john/
    Disallow:

    Использование дополнительных директив в секции *

    Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
    То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».

    Так неправильно:

    User-agent: *
    Disallow: /css/
    Host: www.example.com

    А вот так – правильно:

    User-agent: *
    Disallow: /css/

    User-agent: Yandex
    Disallow: /css/
    Host: www.example.com

    Отсутствие инструкции Disallow

    Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».

    Так неправильно:

    User-agent: Yandex
    Host: www.example.com

    Так правильно:

    User-agent: Yandex
    Disallow:
    Host: www.example.com

    Обсуждение этого вопроса на Searchengines.ru

    Отсутствие слешей при указании директории

    Как в этом случае поступит робот?

    User-agent: Yandex
    Disallow: john

    По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:

    User-agent: Yandex
    Disallow: /john/

    Неправильный http-заголовок

    Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

    Карта сайта и robots.txt – satu.kz

    Обратите внимание: раздел отображается, если включено приложение «SEO-настройки». Подробнее смотрите документ «Приложение SEO-настройки».

    Карта сайта

    На карте сайта представлен полный перечень разделов, групп товарных позиций и всех страниц, имеющихся на сайте. Карта сайта (sitemap) генерируется автоматически и доступна для просмотра по этой ссылке.

    Редактирование robots.txt

    Файл «robots.txt» – это текстовый файл, который находится в корневой директории сайта компании. В него записываются специальные инструкции (указания) для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте.

    Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt.

    Файл «robots.txt»  – идентичен для всех сайтов, созданных на платформе портала, и уже находится в корневой директории вашего сайта. Для улучшения индексации поисковыми системами, в файле «robots.txt» заблокированы только дублирующиеся страницы, например, список одних и тех же товаров в виде галереи и в виде списка:

    По умолчанию, в файле «robots.txt» вашего сайта закрыты от индексации не информационные страницы, такие как страница добавления товара в корзину, заказа товара, создания отзыва, все страницы личного кабинета  и так далее. Открытие для индексации таких страниц только навредит вашему сайту, так как на них нет полезной информации ни для клиентов, ни для поисковых систем.

    Все остальные страницы разрешены к индексации.

    Для компаний, подключивших внешний домен вида «Company.com», есть возможность вносить изменения в файл «robots.txt». Более детально о подключении внешнего домена в документе «Доменное имя компании».

    Для редактирования файла нажмите Редактировать в блоке «Robots.txt», внесите изменения в раскрывшемся поле «Редактирование robots.txt» и сохраните их.

    Внимание! Редактирование «robots.txt» может привести к неправильной индексации вашего сайта поисковыми системами. Перед внесением изменений в файл проконсультируйтесь предварительно у SEO-специалиста.

    Редактирование файла «robots.txt»

    Для возврата к исходным установкам файла «robots.txt» нажмите на кнопку Вернуть стандартные настройки и сохраните изменения.

    Основные ошибки при редактировании файла:

    • Переименование или удаление инструкций:
      • User-Agent: YadirectBot
        Disallow:
      • User-Agent: YandexDirect
        Disallow:
    • В директиве Host аббревиатура протокола передачи гипертекста указана с использованием http:// и  закрывающим слешем /
    • Удаление инструкции «Host: company.com»
    • Использование инструкции Allow не всегда корректно воспринимается поисковыми системами и может ухудшить индексацию вашего сайта.
    • Удаление инструкции «Sitemap: http://company.com/sitemap.xml»

    Примечание. Карта сайта «sitemap.xml» генерируется и обновляется системой портала автоматически.

    Ниже представлен пример файла «robots.txt», находящийся в корневой директории сайта компании на портале:

    Пример файла «robots.txt»

    Более детальная инструкция по формированию файла «robots.txt» с сайтов поисковых систем:

    Карта сайта и robots.txt – tiu.ru

    Обратите внимание: раздел отображается, если включено приложение «SEO-настройки». Подробнее смотрите документ «Приложение SEO-настройки».

    Карта сайта

    На карте сайта представлен полный перечень разделов, групп товарных позиций и всех страниц, имеющихся на сайте. Карта сайта (sitemap) генерируется автоматически и доступна для просмотра по этой ссылке.

    Редактирование robots.txt

    Файл «robots.txt» – это текстовый файл, который находится в корневой директории сайта компании. В него записываются специальные инструкции (указания) для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте.

    Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt.

    Файл «robots.txt»  – идентичен для всех сайтов, созданных на платформе портала, и уже находится в корневой директории вашего сайта. Для улучшения индексации поисковыми системами, в файле «robots.txt» заблокированы только дублирующиеся страницы, например, список одних и тех же товаров в виде галереи и в виде списка:

    • http://company.com/product_list — разрешена;
    • http://company.com/product_list?view_as=list — запрещена.

    По умолчанию, в файле «robots.txt» вашего сайта закрыты от индексации не информационные страницы, такие как страница добавления товара в корзину, заказа товара, создания отзыва, все страницы личного кабинета  и так далее. Открытие для индексации таких страниц только навредит вашему сайту, так как на них нет полезной информации ни для клиентов, ни для поисковых систем.

    Все остальные страницы разрешены к индексации.

    Для компаний, подключивших внешний домен вида «Company.com», есть возможность вносить изменения в файл «robots.txt». Более детально о подключении внешнего домена в документе «Доменное имя компании».

    Для редактирования файла нажмите Редактировать в блоке «Robots.txt», внесите изменения в раскрывшемся поле «Редактирование robots.txt» и сохраните их.

    Внимание! Редактирование «robots.txt» может привести к неправильной индексации вашего сайта поисковыми системами. Перед внесением изменений в файл проконсультируйтесь предварительно у SEO-специалиста.

    Редактирование файла «robots.txt»

    Для возврата к исходным установкам файла «robots.txt» нажмите на кнопку Вернуть стандартные настройки и сохраните изменения.

    Основные ошибки при редактировании файла:

    • Переименование или удаление инструкций:
      • User-Agent: YadirectBot
        Disallow:
      • User-Agent: YandexDirect
        Disallow:
    • В директиве Host аббревиатура протокола передачи гипертекста указана с использованием http:// и  закрывающим слешем /
      • Host: http://company.com/ — не правильно
      • Host: company.com — правильно
    • Удаление инструкции «Host: company.com»
    • Использование инструкции Allow не всегда корректно воспринимается поисковыми системами и может ухудшить индексацию вашего сайта.
    • Удаление инструкции «Sitemap: http://company.com/sitemap.xml»

    Примечание. Карта сайта «sitemap.xml» генерируется и обновляется системой портала автоматически.

    Ниже представлен пример файла «robots.txt», находящийся в корневой директории сайта компании на портале:

    Пример файла «robots.txt»

    Более детальная инструкция по формированию файла «robots.txt» с сайтов поисковых систем:

    Зачем нужен файл robots.txt? — Вопросы и ответы — Джино

    robots.txt — специальный файл, который содержит инструкции для поисковых роботов. Он должен размещаться в корневой папке сайта и быть доступен по адресу ваш_домен.ru/robots.txt. С помощью robots.txt возможно запретить или разрешить индексацию всего сайта или отдельных его страниц и даже снизить нагрузку на сайт, создаваемую поисковыми системами при индексации. Содержимое файла robots.txt представляет из себя набор различных директив:

    • Директива User-agent задает название робота, для которого прописываются директивы ниже. Например: User-agent: Yandex. Директива User-agent: * определяет параметры для всех роботов. В одном файле robots.txt может быть несколько блоков, начинающихся с директивы User-agent.

    • Директивы Disallow и Allow запрещают или разрешают индексацию определенных страниц или групп страниц вашего сайта. Например: Disallow: / — запрещает индексацию всего сайта, Allow: /cgi-bin/ — разрешает индексацию файлов в этой папке. Указание в файле директивы без указания параметров для нее поменяет значение. Например: Disallow: — запрета на индексацию сайта нет. Типичный robots.txt, разрешающий индексацию всего сайта, выглядит так:

    User-agent:

    Disallow:

    По факту Disallow: — самая распространенная директива, равнозначная Allow: /. Однако директиву Allow могут не поддерживать некоторые старые роботы, поэтому предпочтительнее использовать первый вариант.

    • Директива Sitemap определяет путь до карты вашего сайта (в специальном XML-формате) с целью упростить индексацию. Пример: Sitemap: /sitemap.xml.

    • Директива Host определяет адрес «главного зеркала» сайта. Именно этот адрес будет использован поисковой системой, если ваш сайт доступен по нескольким адресам. Пример: Host: www.jino.ru.

    • Директива Crawl-delay задает интервал между запросами к вашему сайту со стороны поисковых систем во время индексации, в секундах. Это очень полезно, если поисковые роботы создают серьезную нагрузку. Например: Crawl-delay: 5. Однако интервал индексации для поисковой системы Google настраивается через Google Search Console.

    • Директива Clean-param задает параметры, на которые роботу не нужно обращать внимания при индексации сайта. Например, если задать Clean-param: foo, то поисковые роботы будут считать адреса ваш_домен.ru, ваш_домен.ru/?foo=1 и ваш_домен.ru/?foo=2 равнозначными.

    Более подробно об использовании robots.txt можно почитать, например, в инструкции на сайте Яндекса.

    Что такое директива Host в файле robots.txt SEO словарь, понятное разъяснение как прописать команду

    Директива Host — это команда в файле robots.txt, указывающая ботам поисковых систем, какой адрес сайта необходимо ставить приоритетным для индексации. Два варианта адреса: с www или без него, с протоколом http или https.

    Варианты адреса сайта которые указываются в команде:

    • адрес сайта с www или без
    • адрес сайта с http или https

    С www или без www

    Как ваш сайт будет выглядеть в поиске и как его будет индексировать ПС.

    Почему это важно?

    1. ставя ссылки на страницы своего сайта вам необходимо знать какой адрес указывать, с www или без.
    2. Страница может индексироваться по двум адресам, но только один из них будет в выдаче, второй попадает в supplimental index (и нужно понимать какую страницу продвигать)
    3. Часть страниц в выдаче может быть с www, часть без www. Тем самым ПС тратит ресурсы на определение какой-же адрес основной. Когда вы указываете основной адрес (так-же это называется основным зеркалом) ПС индексирует адреса страниц только по указанному адресу, тратит меньше ресурсов и Trust сайта получает +1

    Как определить сайт с www или без?

    Если сайт уже индексируется, необходимо в поиске с помощью команды site: проверить индексацию сайта с www и без

    Google индексирует 1 110 страниц сайта по адресу без wwww, значит что основные страницы сайта имеют адрес без www

    Всего 8 страниц индексируются с www, такой адрес будет второстепенным. Необходимо прописать директиву host: imt-academy.com

    Когда писать https?

    Если сайт работает по протоколу http, в директиве его не указывают

    Host: imt-academy.com

    Если сайт имеет SSL сертификат и работает на протоколе https, его необходимо указывать

    Host: https://imt-academy.com

    Опасности изменения адреса

    Если прописать директиву на работающем (проиндексированном) сайте, часть страниц может выпасть из поиска и в дальнейшем из индекса.

    Аккуратно принимайте решение.

    1. Если в индексе равное количество страниц с www и без www
      Проверьте какие страницы есть в выдаче — в Google Search Console
      Проверьте позиции сайта сервисами проверки позиций, внеся адреса проверяемых страниц с www и без www
    2. Будьте готовы к тому, что трафик может просесть
    3. Используйте 301 редирект с второстепенного на основной адрес
      В этом случае, указав основной адрес, страницы начнут выпадать из индекса, но пользователи и ПС все-равно будут попадать на нужные страницы

    Где и как прописать Host?

    Директива прописывается в файле robots.txt, обычно в конце

    Что такое файл robots.txt и как им пользоваться — Хостинг

    Robots.txt — Общая информация

    Robots.txt и SEO


    Исправления и обходные пути

    Robots.txt для WordPress
    Robots.txt — Общая информация

    Роботы.txt — это текстовый файл, расположенный в корневом каталоге веб-сайта, в котором указывается, какие страницы и файлы веб-сайта вы хотите (или не хотите) посещать сканерам поисковых систем и паукам. Обычно владельцы сайтов хотят, чтобы их заметили поисковые системы; однако бывают случаи, когда в этом нет необходимости. Например, если вы храните конфиденциальные данные или хотите сэкономить трафик за счет отказа от индексации (за исключением страниц с тяжелыми изображениями).

    Поисковые системы индексируют веб-сайты, используя ключевых слов и метаданные , чтобы предоставить пользователям Интернета наиболее релевантные результаты, которые ищут что-то в Интернете.Достижение вершины списка результатов поиска особенно важно для владельцев интернет-магазинов. Клиенты редко просматривают дальше первых нескольких страниц из предложенных в поисковой системе страниц.
    Для индексации используются так называемые пауки или краулеры . Это боты, которые компании поисковых систем используют для получения и индексации содержимого всех открытых для них веб-сайтов.

    Когда сканер обращается к веб-сайту, он сначала запрашивает файл с именем / robots.txt . Если такой файл найден, сканер затем проверяет его на соответствие инструкциям по индексации веб-сайта . Бот, который не находит никаких директив, имеет собственный алгоритм действий, который в основном все индексирует. Это не только перегружает веб-сайт ненужными запросами, но и само индексирование становится намного менее эффективным.

    ПРИМЕЧАНИЕ : может быть только один файл robots.txt для веб-сайта. Файл robots.txt для доменного имени дополнения необходимо поместить в соответствующий корень документа.Например, если ваше доменное имя www.domain.com , его нужно найти по адресу https://www.domain.com/robots.txt .
    Также очень важно, чтобы ваш файл robots.txt на самом деле назывался robots.txt. Имя чувствительно к регистру, поэтому убедитесь, что вы написали правильно, иначе оно не сработает.

    Официальная позиция Google по файлу robots.txt

    Файл robots.txt состоит из строк, содержащих два поля:

    1. Имя агента пользователя (сканеры поисковых систем).Найдите здесь список имен всех пользовательских агентов.
    2. . Строка (строки), начинающиеся с директивы Disallow : для блокировки индексации.

    Robots.txt должен быть создан в текстовом формате UNIX. Такой файл .txt можно создать прямо в диспетчере файлов cPanel. Более подробные инструкции можно найти здесь .

    Основы синтаксиса robots.txt

    Обычно файл robots.txt содержит такой код:

      User-agent: * 
    Disallow: / cgi-bin /
    Disallow: / tmp /
    Disallow: / ~ different /

    В этом примере три каталога: / cgi-bin /, / tmp / и / ~ different / исключены из индексации.

    ОБРАТИТЕ ВНИМАНИЕ:

    • Каждый каталог записывается в отдельной строке . Вы не должны записывать все каталоги в одну строку или разбивать одну директиву на несколько строк. Вместо этого используйте новую строку, чтобы отделить друг от друга директивы.
    • Звездочка (*) в поле User-agent означает «любой поисковый робот». Следовательно, такие директивы, как Disallow: * .gif или User-agent: Mozilla * , не поддерживаются. Обратите внимание на эти логические ошибки, поскольку они самые распространенные.
    • Другой распространенной ошибкой является случайная опечатка: каталоги с ошибками, пользовательские агенты, пропущенные двоеточия после User-agent и Disallow и т. Д. ошибка, чтобы проскользнуть, поэтому есть некоторые инструменты проверки , которые пригодятся.

    Примеры использования

    Вот несколько полезных примеров использования robots.txt:

    Пример 1

    Запретить индексацию всего сайта всеми поисковыми роботами:

      User-agent: *
    Запретить: /
      

    Такая мера, как полная блокировка сканирования, может потребоваться, когда веб-сайт находится под большой нагрузкой запросов или если контент обновляется и не должен появляться в результатах поиска.Иногда настройки SEO-кампании слишком агрессивны, поэтому боты по сути перегружают сайт запросами к его страницам.

    Пример 2

    Разрешить всем поисковым роботам индексировать весь сайт:

      User-agent: *
    Запретить:
     

    На самом деле нет необходимости сканировать весь веб-сайт. Маловероятно, что посетители будут искать условия использования или страницы входа, например, через Google Поиск. Исключение некоторых страниц или типов контента из индексации будет полезно для безопасности, скорости и релевантности в рейтинге данного веб-сайта.

    Ниже приведены примеры того, как контролировать, какой контент индексируется на вашем веб-сайте.

    Пример 1

    Запретить индексацию только нескольких каталогов:

      User-agent: * 
    Disallow: / cgi-bin /
    Пример 2

    Предотвратить индексацию сайта определенным поисковым роботом:

      User-agent: * 
    Disallow: / page_url

    Страница обычно идет без полного URL-адреса, только по имени, которое следует за http: // www.yourdomain.com/ . При использовании такого правила любая страница с совпадающим именем блокируется от индексации. Например, будут исключены как / page_url , так и / page_url_new . Чтобы этого избежать, можно использовать следующий код:

      User-agent: * 
    Disallow: / page_url $

    Пример 3

    Запретить индексацию веб-сайта конкретным поисковым роботом .:

      User-agent: Bot1 
    Disallow: /

    Несмотря на список, некоторые идентификаторы могут со временем измениться.Когда нагрузка на веб-сайт очень высока, и невозможно определить точного бота, чрезмерно использующего ресурсы, лучше временно заблокировать их все.

    Пример 4


    Разрешить индексацию для определенного поискового робота и запретить индексацию для других:

      Агент пользователя: Opera 9 
    Запретить: Пользовательский агент: * Запретить: /

    Пример 5

    Запретить индексацию всех файлов, кроме одного.

    Существует также директива Allow :.Это , но не распознается всеми поисковыми роботами и может быть проигнорирован некоторыми из них. В настоящее время его поддерживают Bing и Google. Следующий пример правила о том, как разрешить только один файл из определенной папки, следует использовать на свой страх и риск:

      User-agent: * 
    Allow: /docs/file.jpeg
    Disallow: / docs /

    Вместо этого вы можете переместить все файлы в определенный подкаталог и предотвратить его индексацию, за исключением одного файла, который вы разрешаете индексировать:
      User-agent: * 
    Disallow: / docs /

    Для этой установки требуется определенная структура веб-сайта .Также возможно создать отдельную целевую страницу, которая будет перенаправлять на настоящую домашнюю страницу пользователя. Таким образом вы можете заблокировать фактический каталог с веб-сайтом и разрешить только страницу целевого индекса. Лучше, чтобы такие изменения выполнял разработчик веб-сайта, чтобы избежать проблем.
    Вы также можете использовать онлайн-генератор файлов robots.txt здесь . Имейте в виду, что он выполняет настройку по умолчанию, которая не принимает во внимание сложные структуры веб-сайтов с пользовательским кодом.
    Файл robots.txt по умолчанию в некоторых версиях CMS настроен так, чтобы исключить папку с изображениями. Эта проблема не возникает в последних версиях CMS, но более старые версии необходимо проверять.
    Это исключение означает, что ваши изображения не будут проиндексированы и включены в Поиск картинок Google. Изображения, появляющиеся в результатах поиска, — это то, что вам нужно, так как они повышают ваш рейтинг в SEO. Однако вам нужно обратить внимание на проблему, называемую «хотлинкинг». Когда кто-то репостит изображение, загруженное на ваш сайт в другом месте, ваш сервер загружается с запросами.Чтобы предотвратить использование горячих ссылок, прочтите соответствующую статью нашей базы знаний . Если вы хотите изменить это, откройте файл robots.txt и удалите строку, которая гласит:
     Disallow: / images /
     

    Если на вашем веб-сайте много личного содержания или файлы мультимедиа не хранятся постоянно, а загружаются и удаляются ежедневно, лучше исключить изображения из результатов поиска. В первом случае это вопрос личной жизни. Последнее касается возможной перегрузки активности сканеров, когда они снова и снова проверяют каждое новое изображение.
     карта сайта: http: //www.domain.com/sitemap.xml 
    Не забудьте заменить путь http://www.domain.com/sitemap.xml своей фактической информацией.
    Чтобы узнать, как создать sitemap.xml для вашего веб-сайта, вы, , можете найти их здесь .

    Разные примечания

    • Не блокируйте CSS, Javascript и другие файлы ресурсов по умолчанию. Это мешает роботу Googlebot правильно отображать страницу и понимать, что ваш сайт оптимизирован для мобильных устройств.
    • Вы также можете использовать этот файл для предотвращения индексации определенных страниц, таких как страницы входа или 404, но это лучше сделать с помощью метатега robots.
    • Добавление операторов запрета в файл robots.txt не приводит к удалению содержимого. Он просто блокирует доступ паукам. Если есть контент, который вы хотите удалить, лучше использовать мета-ноиндекс.
    • Как правило, файл robots.txt никогда не должен использоваться для обработки повторяющегося содержания. Есть лучшие способы, такие как тег Rel = canonical, который является частью HTML-заголовка веб-страницы.
    • Всегда помните, что файл robots.txt должен быть точным, чтобы ваш веб-сайт мог правильно индексироваться поисковыми системами.
    Исправления и обходные пути

    Включение индексации URL-адресов в ‘noindex’

    Мета-тег noindex предотвращает индексацию всей страницы поисковой системой. Это может быть нежелательной ситуацией, так как вы хотите, чтобы URL-адреса на этой странице индексировались и отслеживались ботами для лучших результатов. Чтобы это произошло, вы можете отредактировать заголовок своей страницы с помощью следующей строки:

        

    Эта строка предотвратит индексирование самой страницы поисковой системой, но из-за части кода follow размещенные ссылки на этой странице все равно будет извлекаться.Это позволит пауку перемещаться по веб-сайту и связанному с ним контенту. Преимущество этого типа интеграции называется Link Juice — это связь между разными страницами и соответствие их содержания друг другу.
    Если добавлено nofollow , поисковый робот остановится, когда достигнет этой страницы, и не перейдет к взаимосвязанному контенту:

        
    С точки зрения SEO это не рекомендуется, но решать вам.

    Некоторые страницы могут быть удалены с веб-сайта навсегда, поэтому они больше не имеют реальной ценности. Любой устаревший контент должен быть удален из robots.txt, и. htaccess файлов. Последний может содержать перенаправления для страниц, которые больше не актуальны.
    Простая блокировка просроченного контента неэффективна. Вместо этого 301 редирект следует применять либо в файле .htaccess, либо через плагины. Если для удаленной страницы нет подходящей замены, она может быть перенаправлена ​​на домашнюю страницу.


    Лучше запретить проиндексированные страницы с конфиденциальными данными на них. Наиболее распространенные примеры:
    • Страницы входа
    • Область администрирования
    • Информация о личных счетах
    Для повышения безопасности веб-сайта имейте в виду следующее:
    • Тот факт, что этот URL-адрес отображается в результатах поиска, не отображается. означают, что любой человек без учетных данных может получить к нему доступ. Тем не менее, вы можете захотеть иметь настраиваемую административную панель и URL-адресов для входа в систему , которые известны только вам.
    • Рекомендуется не только исключить определенные папки, но и защитить их паролем .
    • Если определенный контент на вашем веб-сайте должен быть доступен только зарегистрированным пользователям , обязательно примените эти настройки к страницам. Доступ только по паролю можно настроить , как описано здесь . Примерами являются веб-сайты с премиум-членством, на которых определенные страницы и статьи доступны только после входа в систему.
    • Файл robots.txt и его содержимое можно проверить онлайн .Вот почему рекомендуется избегать ввода каких-либо имен или данных, которые могут дать нежелательную информацию о вашей компании.
    Например, если у вас есть страницы для ваших коллег, каждая из которых находится в отдельных папках, и вы хотите исключить их из результатов поиска, они не должны называться «johndoe», «janedoe» и т. Д. Запрещение этих вышеупомянутых имен папок приведет к в основном открыто озвучивайте имена своих коллег. Вместо этого вы можете создать папку «профили» и разместить в ней все личные учетные записи.URL-адрес в браузере будет https://yourdomain.com/profiles/johndoe , а правило robots.txt будет выглядеть так:
      User-agent: * 
    Disallow: / profiles /

    Не только в качестве меры безопасности, но и для того, чтобы сэкономить ресурсы вашего хостинга, вы можете исключить нерелевантного контента для посетителей вашего веб-сайта из результатов поиска. Например, это могут быть темы и фоновые изображения, кнопки, сезонные баннеры и т. Д.Использование директивы Disallow для всего каталога / theme не рекомендуется.

    Вот почему рекомендуется полностью реализовать тему и макет в CSS, а не вставлять фон, например, с помощью тега HTML. Скрытие конкретной папки стиля может вызвать проблемы с получением контента поисковыми роботами и правильным представлением его пользователям в соответствующих результатах поиска.
    Некоторые поисковые системы слишком стремятся проверять содержание при малейшем обновлении.Они делают это слишком часто и создают большой нагрузки на сайте. Никто не хочет, чтобы его страницы загружались медленно из-за голодных поисковых роботов, но полная их блокировка каждый раз может быть слишком экстремальной. Вместо этого их можно замедлить с помощью следующей директивы:
     crawl-delay: 10 

    В этом случае для поисковых роботов существует 10-секундная задержка.

    Robots.txt для WordPress

    WordPress создает виртуальный файл robots.txt, как только вы публикуете свой первый пост с помощью WordPress.Хотя, если у вас уже есть настоящий файл robots.txt, созданный на вашем сервере, WordPress не добавит виртуальный.

    Виртуальный файл robots.txt не существует на сервере, и вы можете получить к нему доступ только по следующей ссылке: http://www.yoursite.com/robots.txt

    По умолчанию на нем будет Google Медиабот разрешен, множество спам-ботов запрещены, а некоторые стандартные папки и файлы WordPress запрещены.

    Итак, если вы еще не создали настоящий robots.txt, создайте его с помощью любого текстового редактора и загрузите его в корневой каталог своего сервера через FTP.Лучше всего вы также можете использовать один из множества предлагаемых плагинов для SEO. Самые последние и надежные плагины можно найти в официальном руководстве WordPress по SEO .

    Блокировка основных каталогов WordPress

    В каждой установке WordPress есть 3 стандартных каталога — wp-content, wp-admin, wp-includes , которые не нужно индексировать.

    Не выбирайте запретить всю папку wp-content, поскольку она содержит подпапку «uploads» с медиафайлами вашего сайта, которые вы не хотите блокировать.Вот почему вам нужно действовать следующим образом:

      Disallow: / wp-admin / 
    Disallow: / wp-includes /
    Disallow: / wp-content / plugins /
    Disallow: / wp-content / themes /

    Блокировка на основе структуры вашего сайта

    Каждый блог может быть структурирован по-разному:

    а) По категориям
    б) На основе тегов
    c) На основе обоих — ни один из этих
    d) На основе архивов по дате

    a) Если ваш сайт структурирован по категориям, вам не нужно индексировать архивы тегов.Найдите свою базу тегов на странице Permalinks options в меню Settings . Если поле оставить пустым, база тегов будет просто тегом:

      Запретить: / tag /
      

    б) Если ваш сайт имеет теговую структуру, вам необходимо заблокировать архивы категорий. Найдите свою базу категорий и используйте следующую директиву:
      Disallow: / category /
      

    c) Если вы используете и категории, и теги, вам не нужно использовать какие-либо директивы.Если вы не используете ни один из них, вам необходимо заблокировать их оба:
      Disallow: / tags / 
    Disallow: / category /

    d) Если ваш сайт структурирован на основе архивов на основе даты, вы можете заблокировать их следующими способами:
      Запрещено: / 2010/
    Запрет: / 2011/
    Запрет: / 2012/
    Disallow: / 2013 /

    ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ: Вы не можете использовать здесь Disallow: / 20 * /, так как такая директива будет блокировать каждое сообщение в блоге или страницу, начинающуюся с цифры «20».

    Проблемы с дублированием контента в WordPress

    По умолчанию WordPress имеет дублирующиеся страницы, которые не влияют на ваш рейтинг в SEO. Чтобы исправить это, мы бы посоветовали вам не использовать robots.txt, а вместо этого пойти более тонким способом: тег rel = canonical , который вы используете для размещения единственного правильного канонического URL в разделе вашего сайта. Таким образом, поисковые роботы будут сканировать только каноническую версию страницы. Более подробное описание от Google того, что такое канонический тег и почему вы должны его использовать , можно найти здесь .

    Вот и все!

    Нужна помощь? Обратитесь в нашу службу поддержки

    Настройте файл robots.txt

    На файлы

    Robots.txt ссылаются поисковые системы для индексации содержания вашего веб-сайта. Они могут быть полезны для предотвращения возврата в результатах поисковой системы определенного контента, например, предложения контента, скрытого за формой.

    Обратите внимание: Google и другие поисковые системы не могут задним числом удалять страницы из результатов поиска после того, как вы внедрили robots.txt метод файла. Хотя это говорит ботам не сканировать страницу, поисковые системы все равно могут индексировать ваш контент, если, например, есть входящие ссылки на вашу страницу с других веб-сайтов. Если ваша страница уже проиндексирована и вы хотите, чтобы она была удалена из поисковых систем задним числом, вы, вероятно, захотите использовать метод метатега «Без индекса».

    Как работают файлы robots.txt

    Ваш файл robots.txt сообщает поисковым системам, как сканировать страницы, размещенные на вашем веб-сайте. Два основных компонента вашего файла robots.txt:

    • User-agent: Определяет поисковую систему или веб-бот, к которому применяется правило. Звездочка (*) может использоваться как подстановочный знак с User-agent для включения всех поисковых систем.
    • Disallow: Советует поисковой системе не сканировать и не индексировать файл, страницу или каталог.

    Чтобы узнать больше о том, как настроить файлы robots.txt для результатов поиска Google, ознакомьтесь с документацией для разработчиков Google. Вы также можете использовать файл robots.txt для создания вашего файла.

    Обратите внимание: чтобы заблокировать файл в файловом менеджере, настройте файл так, чтобы он размещался в одном из ваших доменов. Затем вы можете добавить URL-адрес файла в свой файл robots.txt.

    Обновите файл robots.txt в HubSpot

    • В своей учетной записи HubSpot щелкните значок настроек Настройки на главной панели навигации.

    • В меню левой боковой панели перейдите на Веб-сайт > Страницы .

    • Используйте раскрывающееся меню Изменение , чтобы выбрать домен для обновления.

    • Щелкните вкладку SEO и сканеры .
    • Прокрутите вниз до раздела Robots.tx t и внесите изменения в файл robots.txt в текстовом поле.

    Обратите внимание: , если вы используете на своем сайте модуль поиска HubSpot, звездочка в поле user-agent заблокирует сканирование вашего сайта функцией поиска.Вам нужно будет включить HubSpotContentSearchBot в качестве пользовательского агента в файл robots.txt, чтобы функция поиска могла сканировать ваши страницы.

    Целевые страницы Блог Настройки аккаунта Страницы веб-сайта

    Избегайте роботов.txt exclusions — Центр поддержки Archive-It

    На этой странице:

    Стандарт исключения роботов — это инструмент, используемый веб-мастером, чтобы заставить поисковый робот не сканировать все или определенные части своего веб-сайта. Веб-мастер размещает свой запрос в виде файла robots.txt , который легко найти на его веб-сайте (например, example.com/robots.txt). Archive-It (как и Google и большинство других поисковых систем) использует робота для сканирования и архивирования веб-страниц. По умолчанию наш сканер уважает и уважает всех роботов.txt запросы на исключение. Однако в каждом конкретном случае вы можете настроить правила, чтобы игнорировать блокировку robots.txt для определенных сайтов.

    Как найти и прочитать запрос на исключение роботов

    Файл robots.txt всегда находится на самом верхнем уровне веб-сайта, а сам файл всегда называется robots.txt. Чтобы просмотреть файл robots любого веб-сайта, перейдите на сайт и просто добавьте /robots.txt к адресу сайта. Например, вы можете увидеть файл robots.txt Интернет-архива по адресу: www.archive.org/robots.txt

    Если вы видите этот текст на странице исключения роботов, значит все роботы исключены из сканирования сайта :

    Агент пользователя: *
    Disallow: /

    Если вы видите этот текст на странице исключения роботов, значит всем роботам разрешено сканирование сайта :

    Агент пользователя: *
    Disallow:

    Веб-мастера

    также могут запретить выбор, а не всех роботов. В приведенном ниже примере: Архив — это поисковый робот разрешен на сайт, но все остальные поисковые роботы не :

    User-agent: архив.org_bot
    Запрещено:

    Агент пользователя: *
    Disallow: /

    Веб-мастера также могут блокировать определенные каталоги на своем сайте от робота-обходчика. В приведенном ниже примере вы можете видеть, что всем сканерам запрещено сканировать изображения на сайте:

    Агент пользователя: *
    Disallow: / images

    Веб-мастера также могут установить на своем сайте задержку сканирования (в секундах). Ниже вы можете видеть, что все сканеры должны ждать 10 секунд между запросами страниц на сайте:

    Агент пользователя: *
    Задержка сканирования: 10

    Вы можете определить, будет ли ваше сканирование заблокировано файлом robots.txt перед его запуском, обратившись к файлу вашего целевого сайта описанным выше способом. Если робот-обходчик Archive-It’s специально указан в этом файле как «запрещенный» для всех или определенных разделов, то вы можете ожидать, что сканирование будет заблокировано для этих разделов. Вы можете узнать нашего краулера в этих файлах по его «user-agent» (имя): archive.org_bot .

    Вы также можете определить, было ли ваше сканирование заблокировано файлом robots.txt после его запуска, просмотрев отчет по исходным файлам.В столбце «Статус исходного кода» этого отчета будет указано, был ли весь сайт заблокирован файлом robots.txt. Столбец «Заблокировано» в отчете о хостах вашего сканирования также покажет вам все определенные части хост-домена, которые были заблокированы файлом robots.txt.

    Если веб-страница, которую вы хотите сканировать, не включает нашего робота-обходчика (archive.org_bot), вам следует сначала попытаться связаться с веб-мастером сайта, сообщить ему, почему вы хотите заархивировать его сайт, и попросить их сделать исключение в своем роботы.txt файл.

    В этих случаях всегда полезно предоставить веб-мастеру следующую информацию:

            • Имя (user-agent) нашего краулера: archive.org_bot
            • Диапазон IP наших сканеров предоставляется по запросу.

    Вы можете сообщить веб-мастеру, что наш сканер очень «вежлив», что означает, что разрешение на сканирование их сайта никоим образом не должно влиять на производительность или безопасность сайта.

    В случае, если веб-мастер не отвечает на ваш запрос или отклоняет его, вы можете использовать приведенные ниже инструкции для , игнорируя исключения для роботов .

    Независимо от того, сделает ли веб-мастер исключение для нашего сканера описанным выше способом, вы можете игнорировать исключения для роботов и, таким образом, сканировать материалы, которые в противном случае заблокированы файлом robots.txt, запросив включение этой специальной функции для вашей учетной записи. Для начала, пожалуйста, свяжитесь с нашими веб-архивистами напрямую, укажите любые конкретные хосты или типы материалов, заблокированных роботами-исключениями, которые вы хотите сканировать, и попросите нас включить эту функцию для вашей учетной записи.

    Игнорирование robots.txt по семейству или по хосту, в чем разница?

    Вы можете выбрать, хотите ли вы игнорировать исключения роботов для всех хостов в пределах определенного начального числа (правила начального уровня) или всех экземпляров определенного хоста в коллекции (правила уровня сбора). Для получения дополнительной информации о том, когда использовать правила начального уровня по сравнению с правилами уровня сбора, посетите наше руководство «В чем разница».

    Игнорировать robots.txt по начальному значению

    После того, как «Игнорировать роботов.txt «была включена для вашей учетной записи, вы можете переопределить исключения роботов в вашем сканировании для каждого семени. Чтобы игнорировать все блоки robots.txt на хостах, захваченных из определенного семени (включая первичный хост и любой хост внедренный контент поступает из), щелкните конкретное семя из списка семени вашей коллекции, затем перейдите на вкладку «Область семени», выберите «Игнорировать Robots.txt» в раскрывающемся меню и нажмите кнопку «Добавить правило», чтобы примените его к будущим обходам вашего семени:

    Игнорировать роботов.txt от хоста

    После включения для вашей учетной записи функции «Игнорировать robots.txt» вы также можете переопределить исключения роботов в своей коллекции для каждого хоста. Чтобы игнорировать все блоки robots.txt на хостах, которые появляются в любом месте в ходе сканирования, перейдите на вкладку «Область сбора» в области управления вашей коллекцией, выберите «Игнорировать Robots.txt» в раскрывающемся меню, добавьте хосты к которому вы хотите применить это новое правило (точно в том виде, в каком они отображаются в отчете о хостах), и нажмите кнопку «Добавить правило», чтобы применить его к будущим обходам вашего сид:

    Обратите внимание, что вы также можете применить это правило для конкретного хоста непосредственно из наших отчетов по хостам с действиями.

    Для получения более общей информации об исключениях для роботов см .: http://www.robotstxt.org/

    Использование Robotstxt

    Использование Robotstxt
    Питер Мейснер
    2020-09-03

    Пакет предоставляет простой класс robotstxt и сопутствующие методы для анализа и проверки файлов robots.txt. Поля данных представлены в виде фреймов данных и векторов.Разрешения можно проверить, указав векторы символов пути и необязательные имена ботов.

    Файлы

    Robots.txt — это способ любезно попросить веб-ботов, пауков, сканеров, странников и т. П. Получить или не получить доступ к определенным частям веб-страницы. Де-факто «стандарт» никогда не выходил за рамки неофициального «ИНТЕРНЕТ-ПРОЕКТА сетевой рабочей группы». Тем не менее, широко распространено использование файлов robots.txt (например, https://en.wikipedia.org/robots.txt, https://www.google.com/robots.txt) и ботов от Google, Yahoo и т. П. будет придерживаться правил, определенных в robots.txt, хотя их интерпретация этих правил может отличаться (например, правила для googlebot).

    Как видно из названия файлов, файлы robots.txt представляют собой обычный текст и всегда находятся в корне домена. Синтаксис файлов по существу следует схеме fieldname: value с необязательными предшествующими user-agent: ... строками, чтобы указать область действия следующего блока правил. Блоки разделяются пустыми строками, а отсутствие поля пользовательского агента (которое напрямую соответствует полю пользовательского агента HTTP) рассматривается как относящееся ко всем ботам. # служит для комментирования строк и частей строк. Все, что находится после # до конца строки, считается комментарием. Возможные имена полей: user-agent, disallow, allow, crawl-delay, sitemap и host.

    У нас есть пример файла, чтобы понять, как может выглядеть файл robots.txt. Файл ниже начинается со строки комментария, за которой следует строка, запрещающая доступ к любому содержимому — всему, что содержится в корневом каталоге («/») — для всех ботов. Следующий блок касается GoodBot и NiceBot.У этих двоих отменяются предыдущие разрешения, поскольку ничего не запрещается. Третий блок — для PrettyBot. PrettyBot любит блестящие вещи и поэтому получает специальное разрешение на все, что содержится в папке « / shinystuff / », в то время как все остальные ограничения остаются в силе. В последнем блоке всем ботам предлагается сделать паузу не менее 5 секунд между двумя посещениями.

      # это комментарий
    # вымышленный пример файла robots.txt
    
    Запретить: /
    
    User-agent: GoodBot # еще один комментарий
    Пользовательский агент: NiceBot
    Запретить:
    
    Пользовательский агент: PrettyBot
    Разрешить: / shinystuff /
    
    Задержка сканирования: 5  

    Для получения дополнительной информации посетите: http: // www.robotstxt.org/norobots-rfc.txt, где «стандартный» файл robots.txt описан формально. Ценные введения можно найти на http://www.robotstxt.org/robotstxt.html, а также на https://en.wikipedia.org/wiki/Robots_exclusion_standard — разумеется.

      библиотека (robotstxt)
    paths_allowed ("http://google.com/")  
      ## [1] ИСТИНА  
      paths_allowed ("http://google.com/search")  
      ## [1] ЛОЖЬ  

    Сначала загрузим пакет.Кроме того, мы загружаем пакет dplyr, чтобы иметь возможность использовать оператор трубы magrittr %>% и некоторые простые для чтения и запоминания функции манипулирования данными.

      библиотека (robotstxt)
    библиотека (dplyr)  

    объектно-ориентированный стиль

    Первым шагом является создание экземпляра класса robotstxt, предоставленного пакетом. Экземпляр должен быть инициирован путем предоставления домена или фактического текста файла robots.txt. Если указан только домен, то файл robots.txt будет загружен автоматически. Взгляните на ? Robotstxt для описания всех полей данных и методов, а также их параметров.

      rtxt <- robotstxt (domain = "wikipedia.org")  

    rtxt относится к классу robotstxt .

      ## [1] "robotstxt"  

    Печать объекта позволяет нам взглянуть на все поля данных и методы в rtxt - у нас есть доступ к тексту, а также ко всем общим полям.Нестандартные поля собраны в других .

      ## $ текст
    ## [1] "# \ n # robots.txt для http://www.wikipedia.org/ и друзей \ n # \ n # Обратите внимание: на этом сайте много страниц, и есть \ n # какие-то непослушные пауки, которые ходят _ путем_ слишком быстро. Если вы \ n # безответственны, ваш доступ к сайту может быть заблокирован. \ n # \ n \ n # боты, связанные с рекламой: \ nUser-agent: Mediapartners- Google * \ n \ n [... 653 строки пропущены ...] "
    ##
    ## $ домен
    ## [1] "википедия.org "
    ##
    ## $ robexclobj
    ## <Объект протокола исключения роботов>
    ## $ боты
    ## [1] "Медиапартнеры-Google *" "IsraBot"
    ## [3] "Ортогаффе" "UbiCrawler"
    ## [5] "ДОК" "Зао"
    ## [7] "" "[... 28 элементов опущены ...]"
    ##
    ## $ комментарии
    ## строчный комментарий
    ## 1 1 #
    ## 2 2 # роботов.txt для http://www.wikipedia.org/ и друзей
    ## 3 3 #
    ## 4 4 # Обратите внимание: на этом сайте много страниц, и есть
    ## 5 5 # несколько непослушных пауков, которые бегают слишком быстро. Если ты
    ## 6 6 # безответственно, ваш доступ к сайту может быть заблокирован.
    ## 7
    ## 8 [... 173 элемента опущены ...]
    ##
    ## $ разрешения
    ## поле useragent значение
    ## 1 Disallow Mediapartners-Google * /
    ## 2 Запретить IsraBot
    ## 3 Запретить ортогаффе
    ## 4 Запретить UbiCrawler /
    ## 5 Запретить DOC /
    ## 6 Запретить Zao /
    ## 7
    ## 8 [... 370 элементов опущено ...]
    ##
    ## $ crawl_delay
    ## [1] поле useragent значение
    ## <0 строк> (или имена строк с нулевой длиной)
    ##
    ## $ host
    ## [1] поле useragent значение
    ## <0 строк> (или имена строк с нулевой длиной)
    ##
    ## $ sitemap
    ## [1] поле useragent значение
    ## <0 строк> (или имена строк с нулевой длиной)
    ##
    ## $ other
    ## [1] поле useragent значение
    ## <0 строк> (или строка нулевой длины.имена)
    ##
    ## $ check
    ## function (paths = "/", bot = "*")
    ## {
    ## spiderbar :: can_fetch (obj = self $ robexclobj, path = paths,
    ## user_agent = bot)
    ##}
    ## <байт-код: 0x000000001bac20f0>
    ## <среда: 0x000000001bac1478>
    ##
    ## attr (, "класс")
    ## [1] "robotstxt"  

    Проверка разрешений работает с помощью метода rtxt check , указав один или несколько путей. Если имя бота не указано, предполагается "*" - означает любой бот.

      # проверка прав доступа
    rtxt $ check (paths = c ("/", "api /"), bot = "*")  
      ## [1] ИСТИНА ЛОЖЬ  
      rtxt $ check (paths = c ("/", "api /"), bot = "Orthogaffe")  
      ## [1] ИСТИНА ИСТИНА  
      rtxt $ check (paths = c ("/", "api /"), bot = "Mediapartners-Google *")  
      ## [1] ИСТИНА ЛОЖЬ  

    функциональный стиль

    При работе с классом robotstxt рекомендуется проверять также только функции.Далее мы (1) загружаем файл robots.txt; (2) проанализировать его и (3) проверить разрешения.

      r_text <- get_robotstxt ("nytimes.com")  
      r_parsed <- parse_robotstxt (r_text)
    r_parsed  
      ## $ useragents
    ## [1] "*" "Mediapartners-Google" "AdsBot-Google"
    ## [4] "adidxbot"
    ##
    ## $ комментарии
    ## [1] строчный комментарий
    ## <0 строк> (или строка нулевой длины.имена)
    ##
    ## $ разрешения
    ## поле useragent значение
    ## 1 Разрешить * / ads / public /
    ## 2 Разрешить * /svc/news/v3/all/pshb.rss
    ## 3 Disallow * / ads /
    ## 4 Запретить * / adx / bin /
    ## 5 Запретить * / archives /
    ## 6 Запретить * / auth /
    ## 7 Disallow * / cnet /
    ## 8 Disallow * / College /
    ## 9 Disallow * / external /
    ## 10 Disallow * / financialtimes /
    ## 11 Запрещение * / idg /
    ## 12 Disallow * / indexes /
    ## 13 Запретить * / library /
    ## 14 Disallow * / nytimes-partners /
    ## 15 Disallow * / packages / flash / multimedia / TEMPLATES /
    ## 16 Disallow * / pages / college /
    ## 17 Disallow * / paycontent /
    ## 18 Disallow * / partners /
    ## 19 Disallow * / Restaurants / search *
    ## 20 Disallow * / reuters /
    ## 21 Запрещение * / регистрация
    ## 22 Disallow * / thestreet /
    ## 23 Запретить * / svc
    ## 24 Запретить * / video / embedded / *
    ## 25 Disallow * / web-services /
    ## 26 Disallow * / gst / travel / travsearch *
    ## 27 Запретить Mediapartners-Google / Restaurants / search *
    ## 28 Disallow AdsBot-Google / Restaurants / search *
    ## 29 Запретить adidxbot / Restaurants / search *
    ##
    ## $ crawl_delay
    ## [1] поле useragent значение
    ## <0 строк> (или строка нулевой длины.имена)
    ##
    ## $ sitemap
    ## поле useragent
    ## 1 Sitemap *
    ## 2 Карта сайта *
    ## 3 Карта сайта *
    ##                                                                    ценить
    ## 1 http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/sitemap.xml.gz
    ## 2 http://www.nytimes.com/sitemaps/sitemap_news/sitemap.xml.gz
    ## 3 http://spiderbites.nytimes.com/sitemaps/sitemap_video/sitemap.xml.gz
    ##
    ## $ host
    ## [1] поле useragent значение
    ## <0 строк> (или строка нулевой длины.имена)
    ##
    ## $ other
    ## [1] поле useragent значение
    ## <0 строк> (или имена строк с нулевой длиной)  
      paths_allowed (
      paths = c ("изображения /", "/ поиск"),
      domain = c ("wikipedia.org", "google.com"),
      bot = "Ортогаффе"
    )  
      ##
     wikipedia.org
     google.com  
      ## [1] ИСТИНА ЛОЖЬ  

    Виртуальных роботов.txt | Справочный центр OnCrawl

    Виртуальный файл robots.txt существует только в OnCrawl для целей сканирования, с которым он связан. Он предоставляет информацию того же типа и работает так же, как и ваш обычный файл robots.txt, но адаптирован к требованиям вашего поискового сканирования.

    Иногда вы не хотите, чтобы ваш бот для SEO-аудита следовал тем же правилам, которые вы показываете ботам поисковых систем в файле robots.txt.

    Есть много причин, по которым вы можете не использовать робота по умолчанию.txt для вашего сайта:

    Конечно, вы не хотите заменять обычный файл robots.txt, поскольку он содержит важные инструкции для поисковых систем. Здесь появляется виртуальный файл robots.txt.

    Перед запуском

    Чтобы переопределить файл robots.txt, вам нужно будет проверить сайт, который вы хотите сканировать. Это позволяет нам знать, что у вас есть разрешение игнорировать настройку сайта.

    Если вы не уверены, подтвердили ли вы свой проект или нет, вы можете выполнить шаги один и два ниже.Если ваш проект уже прошел проверку, мы сообщим вам об этом на странице проверки проекта.

    1. На домашней странице вашего проекта (или любой другой странице проекта) в верхнем правом углу щелкните три точки, чтобы открыть меню проекта.

    2. Выберите «Подтвердить право собственности»

    3. Следуйте инструкциям, чтобы предоставить информацию, необходимую для проверки вашего проекта.

    4. Нажмите «Настроить новое сканирование», чтобы перейти непосредственно на страницу настроек сканирования.

    Включить виртуальный robots.txt

    На странице настроек сканирования включите использование виртуального файла robots.txt:

    1. Убедитесь, что в верхней части страницы показаны дополнительные настройки. Если переключатель серый, нажмите «Показать дополнительные настройки», чтобы отобразить их.

    1. Прокрутите вниз до раздела «Дополнительные настройки» и нажмите «Виртуальный robots.txt», чтобы развернуть раздел.

    2. Отметьте «Включить виртуальных роботов.txt "

    Предоставьте содержимое виртуального файла robots.txt

    Чтобы упростить создание виртуального файла robots.txt, OnCrawl использует существующий файл в качестве шаблона.

    1. Укажите имя домена (URL-адрес веб-сайт), для которого вы хотите создать виртуальный файл robots.txt. Если хост домена не существует или не отвечает, но вы все равно хотите его использовать, вы можете нажать «Хост не найден, создать?», чтобы создать пустой файл robots.txt

    2. Нажмите «+», чтобы добавить роботов.txt

    3. В поле «Правила виртуального robots.txt» отображается содержимое виртуального файла robots.txt. Добавьте, измените или удалите правила, чтобы создать файл robots.txt, который будет использоваться ботом OnCrawl.

    Если вы сканируете несколько доменов или субдоменов, повторите эти шаги (1-3) для каждого домена или субдомена, которому нужен виртуальный robots.txt.

    Когда вы закончите, прокрутите страницу вниз и нажмите «Сохранить» или «Сохранить и запустить сканирование», чтобы сохранить ваших виртуальных роботов.txt файл.

    Сканировать все

    Разрешить боту OnCrawl доступ ко всему, добавив:

      User-Agent: OnCrawl 
    Разрешить: /

    Сканировать заблокированные страницы

    Чтобы сканировать каталоги или страницы, которые в настоящее время запрещены, удалите или закомментируйте строка запрета:

      # Disallow: / blog /  

    Сканировать только часть сайта

    Чтобы сканировать только часть сайта, удалите или закомментируйте правила, применимые ко всему сайту.

    Затем запретите каталогам, которые не нужно сканировать. Разрешите каталоги, которые вы хотите сканировать.

      Disallow: / blog / 
    Allow: / products /

    Сканирование только некоторых субдоменов сайта

    Убедитесь, что сканирование субдоменов, которые вы хотите сканировать, разрешено.

    Для каждого субдомена, который вы не хотите сканировать, создайте виртуальный robots.txt и запретите весь субдомен:

      User-Agent: OnCrawl 
    Disallow: /

    Например, для сканирования , пожалуйста, просканируйте.mysite.com , но не do-not-crawl-1.mysite.com или do-not-crawl-2.mysite.com :

    • Убедитесь, что файл robots.txt для , пожалуйста, просканируйте. mysite.com позволяет сканировать поддомен.

    • Создайте robots.txt для do-not-crawl-1.mysite.com и запретите субдомен.

    • Создайте robots.txt для do-not-crawl-1.mysite.com и запретите использование субдомена.

    Для получения дополнительной информации об этой модификации см. Как сканировать одни поддомены, но не другие.

    Разрешить боту OnCrawl сканировать быстрее скорости, установленной в задержке сканирования

    Удалите или закомментируйте параметр задержки сканирования:

      # Crawl-delay: 2  

    Для получения дополнительной информации об этой модификации см. Ваши роботы .txt имеет настройку задержки сканирования со значением более 1 секунды.

      User-Agent: OnCrawl 
    Allow: /
    • Если вы используете запрещающие правила, не забудьте не запрещать начальные URL!

    • Роботы А.txt будет применяться только к домену или субдомену, для которого он был создан. В случае сканирования, включающего несколько субдоменов, создайте файл robots.txt для каждого субдомена.

    • Дополнительную информацию о файлах robots.txt можно найти здесь: http://www.robotstxt.org/robotstxt.html

    • Вы можете использовать Google Search Console, чтобы проверить, как правила влияют на сканирование.

    Если у вас все еще есть вопросы об использовании виртуального robots.txt, напишите нам на @oncrawl_cs или нажмите кнопку «Интерком» в правом нижнем углу экрана, чтобы начать чат с нами.

    Счастливого ползания!

    Эту статью также можно найти, выполнив поиск:
    ограничений в файле robots.txt, создать временный файл robots.txt
    ограничений на файл robots.txt, создать новый файл robots.txt temporaire

    Как оптимизировать Ваш Robots.txt для SEO в WordPress (Руководство для начинающих)

    Недавно один из наших читателей попросил нас дать советы о том, как оптимизировать файл robots.txt для улучшения SEO.

    Файл

    Robots.txt сообщает поисковым системам, как сканировать ваш сайт, что делает его невероятно мощным инструментом SEO.

    В этой статье мы покажем вам, как создать идеальный файл robots.txt для SEO.

    Что такое файл robots.txt?

    Robots.txt - это текстовый файл, который владельцы веб-сайтов могут создать, чтобы сообщить роботам поисковых систем, как сканировать и индексировать страницы на своем сайте.

    Обычно он хранится в корневом каталоге, также известном как основная папка вашего веб-сайта. Базовый формат файла robots.txt выглядит так:

    Пользовательский агент: [имя пользовательского агента]
    Disallow: [строка URL, которую нельзя сканировать]
    
    Пользовательский агент: [имя пользовательского агента]
    Разрешить: [строка URL для сканирования]
    
    
    Карта сайта: [URL-адрес вашего XML-файла Sitemap]
     

    У вас может быть несколько строк инструкций, чтобы разрешить или запретить определенные URL-адреса и добавить несколько карт сайта.Если вы не запрещаете URL-адрес, то роботы поисковых систем предполагают, что им разрешено сканировать его.

    Вот как может выглядеть файл примера robots.txt:

    Пользовательский агент: *
    Разрешить: / wp-content / uploads /
    Запретить: / wp-content / plugins /
    Запретить: / wp-admin /
    
    Карта сайта: https://example.com/sitemap_index.xml
    
     

    В приведенном выше примере robots.txt мы разрешили поисковым системам сканировать и индексировать файлы в нашей папке загрузки WordPress.

    После этого мы запретили поисковым роботам сканировать и индексировать плагины и папки администратора WordPress.

    Наконец, мы предоставили URL-адрес нашей XML-карты сайта.

    Вам нужен файл Robots.txt для вашего сайта WordPress?

    Если у вас нет файла robots.txt, поисковые системы все равно будут сканировать и индексировать ваш сайт. Однако вы не сможете указать поисковым системам, какие страницы или папки им не следует сканировать.

    Это не окажет большого влияния, если вы впервые создаете блог и у вас мало контента.

    Однако по мере того, как ваш веб-сайт растет и у вас появляется много контента, вы, вероятно, захотите лучше контролировать то, как ваш веб-сайт сканируется и индексируется.

    Вот почему.

    У поисковых роботов есть квота сканирования для каждого веб-сайта.

    Это означает, что они просматривают определенное количество страниц во время сеанса сканирования. Если они не завершат сканирование всех страниц вашего сайта, они вернутся и возобновят сканирование в следующем сеансе.

    Это может снизить скорость индексации вашего сайта.

    Вы можете исправить это, запретив поисковым роботам пытаться сканировать ненужные страницы, такие как ваши административные страницы WordPress, файлы плагинов и папку тем.

    Запрещая использование ненужных страниц, вы сохраняете квоту сканирования. Это помогает поисковым системам сканировать еще больше страниц на вашем сайте и как можно быстрее их индексировать.

    Еще одна веская причина использовать файл robots.txt - это когда вы хотите запретить поисковым системам индексировать сообщение или страницу на вашем веб-сайте.

    Это не самый безопасный способ скрыть контент от широкой публики, но он поможет вам предотвратить их появление в результатах поиска.

    Что делают идеальные роботы.txt Как выглядит файл?

    Многие популярные блоги используют очень простой файл robots.txt. Их содержание может варьироваться в зависимости от потребностей конкретного сайта:

    Пользовательский агент: *
    Запретить:
     
    Карта сайта: http://www.example.com/post-sitemap.xml
    Карта сайта: http://www.example.com/page-sitemap.xml
     

    Этот файл robots.txt позволяет всем ботам индексировать весь контент и предоставляет им ссылку на XML-карту сайта веб-сайта.

    Для сайтов WordPress мы рекомендуем следующие правила в файле robots.txt файл:

    Пользовательский агент: *
    Разрешить: / wp-content / uploads /
    Запретить: / wp-content / plugins /
    Запретить: / wp-admin /
    Запретить: /readme.html
    Запретить: / ссылаться /
    
    Карта сайта: http://www.example.com/post-sitemap.xml
    Карта сайта: http://www.example.com/page-sitemap.xml
     

    Указывает поисковым роботам индексировать все изображения и файлы WordPress. Он запрещает поисковым роботам индексировать файлы плагинов WordPress, область администрирования WordPress, файл readme WordPress и партнерские ссылки.

    Добавляя карты сайта в файл robots.txt, вы упрощаете роботам Google поиск всех страниц на вашем сайте.

    Теперь, когда вы знаете, как выглядит идеальный файл robots.txt, давайте посмотрим, как создать файл robots.txt в WordPress.

    Как создать файл Robots.txt в WordPress?

    Есть два способа создать файл robots.txt в WordPress. Вы можете выбрать наиболее подходящий для вас метод.

    Метод 1. Роботы-редакторы.txt Использование "Все в одном" SEO

    All in One SEO, также известный как AIOSEO, - лучший плагин WordPress SEO на рынке, используемый более чем 2 миллионами веб-сайтов.

    Он прост в использовании и включает в себя генератор файлов robots.txt.

    Если у вас еще не установлен плагин AIOSEO, вы можете ознакомиться с нашим пошаговым руководством по установке плагина WordPress.

    Примечание: Бесплатная версия AIOSEO также доступна и имеет эту функцию.

    После того, как плагин установлен и активирован, вы можете использовать его для создания и редактирования ваших файлов robots.txt прямо из админки WordPress.

    Просто перейдите на страницу All in One SEO »Tools , чтобы отредактировать файл robots.txt.

    Во-первых, вам нужно включить параметр редактирования, установив переключатель «Включить пользовательский файл Robots.txt» в синий цвет.

    Включив этот переключатель, вы можете создать собственный файл robots.txt в WordPress.

    All in One SEO покажет существующий файл robots.txt в разделе «Предварительный просмотр Robots.txt» в нижней части экрана.

    Эта версия покажет правила по умолчанию, которые были добавлены WordPress.

    Эти правила по умолчанию предписывают поисковым системам не сканировать ваши основные файлы WordPress, позволяют ботам индексировать весь контент и предоставляют им ссылку на XML-карту сайта вашего сайта.

    Теперь вы можете добавлять свои собственные правила для улучшения вашего robots.txt для SEO.

    Чтобы добавить правило, введите пользовательский агент в поле «Пользовательский агент». Использование * применит правило ко всем пользовательским агентам.

    Затем выберите, хотите ли вы «Разрешить» или «Запретить» сканирование поисковым системам.

    Затем введите имя файла или путь к каталогу в поле «Путь к каталогу».

    Правило будет автоматически применено к вашему robots.txt. Чтобы добавить другое правило, нажмите кнопку «Добавить правило».

    Мы рекомендуем добавлять правила, пока вы не создадите идеальный формат robots.txt, о котором мы рассказали выше.

    Ваши пользовательские правила будут выглядеть следующим образом.

    По завершении не забудьте нажать кнопку «Сохранить изменения», чтобы сохранить изменения.

    Метод 2. Отредактируйте файл Robots.txt вручную с помощью FTP

    Для этого метода вам нужно будет использовать FTP-клиент для редактирования файла robots.txt.

    Просто подключитесь к своей учетной записи хостинга WordPress с помощью FTP-клиента.

    Оказавшись внутри, вы сможете увидеть файл robots.txt в корневой папке вашего веб-сайта.

    Если вы его не видите, скорее всего, у вас нет файла robots.txt.

    В этом случае вы можете просто создать его.

    Robots.txt - это простой текстовый файл, что означает, что вы можете загрузить его на свой компьютер и отредактировать с помощью любого текстового редактора, такого как Блокнот или TextEdit.

    После сохранения изменений вы можете загрузить их обратно в корневую папку вашего веб-сайта.

    Как проверить файл Robots.txt?

    После создания файла robots.txt всегда рекомендуется протестировать его с помощью инструмента тестирования robots.txt.

    Существует множество инструментов для тестирования robots.txt, но мы рекомендуем использовать тот, который находится в консоли поиска Google.

    Во-первых, вам нужно, чтобы ваш веб-сайт был связан с Google Search Console. Если вы еще не сделали этого, ознакомьтесь с нашим руководством о том, как добавить свой сайт WordPress в Google Search Console.

    Затем вы можете использовать инструмент тестирования роботов Google Search Console.

    Просто выберите вашу собственность из выпадающего списка.

    Инструмент автоматически загрузит файл robots.txt с вашего сайта и выделит ошибки и предупреждения, если они обнаружены.

    Последние мысли

    Цель оптимизации ваших роботов.txt предназначен для предотвращения сканирования поисковыми системами страниц, которые не являются общедоступными. Например, страницы в папке wp-plugins или страницы в папке администратора WordPress.

    Распространенный миф среди экспертов по SEO заключается в том, что блокировка категорий, тегов и архивных страниц WordPress улучшит скорость сканирования и приведет к более быстрой индексации и более высокому ранжированию.

    Это неправда. Это также противоречит рекомендациям Google для веб-мастеров.

    Мы рекомендуем вам следовать указанным выше роботам.txt, чтобы создать файл robots.txt для вашего веб-сайта.

    Мы надеемся, что эта статья помогла вам узнать, как оптимизировать файл robots.txt WordPress для SEO. Вы также можете увидеть наше полное руководство по WordPress SEO и лучшие инструменты WordPress SEO для развития вашего сайта.

    Если вам понравилась эта статья, подпишитесь на наш канал YouTube с видеоуроками по WordPress. Вы также можете найти нас в Twitter и Facebook.

    Как создать файл Robots.txt для вашего веб-сайта [5 шагов]

    Основная задача веб-робота - сканировать веб-сайты и страницы в поисках информации; они неустанно работают над сбором данных для поисковых систем и других приложений.Для некоторых есть веская причина держать страницы подальше от поисковых систем. Независимо от того, хотите ли вы настроить доступ к своему сайту или хотите работать над сайтом разработки без отображения результатов Google, после внедрения файл robots.txt позволяет веб-сканерам и ботам знать, какую информацию они могут собирать.

    Что такое файл Robots.txt?

    Файл robots.txt - это простой текстовый файл веб-сайта в корне вашего сайта, который соответствует Стандарту исключения для роботов. Например, www.yourdomain.com будет файл robots.txt по адресу www.yourdomain.com/robots.txt. Файл состоит из одного или нескольких правил, которые разрешают или блокируют доступ сканерам, ограничивая их указанным путем к файлу на веб-сайте. По умолчанию все файлы полностью разрешены для сканирования, если не указано иное.

    Файл robots.txt - один из первых аспектов, проанализированных поисковыми роботами. Важно отметить, что на вашем сайте может быть только один файл robots.txt. Файл внедряется на одной или нескольких страницах или на всем сайте, чтобы поисковые системы не показывали подробности о вашем сайте.

    В этой статье представлены пять шагов для создания файла robots.txt и синтаксис, необходимый для защиты от ботов.

    Как настроить файл Robots.txt

    1. Создайте файл Robots.txt

    У вас должен быть доступ к корню вашего домена. Ваш провайдер веб-хостинга может помочь вам определить, есть ли у вас соответствующий доступ.

    Самая важная часть файла - это его создание и расположение. Используйте любой текстовый редактор, чтобы создать файл robots.txt и его можно найти по адресу:

    • Корень вашего домена: www.yourdomain.com/robots.txt.
    • Ваши поддомены: page.yourdomain.com/robots.txt.
    • Нестандартные порты: www.yourdomain.com:881/robots.txt.

    Примечание.

    Файлы Robots.txt не помещаются в подкаталог вашего домена (www.yourdomain.com/page/robots.txt).

    Наконец, вам необходимо убедиться, что ваш файл robots.txt является текстовым файлом в кодировке UTF-8. Google и другие популярные поисковые системы и сканеры могут игнорировать символы вне диапазона UTF-8, что может привести к тому, что ваш файл robots.txt недопустимы.

    2. Настройте пользовательский агент Robots.txt

    Следующим шагом в создании файлов robots.txt является установка агента пользователя . Пользовательский агент относится к веб-сканерам или поисковым системам, которые вы хотите разрешить или заблокировать. Несколько сущностей могут быть пользовательским агентом . Ниже мы перечислили несколько поисковых роботов, а также их ассоциации.

    Существует три различных способа установить пользовательский агент в вашем файле robots.txt файл.

    Создание одного пользовательского агента

    Синтаксис, который вы используете для установки пользовательского агента: User-agent: NameOfBot . Ниже DuckDuckBot - единственный установленный пользовательский агент .

      # Пример настройки user-agent
    Пользовательский агент: DuckDuckBot  

    Создание более одного пользовательского агента

    Если нам нужно добавить более одного, выполните тот же процесс, что и для пользовательского агента DuckDuckBot в следующей строке, введя имя дополнительного пользовательского агента .В этом примере мы использовали Facebot.

      # Пример того, как установить более одного пользовательского агента
    Пользовательский агент: DuckDuckBot
    Пользовательский агент: Facebot  

    Установка всех поисковых роботов в качестве пользовательского агента

    Чтобы заблокировать всех ботов или поисковых роботов, замените имя бота звездочкой (*).

      # Пример того, как установить всех сканеров как user-agent
    User-agent: *  

    Примечание:

    Знак фунта (#) обозначает начало комментария.

    3.Установите правила для вашего файла Robots.txt

    Файл robots.txt читается группами. Группа будет указывать, кем является пользовательский агент , и иметь одно правило или директиву, чтобы указать, к каким файлам или каталогам пользовательский агент может или не может получить доступ.

    Вот используемые директивы:

    • Disallow : Директива, относящаяся к странице или каталогу, относящемуся к вашему корневому домену, который вы не хотите сканировать с помощью пользовательского агента с именем . Он начинается с косой черты (/), за которой следует полный URL-адрес страницы.Вы закончите его косой чертой, только если он относится к каталогу, а не всей странице. Вы можете использовать один или несколько параметров , запрещающих для каждого правила.
    • Разрешить : Директива относится к странице или каталогу относительно вашего корневого домена, который вы хотите сканировать с помощью пользовательского агента с именем . Например, вы могли бы использовать директиву allow , чтобы переопределить правило disallow . Он также начинается с косой черты (/), за которой следует полный URL-адрес страницы.Вы закончите его косой чертой, только если он относится к каталогу, а не всей странице. Вы можете использовать один или несколько параметров разрешить для каждого правила.
    • Карта сайта : Директива карты сайта является необязательной и указывает местоположение карты сайта для веб-сайта. Единственное условие - это должен быть полный URL. Вы можете использовать ноль или больше, в зависимости от того, что необходимо.

    Веб-сканеры обрабатывают группы сверху вниз. Как упоминалось ранее, они обращаются к любой странице или каталогу, для которых явно не установлено значение , запрещает .Поэтому добавьте Disallow: / под информацией пользовательского агента в каждой группе, чтобы заблокировать сканирование вашего веб-сайта этими конкретными пользовательскими агентами.

      # Пример как заблокировать DuckDuckBot
    Пользовательский агент: DuckDuckBot
    Запретить: /
    
    # Пример того, как заблокировать более одного пользовательского агента
    Пользовательский агент: DuckDuckBot
    Пользовательский агент: Facebot
    Запретить: /
    
    # Пример того, как заблокировать всех сканеров
    Пользовательский агент: *
    Disallow: /  

    Чтобы заблокировать определенный субдомен для всех поисковых роботов, добавьте в правило запрета косую черту и полный URL субдомена.

      # Пример
    Пользовательский агент: *
    Запретить: /https://page.yourdomain.com/robots.txt  

    Если вы хотите заблокировать каталог, выполните тот же процесс, добавив косую черту и имя своего каталога, но затем заканчиваться другой косой чертой.

      # Пример
    Пользовательский агент: *
    Disallow: / images /  

    Наконец, если вы хотите, чтобы все поисковые системы собирали информацию на всех страницах вашего сайта, вы можете создать правило разрешить или запретить правило , но обязательно добавляйте косую черту, когда с помощью правила разрешить .Примеры обоих правил показаны ниже.

      # Разрешить пример, разрешающий всем поисковым роботам
    Пользовательский агент: *
    Разрешать: /
    
    # Disallow пример, разрешающий всем сканерам
    Пользовательский агент: *
    Запрещено:  

    4. Загрузите файл robots.txt

    Веб-сайты не поставляются автоматически с файлом robots.txt, поскольку он не требуется. Когда вы решите создать его, загрузите файл в корневой каталог вашего сайта. Загрузка зависит от файловой структуры вашего сайта и среды вашего веб-хостинга.Обратитесь к своему хостинг-провайдеру за помощью о том, как загрузить файл robots.txt.

    5. Убедитесь, что ваш файл robots.txt работает правильно

    Есть несколько способов проверить и убедиться, что ваш файл robots.txt работает правильно. С помощью любого из них вы можете увидеть любые ошибки в своем синтаксисе или логике. Вот некоторые из них:

    Бонус: использование Robots.txt в WordPress

    Если вы используете WordPress плагин Yoast SEO, вы увидите раздел в окне администратора для создания файла robots.

    Добавить комментарий

    Ваш адрес email не будет опубликован.