Директивы Disallow и Allow — Вебмастер. Справка
- Disallow
- Allow
- Совместное использование директив
- Директивы Allow и Disallow без параметров
- Использование спецсимволов * и $
- Примеры интерпретации директив
страницы с конфиденциальными данными;
страницы с результатами поиска по сайту;
статистика посещаемости сайта;
дубликаты страниц;
разнообразные логи;
сервисные страницы баз данных.
Примеры:
User-agent: Yandex Disallow: / # запрещает обход всего сайта User-agent: Yandex Disallow: /catalogue # запрещает обход страниц, адрес которых начинается с /catalogue User-agent: Yandex Disallow: /page? # запрещает обход страниц, URL которых содержит параметры
Директива разрешает индексирование разделов или отдельных страниц сайта.
Примеры:
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'
User-agent: Yandex
Allow: /file.xml
# разрешает скачивание файла file.xml
Примечание. Недопустимо наличие пустых переводов строки между директивами User-agent
, Disallow
и Allow
.
Директивы Allow
и Disallow
из соответствующего User-agent
блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.
Примечание. При конфликте между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow
.
# Исходный robots.txt: User-agent: Yandex Allow: / Allow: /catalog/auto Disallow: /catalog # Сортированный robots.txt: User-agent: Yandex Allow: / Disallow: /catalog Allow: /catalog/auto # запрещает скачивать страницы, начинающиеся с '/catalog', # но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.
Общий пример:
User-agent: Yandex
Allow: /archive
Disallow: /
# разрешает все, что содержит '/archive', остальное запрещено
User-agent: Yandex
Allow: /obsolete/private/*.html$ # разрешает html файлы
# по пути '/obsolete/private/...'
Disallow: /*.php$ # запрещает все '*.php' на данном сайте
Disallow: /*/private/ # запрещает все подпути содержащие
# '/private/', но Allow выше отменяет
# часть запрета
Disallow: /*/old/*.zip$ # запрещает все '*.zip' файлы, содержащие
# в пути '/old/'
User-agent: Yandex
Disallow: /add.php?*user=
# запрещает все скрипты 'add.php?' с параметром 'user'
Если директивы не содержат параметры, робот учитывает данные следующим образом:
User-agent: Yandex
Disallow: # то же, что и Allow: /
User-agent: Yandex
Allow: # не учитывается роботом
При указании путей директив Allow и Disallow можно использовать спецсимволы * и $, чтобы задавать определенные регулярные выражения.
Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:
User-agent: Yandex Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx' # и '/cgi-bin/private/test.aspx' Disallow: /*private # запрещает не только '/private', # но и '/cgi-bin/private'
По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. Пример:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое
Чтобы отменить * на конце правила, можно использовать спецсимвол $, например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example',
# но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example',
# и '/example.html'
Спецсимвол $ не запрещает указанный * на конце, то есть:
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
# запрещает и /example.html и /example
User-agent: Yandex
Allow: /
Disallow: /
# все разрешается
User-agent: Yandex
Allow: /$
Disallow: /
# запрещено все, кроме главной страницы
User-agent: Yandex
Disallow: /private*html
# запрещается и '/private*html',
# и '/private/test.html', и '/private/html/test.aspx' и т. п.
User-agent: Yandex
Disallow: /private$
# запрещается только '/private'
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
# так как робот Яндекса
# выделяет записи по наличию в строке 'User-agent:',
# результат — все разрешается
Директива Clean-param — Вебмастер. Справка
Используйте директиву Clean-param, если адреса страниц сайта содержат GET-параметры (например, идентификаторы сессий, пользователей) или метки (например, UTM), которые не влияют на их содержимое.
Примечание. Иногда для закрытия таких страниц используется директива Disallow. Рекомендуем использовать Clean-param, так как эта директива позволяет передавать основному URL или сайту некоторые накопленные показатели.
Заполняйте директиву Clean-param максимально полно и поддерживайте ее актуальность. Новый параметр, не влияющий на контент страницы, может привести к появлению страниц-дублей, которые не должны попасть в поиск. Из-за большого количества таких страниц робот медленнее обходит сайт. А значит, важные изменения дольше не попадут в результаты поиска.
Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
Например, на сайте есть страницы:
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123
www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123
www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123
Параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:
User-agent: Yandex
Disallow:
Clean-param: ref /some_dir/get_book.pl
робот Яндекса сведет все адреса страницы к одному:
www.example.com/some_dir/get_book.pl?book_id=123
Если на сайте доступна такая страница, именно она будет участвовать в результатах поиска.
Clean-param: p0[&p1&p2&..&pn] [path]
В первом поле через символ & перечисляются параметры, которые роботу не нужно учитывать. Во втором поле указывается префикс пути страниц, для которых нужно применить правило.
Примечание. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.
Префикс может содержать регулярное выражение в формате, аналогичном файлу robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. При этом символ * трактуется так же, как в файле robots.txt: в конец префикса всегда неявно дописывается символ *. Например:
Clean-param: s /forum/showthread.php
означает, что параметр s будет считаться незначащим для всех URL, которые начинаются с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет применяться для всех страниц сайта.
Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например:
Clean-param: abc /forum/showthread.php
Clean-param: sid&sort /forum/*.php
Clean-param: someTrash&otherTrash
#для адресов вида:
www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243
www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/showthread.php
#для адресов вида: www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae #robots.txt будет содержать: User-agent: Yandex Disallow: Clean-param: sid /index.php
#если таких параметров несколько:
www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311
www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s&ref /forum*/showthread.php
#если параметр используется в нескольких скриптах:
www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243
www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: s /forum/index.php
Clean-param: s /forum/showthread.php
Управление robots.txt
Общие правила
Данная вкладка служит для указания общих правил для индексирования сайта поисковыми системами. В поле отображается текущий набор инструкций. Любая из инструкций (кроме User-Agent: *) может быть удалена, если навести на нее курсор мыши и нажать на «крестик». Для генерации инструкций необходимо воспользоваться кнопками, расположенными рядом с полем.
Кнопка | Описание |
---|---|
Стартовый набор | Позволяет задать набор стандартных правил и ограничений (закрываются от индексации административные страницы, личные данные пользователя, отладочная информация).
Если часть стандартного набора уже задана, то будут добавлены только необходимые отсутствующие инструкции. |
Запретить файл/папку (Disallow) | Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно. |
Разрешить файл/папку (Allow) | Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы. |
Главное зеркало (Host) | Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами. |
Интервал между запросами (Crawl-delay) | Служит для указания минимального временного интервала (в сек.) между запросами поискового робота. |
Карта сайта | Позволяет задать ссылку к файлу карты сайта sitemap.xml. |
Яндекс
Настройка правил и ограничений для роботов Яндекса. Настройку можно выполнить как сразу для всех роботов Яндекса (вкладка «Yandex»), так и каждого в отдельности (на вкладке с соответствующим названием робота). Внешний вид вкладок одинаков и содержит следующий набор кнопок для генерации инструкций:
Кнопка | Описание |
---|---|
Запретить файл/папку (Disallow) | Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно. |
Разрешить файл/папку (Allow) | Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы. |
Главное зеркало (Host) | Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.
Важно! Для каждого файла robots.txt обрабатывается только одна директива Host. |
Интервал между запросами (Crawl-delay) | Служит для указания минимального временного интервала (в сек.) между запросами поискового робота. |
Настройка правил и ограничений для роботов Google. Настройка выполняется для каждого робота в отдельности (на вкладке с соответствующим названием робота). Внешний вид вкладок одинаков и содержит следующий набор кнопок для генерации инструкций:
Кнопка | Описание |
---|---|
Запретить файл/папку (Disallow) | Позволяет составить инструкции, запрещающие индексировать файлы и папки по маске пути.
При нажатии на кнопку открывается форма со списком уже имеющихся инструкций запрета индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые индексировать не нужно. |
Разрешить файл/папку (Allow) | Позволяет указать файлы и папки, разрешенные для индексации.
При нажатии на кнопку открывается форма со списком путей к файлам и папкам, разрешенных для индексации. В открывшейся форме кнопка […] позволяет выбрать файлы или папки, которые должны быть проиндексированы. |
Главное зеркало (Host) | Позволяет задать адрес главного зеркала сайта. Главное зеркало необходимо обязательно указывать, если сайт обладает несколькими зеркалами.
Важно! Для каждого файла robots.txt обрабатывается только одна директива Host. |
Редактировать
На данной вкладке представлено текстовое поле, в котором можно вручную отредактировать содержимое файла robots.txt.
Смотрите также
© «Битрикс», 2001-2021, «1С-Битрикс», 2021
Наверх
Файл robots.txt — способы анализа и проверки robots.txt
Поисковые роботы — краулеры начинают знакомство с сайтом с чтения файла robots.txt. В нем содержится вся важная для них информация. Владельцам сайтов следует создать и периодически проводить анализ robots.txt. От корректности его работы зависит скорость индексации страниц и место в поисковой выдачи.
Создание файла
Описание. Файл robots.txt — это документ со служебной информацией. Он предназначен для поисковых роботов. В нем записывают, какие страницы можно индексировать, какие — нет и каким именно краулерам. Например, англоязычный Facebook разрешает доступ только боту Google. Файл robots.txt любого сайта можно посмотреть в браузере по ссылке www.site.ru/robots.txt.
Он не является обязательным элементом сайта, но его наличие желательно, потому что с его помощью владельцы сайта управляют поисковыми роботами. Задавайте разные уровни доступа к сайту, запрет на индексацию всего сайта, отдельных страниц, разделов или файлов. Для ресурсов с высокой посещаемостью ограничивайте время индексации и запрещайте доступ роботам, которые не относятся к основным поисковым системам. Это уменьшит нагрузку на сервер.
Создание. Создают файл в текстовом редакторе Notepad или подобных. Следите за тем, чтобы размер файла не превышал 32 КБ. Выбирайте для файла кодировку ASCII или UTF-8. Учтите, что файл должен быть единственным. Если сайт создан на CMS, то он будет генерироваться автоматически.
Разместите созданный файл в корневой директории сайта рядом с основным файлом index.html. Для этого используют FTP доступ. Если сайт сделан на CMS, то с файлом работают через административную панель. Когда файл создан и работает корректно, он доступен в браузере.
При отсутствии robots.txt поисковые роботы собирают всю информацию, относящуюся к сайту. Не удивляйтесь, когда увидите в выдаче незаполненные страницы или служебную информацию. Определите, какие разделы сайта будут доступны пользователям, остальные — закройте от индексации.
Проверка. Периодически проверяйте, все ли работает корректно. Если краулер не получает ответ 200 ОК, то он автоматически считает, что файла нет, и сайт открыт для индексации полностью. Коды ошибок бывают такими:
-
3хх — ответы переадресации. Робота направляют на другую страницу или на главную. Создавайте до пяти переадресаций на одной странице. Если их будет больше, робот пометит такую страницу как ошибку 404. То же самое относится и к переадресации по принципу бесконечного цикла;
-
4хх — ответы ошибок сайта. Если краулер получает от файла robots.txt 400-ую ошибку, то делается вывод, что файла нет и весь контент доступен. Это также относится к ошибкам 401 и 403;
-
5хх — ответы ошибок сервера. Краулер будет «стучаться», пока не получит ответ, отличный от 500-го.
Правила создания
Начинаем с приветствия. Каждый файл должен начинаться с приветствия User-agent. С его помощью поисковики определят уровень открытости.
Код | Значение |
User-agent: * | Доступно всем |
User-agent: Yandex | Доступно роботу Яндекс |
User-agent: Googlebot | Доступно роботу Google |
User-agent: Mail.ru | Доступно роботу Mail.ru |
Добавляем отдельные директивы под роботов. При необходимости добавляйте директивы для специализированных поисковых ботов Яндекса.
Однако в этом случае директивы * и Yandex не будут учитываться.
YandexBot | Основной робот |
YandexImages | Яндекс.Картинки |
YandexNews | Яндекс.Новости |
YandexMedia | Индексация мультимедиа |
YandexBlogs | Индексация постов и комментариев |
YandexMarket | Яндекс.Маркет |
YandexMetrika | Яндекс.Метрика |
YandexDirect | Рекламная сеть Яндекса |
YandexDirectDyn | Индексация динамических баннеров |
YaDirectFetcher | Яндекс.Директ |
YandexPagechecker | Валидатор микроразметки |
YandexCalendar | Яндекс.Календарь |
У Google собственные боты:
Googlebot | Основной краулер |
Google-Images | Google.Картинки |
Mediapartners-Google | AdSense |
AdsBot-Google | Проверка качества рекламы |
AdsBot-Google-Mobile |
Проверка качества рекламы на мобильных устройствах |
Googlebot-News | Новости Google |
Сначала запрещаем, потом разрешаем. Оперируйте двумя директивами: Allow — разрешаю, Disallow — запрещаю. Обязательно укажите директиву disallow, даже если доступ разрешен ко всему сайту. Такая директива является обязательной. В случае ее отсутствия краулер может не верно прочитать остальную информацию. Если на сайте нет закрытого контента, оставьте директиву пустой.
Работайте с разными уровнями. В файле можно задать настройки на четырех уровнях: сайта, страницы, папки и типа контента. Допустим, вы хотите закрыть изображения от индексации. Это можно сделать на уровне:
- папки — disallow: /images/
- типа контента — disallow: /*.jpg
Нет | Да |
Disallow: Yandex |
User-agent: Yandex Disallow: / |
Disallow: /css/ /images/ |
Disallow: /css/ Disallow: /images/ |
Пишите с учетом регистра. Имя файла укажите строчными буквами. Яндекс в пояснительной документации указывает, что для его ботов регистр не важен, но Google просит соблюдать регистр. Также вероятна ошибка в названиях файлов и папок, в которых учитывается регистр.
Укажите 301 редирект на главное зеркало сайта. Раньше для этого использовалась директива Host, но с марта 2018 г. она больше не нужна. Если она уже прописана в файле robots.txt, удалите или оставьте ее на свое усмотрение; роботы игнорируют эту директиву.
Для указания главного зеркала проставьте 301 редирект на каждую страницу сайта. Если редиректа стоят не будет, поисковик самостоятельно определит, какое зеркало считать главным. Чтобы исправить зеркало сайта, просто укажите постраничный 301 редирект и подождите несколько дней.
Пропишите директиву Sitemap (карту сайта). Файлы sitemap.xml и robots.txt дополняют друг друга. Проверьте, чтобы:
- файлы не противоречили друг другу;
- страницы были исключены из обоих файлов;
- страницы были разрешены в обоих файлах.
Указывайте комментарии через символ #. Все, что написано после него, краулер игнорирует.
Проверка файла
Проводите анализ robots.txt с помощью инструментов для разработчиков: через Яндекс.Вебмастер и Google Robots Testing Tool. Обратите внимание, что Яндекс и Google проверяют только соответствие файла собственным требованиям. Если для Яндекса файл корректный, это не значит, что он будет корректным для роботов Google, поэтому проверяйте в обеих системах.
Если вы найдете ошибки и исправите robots.txt, краулеры не считают изменения мгновенно. Обычно переобход страниц осуществляется один раз в день, но часто занимает гораздо большее время. Проверьте через неделю файл, чтобы убедиться, что поисковики используют новую версию.
Проверка в Яндекс.Вебмастере
Сначала подтвердите права на сайт. После этого он появится в панели Вебмастера. Введите название сайта в поле и нажмите проверить. Внизу станет доступен результат проверки.
Дополнительно проверяйте отдельные страницы. Для этого введите адреса страниц и нажмите «проверить».
Проверка в Google Robots Testing Tool
Позволяет проверять и редактировать файл в административной панели. Выдает сообщение о логических и синтаксических ошибках. Исправляйте текст файла прямо в редакторе Google. Но обратите внимание, что изменения не сохраняются автоматически. После исправления robots.txt скопируйте код из веб-редактора и создайте новый файл через блокнот или другой текстовый редактор. Затем загрузите его на сервер в корневой каталог.
Запомните
-
Файл robots.txt помогает поисковым роботам индексировать сайт. Закрывайте сайт во время разработки, в остальное время — весь сайт или его часть должны быть открыты. Корректно работающий файл должен отдавать ответ 200.
-
Файл создается в обычном текстовом редакторе. Во многих CMS в административной панели предусмотрено создание файла. Следите, чтобы размер не превышал 32 КБ. Размещайте его в корневой директории сайта.
-
Заполняйте файл по правилам. Начинайте с кода “User-agent:”. Правила прописывайте блоками, отделяйте их пустой строкой. Соблюдайте принятый синтаксис.
-
Разрешайте или запрещайте индексацию всем краулерам или избранным. Для этого укажите название поискового робота или поставьте значок *, который означает «для всех».
-
Работайте с разными уровнями доступа: сайтом, страницей, папкой или типом файлов.
-
Включите в файл указание на главное зеркало с помощью постраничного 301 редиректа и на карту сайта с помощью директивы sitemap.
-
Для анализа robots.txt используйте инструменты для разработчиков. Это Яндекс.Вебмастер и Google Robots Testing Tools. Сначала подтвердите права на сайт, затем сделайте проверку. В Google сразу отредактируйте файл в веб-редакторе и уберите ошибки. Отредактированные файлы не сохраняются автоматически. Загружайте их на сервер вместо первоначального robots.txt. Через неделю проверьте, используют ли поисковики новую версию.
Материал подготовила Светлана Сирвида-Льорентэ.
Robots.txt
robots.txt (Роботс) – текстовый файл, который представляет собой один из способов регулирования индексации сайта поисковыми системами. Размещается в основном каталоге с сайтом.
Сведения и принцип работы Robots
Поисковой робот попадает на сайт и обращается к файлу Robots.txt, после анализа этого файла он получает информацию о том, какие категории (папки, разделы, страницы) веб-сайта нужно проигнорировать, а также предоставляет информацию о существующих динамичных параметрах в URL и расположении XML-карты сайта.
Данный файл позволяет убрать из поиска дубли страниц, страницы ошибок и улучшить не только позиции сайта, но и комфортность для пользователя в использовании интернет-ресурсов.
Для создания robots.txt достаточно воспользоваться любым текстовым редактором и создать файл с таким именем. Его необходимо заполнить в соответствии с определенными правилами и загрузить в корневой каталог сайта.
Директива User-agent
Управлять доступом к сайту робота Яндекса можно при помощи созданного файла.
В robots.txt проверяется наличие записей, начинающихся с ‘User-agent:’. В них осуществляется поиск подстроки ‘Yandex’, либо ‘*’.
Пример:
# будет использоваться только основным индексирующим роботом User-agent: YandexBot Disallow: /*id= # будет использована всеми роботами Яндекса, кроме основного индексирующего User-agent: Yandex Disallow: /*sid= # не будет использована роботами Яндекса User-agent: * Disallow: /cgi-bin
Директива Disallow
Для запрета доступа робота к сайту целиком или его частям используется директива ‘Disallow’.
Примеры:
# Пример запрета индексации сайта для поисковой системы Яндекс User-agent: Yandex Disallow: / # Пример запрета индексации страниц, начинающихся с /cgi-bin User-agent: Yandex Disallow: /cgi-bin
Директива Host
При наличии зеркала у сайта специальный робот определит их и сформирует в особую группу. В поиске будет участвовать лишь главное зеркало. В robots.txt вы можете указать имя такого зеркала. Им должно стать значение директивы ‘Host’.
Пример:
# Если www.glavnoye-zerkalo.ru - главное зеркало сайта, то robots.txt # для всех сайтов из группы зеркал выглядит так User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye-zerkalo.ru
Директива Host должна включать следующие части:
- указание на HTTPS в случае, если зеркало доступно по защищенному каналу;
- корректное доменное имя (одно), не являющееся IP-адресом;
- номер порта (при необходимости).
Использование robots.txt | FORNEX
Robots.txt — текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.
Как создать robots.txt
В текстовом редакторе создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами.
Проверьте файл в сервисе Яндекс. Вебмастер (пункт меню Анализ robots.txt).
Загрузите файл в корневую директорию вашего сайта.
Директива User-agent
Робот Яндекса поддерживает стандарт исключений для роботов с расширенными возможностями, которые описаны ниже.
В роботе используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует загрузить робот.
Сессия начинается с загрузки файла robots.txt. Если файл отсутствует, не является текстовым или на запрос робота возвращается HTTP-статус отличный от 200 OK, робот считает, что доступ к документам не ограничен.
В файле robots.txt робот проверяет наличие записей, начинающихся с User-agent:, в них учитываются подстроки Yandex (регистр значения не имеет) или * . Если обнаружена строка User-agent: Yandex, директивы для User-agent: * не учитываются. Если строки User-agent: Yandex и User-agent: * отсутствуют, считается, что доступ роботу не ограничен.
Следующим роботам Яндекса можно указать отдельные директивы:
- ‘YandexBot’ — основной индексирующий робот;
- ‘YandexDirect’ — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
- ‘YandexDirectDyn’ — робот генерации динамических баннеров, интерпретирует robots.txt особым образом;
- ‘YandexMedia’ — робот, индексирующий мультимедийные данные;
- ‘YandexImages’ — индексатор Яндекс.Картинок;
- ‘YaDirectFetcher’ — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
- ‘YandexBlogs’поиска по блогам — робот , индексирующий посты и комментарии;
- ‘YandexNews’ — робот Яндекс.Новостей;
- ‘YandexPagechecker’ — валидатор микроразметки;
- ‘YandexMetrika’ — робот Яндекс.Метрики;
- ‘YandexMarket’— робот Яндекс.Маркета;
- ‘YandexCalendar’ — робот Яндекс.Календаря.
User-agent: YandexBot # будет использоваться только основным индексирующим роботом
Disallow: /*id=
User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего
User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin
Директивы Disallow и Allow
Чтобы запретить доступ робота к сайту или некоторым его разделам, используйте директиву Disallow.
User-agent: Yandex
Disallow: / # блокирует доступ ко всему сайту
User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам,
# начинающимся с '/cgi-bin'
В соответствии со стандартом перед каждой директивой User-agent рекомендуется вставлять пустой перевод строки.
Символ # предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.
Чтобы разрешить доступ робота к сайту или некоторым его разделам, используйте директиву Allow
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'
Совместное использование директив
Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.
# Исходный robots.txt:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Сортированный robots.txt:
User-agent: Yandex
Disallow: /
Allow: /catalog
# разрешает скачивать только страницы,
# начинающиеся с '/catalog'
# Исходный robots.txt:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Сортированный robots.txt:
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с '/catalog',
# но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.
Директива Sitemap
Если вы используете описание структуры сайта с помощью файла Sitemap, укажите путь к файлу в качестве параметра директивы sitemap (если файлов несколько, укажите все).
User-agent: Yandex
Allow: /
sitemap: https://example.com/site_structure/my_sitemaps1.xml
sitemap: https://example.com/site_structure/my_sitemaps2.xml
Директива является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.
Робот запомнит путь к файлу, обработает данные и будет использовать результаты при последующем формировании сессий загрузки.
Директива Host
Если у вашего сайта есть зеркала, специальный робот зеркальщик (Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)) определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его для всех зеркал в файле robots.txt: имя главного зеркала должно быть значением директивы Host.
Директива Host не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом.
#Если https://www.glavnoye-zerkalo.ru главное зеркало сайта, то #robots.txt для всех сайтов из группы зеркал выглядит так
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: https://www.glavnoye-zerkalo.ru
Директива Crawl-delay
Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.
В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву Crawl-delay необходимо добавить в группу, которая начинается с записи User-Agent (непосредственно после директив Disallow и Allow).
Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.1. Это не гарантирует, что поисковый робот будет заходить на ваш сайт 10 раз в секунду, но позволяет ускорить обход сайта.
User-agent: Yandex
Crawl-delay: 2 # задает таймаут в 2 секунды
User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймаут в 4.5 секунды
Директива Clean-param
Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (например: идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.
Робот Яндекса, используя эту информацию, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.
С более подробной информацией можно ознакомиться на официальном сайте
ROBOTS.TXT. Правильный роботс | Блог Хостинг Украина
Основной синтаксис
User-Agent: робот для которого будут применяться следующие правила (например, «Googlebot»)
Disallow: страницы, к которым вы хотите закрыть доступ (можно указать большой список таких директив с каждой новой строки)
Каждая группа User-Agent / Disallow должны быть разделены пустой строкой. Но, не пустые строки не должны существовать в рамках группы (между User-Agent и последней директивой Disallow).
Символ хэш (#) может быть использован для комментариев в файле robots.txt: для текущей строки всё что после # будет игнорироваться. Данные комментарий может быть использован как для всей строки, так в конце строки после директив.
Каталоги и имена файлов чувствительны к регистру: «catalog», «Catalog» и «CATALOG» – это всё разные директории для поисковых систем.
Host: применяется для указание Яндексу основного зеркала сайта. Поэтому, если вы хотите склеить 2 сайта и делаете постраничный 301 редирект, то для файла robots.txt (на дублирующем сайте) НЕ надо делать редирект, чтобы Яндекс мог видеть данную директиву именно на сайте, который необходимо склеить.
Crawl-delay: можно ограничить скорость обхода вашего сайта, так как если у вашего сайта очень большая посещаемость, то, нагрузка на сервер от различных поисковых роботов может приводить к дополнительным проблемам.
Регулярные выражения: для более гибкой настройки своих директив вы можете использовать 2 символа
* (звездочка) – означает любую последовательность символов
$ (знак доллара) – означает конец строки
Основные примеры использования robots.txt
Запрет на индексацию всего сайта
User-agent: *
Disallow: /
Эту инструкцию важно использовать, когда вы разрабатываете новый сайт и выкладываете доступ к нему, например, через поддомен.
Очень часто разработчики забывают таким образом закрыть от индексации сайт и получаем сразу полную копию сайта в индексе поисковых систем. Если это всё-таки произошло, то надо сделать постраничный 301 редирект на ваш основной домен.
А такая конструкция ПОЗВОЛЯЕТ индексировать весь сайт:
User-agent: *
Disallow:
Запрет на индексацию определенной папки
User-agent: Googlebot
Disallow: /no-index/
Запрет на посещение страницы для определенного робота
User-agent: Googlebot
Disallow: /no-index/this-page.html
Запрет на индексацию файлов определенного типа
User-agent: *
Disallow: /*.pdf$
Разрешить определенному поисковому роботу посещать определенную страницу
User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: Yandex
Allow: /no-bots/block-all-bots-except-Yandex-page.html
Ссылка на Sitemap
User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml
Нюансы с использованием данной директивы: если у вас на сайте постоянно добавляется уникальный контент, то
-
лучше НЕ добавлять в robots.txt ссылку на вашу карту сайта,
-
саму карту сайта сделать с НЕСТАНДАРТНЫМ названием sitemap.xml (например, my-new-sitemap.xml и после этого добавить эту ссылку через «вебмастерсы» поисковых систем),
так как, очень много недобросовестных вебмастеров парсят с чужих сайтов контент и используют для своих проектов.
Шаблон для WordPress
Allow: /wp-content/themes/*.js
Allow: /wp-content/themes/*.css
Allow: /wp-includes/js/*.css Allow: /wp-includes/js/*.js
Allow: /wp-content/plugins/*.js
Allow: /wp-content/plugins/*.css
Шаблон для Joomla
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /templates/*.png
Allow: /templates/*.gif
Allow: /templates/*.ttf
Allow: /templates/*.svg
Allow: /templates/*.woff
Allow: /components/*.css
Allow: /components/*.js
Allow: /media/*.js Allow: /media/*.css
Allow: /plugins/*.css Allow: /plugins/*.js
Шаблон для Bitrix
Allow: /bitrix/templates/*.js
Allow: /bitrix/templates/*.png
Allow: /bitrix/templates/*.jpg
Allow: /bitrix/templates/*.gif
Allow: /bitrix/cache/css/*.css
Allow: /bitrix/cache/js/s1/*.js
Allow: /upload/iblock/*.jpg
Allow: /upload/iblock/*.png
Allow: /upload/iblock/*.gif
Шаблон для DLE
Allow: /engine/classes/*.css
Allow: /engine/classes/*.js
Allow: /templates/
Разобравшись с простым синтаксисом команд для робота, также важно учесть и такие значения мета-тега robots
Данному мета-тегу можно присвоить четыре варианта значений.
Атрибут content может содержать следующие значения:
index, noindex, follow, nofollow
Если значений несколько, они разделяются запятыми.
В настоящее время лишь следующие значения важны:
Директива INDEX говорит роботу, что данную страницу можно индексировать.
Директива FOLLOW сообщает роботу, что ему разрешается пройтись по ссылкам, присутствующим на данной странице. Некоторые авторы утверждают, что при отсутствии данных значений, поисковые сервера по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW.
Итак, глобальные директивы выглядят так:
Индексировать всё = INDEX, FOLLOW
Не индексировать ничего = NOINDEX,NOFLLOW
Примеры мета-тега robots:
Заказывайте хостинг и выбирайте домен в компании «Хостинг Украина».
У нас качественный и надежный сервис, удобное система управления через админ-панель, интеллектуальные системы защиты и техническая поддержка, которая поможет решить все возникающие вопросы в любое время суток.
Наши цены: SSD хостинг от 1$, VPS на SSD от 12$, Cloud (облачный) хостинг от 3$, облачный VPS от 6$.
Присоединяйтесь к «Хостинг Украина» и мы позаботимся о технической стороне вашего бизнеса.
Только зарегистрированные пользователи могут оставлять комментарии
директив Disallow и Allow — веб-мастеру. Help
- Disallow
- Allow
- Комбинация директив
- Разрешить и запретить директивы без параметров
- Использование специальных символов * и $
- Примеры интерпретации директив
Примеры:
User-agent: Яндекс
Disallow: / # запрещает сканирование всего сайта.
User-agent: Яндекс
Disallow: / catalog # запрещает сканирование страниц, начинающихся с / catalog.
User-agent: Яндекс
Disallow: / page? # Запрещает сканирование страниц с URL, содержащим параметры.
Эта директива позволяет индексировать разделы сайта или отдельные страницы.
Примеры:
User-agent: Яндекс
Разрешить: / cgi-bin
Запретить: /
# запрещает скачивание чего-либо кроме страниц
# начинающиеся с '/ cgi-bin'
User-agent: Яндекс
Разрешить: /file.xml
# позволяет скачать file.xml
Примечание. Между директивами User-agent
, Disallow
и Allow
запрещены пустые разрывы строк.
Директивы Allow
и Disallow
из соответствующего блока User-agent
сортируются по длине префикса URL (от самого короткого к самому длинному) и применяются по порядку.Если несколько директив соответствуют определенной странице сайта, робот выбирает последнюю в отсортированном списке. Таким образом, порядок директив в файле robots.txt не влияет на то, как они используются роботом.
Примечание. В случае конфликта между двумя директивами с префиксами одинаковой длины приоритет имеет директива Allow
.
# Исходный файл robots.txt:
User-agent: Яндекс
Разрешать: /
Разрешить: / catalog / auto
Disallow: / catalog
# Сортированный robots.txt:
User-agent: Яндекс
Разрешать: /
Disallow: / catalog
Разрешить: / catalog / auto
# запрещает загрузку страниц, которые начинаются с '/ catalog',
# но позволяет загружать страницы, которые начинаются с '/ catalog / auto'.
Типичный пример:
User-agent: Яндекс
Разрешить: / архив
Запретить: /
# разрешает все, что содержит '/ archive', остальное запрещено
User-agent: Яндекс
Разрешить: /obsolete/private/*.html$ # разрешает файлы HTML
# в пути '/ absolute / private / ...'
Disallow: /*.php$ # запрещает все '* .php' на сайте
Disallow: / * / private / # запрещает все подпути, содержащие
# '/ private /', но разрешение выше отрицает
# часть этого запрета
Запрещено: / * / старый / *.zip $ # запрещает все файлы '* .zip', содержащие
# '/ old /' в пути
User-agent: Яндекс
Запретить: /add.php?*user=
# запрещает все 'add.php?' скрипты с опцией user
Если в директивах нет параметров, робот обрабатывает данные следующим образом:
User-agent: Яндекс
Disallow: # то же, что и Allow: /
User-agent: Яндекс
Allow: # не учитывается роботом
Вы можете использовать специальные символы при указании путей директив Allow и Disallow * и $ для установки определенных регулярных выражений.
Символ * обозначает любую последовательность символов (или ее отсутствие). Примеры:
User-agent: Яндекс.
Disallow: /cgi-bin/*.aspx # запрещает /cgi-bin/example.aspx
# и '/cgi-bin/private/test.aspx'
Disallow: / * private # запрещает и '/ private', и
# и '/ cgi-bin / private'
По умолчанию символ * добавляется в конец каждого правила, описанного в файле robots.txt. Пример:
User-agent: Яндекс.
Disallow: / cgi-bin * # блокирует доступ к страницам
# которые начинаются с '/ cgi-bin'
Disallow: / cgi-bin # то же
Для отмены * в конце правила используйте символ $, например:
User-agent: Яндекс
Disallow: / example $ # запрещает '/ example',
# но не запрещает '/ example.html '
Пользовательский агент: Яндекс
Disallow: / example # запрещает и '/ example'
# и '/example.html'
Символ $ не запрещает * в конце, то есть:
User-agent: Яндекс
Disallow: / example $ # запрещает только '/ example'
Disallow: / example * $ # то же, что и Disallow: / example.
# prohibits /example.html и / example
User-agent: Яндекс.
Разрешать: /
Запретить: /
# все позволено
User-agent: Яндекс
Разрешить: / $
Запретить: /
# запрещено все, кроме главной страницы
User-agent: Яндекс
Запретить: / private * html
# запрещает '/ private * html',
# '/ private / test.html ',' /private/html/test.aspx 'и т. д.
User-agent: Яндекс
Disallow: / private $
# запрещает только '/ private'
Пользовательский агент: *
Запретить: /
User-agent: Яндекс
Разрешать: /
# так как робот Яндекс
# выбирает записи, в строке которых есть 'User-agent:',
# все разрешено
ЯндексБот Веб-робот • VNTweb
Краткое описание интернет-робота ЯндексБот . Включая сведения о владельце, описание, пользовательский агент HTTP и соответствие этого робота стандарту исключения роботов.
Кому принадлежит робот ЯндексБот ? Робот хороший или плохой? И почему он посещает ваш сайт?
Ниже приведен образец записи файла журнала для веб-робота ЯндексБота. Он получен из файла журнала веб-сервера Apache. Из записи журнала дается информация о том, как робот идентифицирует себя, HTTP-агент пользователя и где он размещается.
Файл журнала сервера
vntweb.co.uk 5.45.207.28 - - [30 / апр / 2019: 00: 43: 33 +0100] «GET / html-marquee-tag / HTTP / 1.1 "200 8442" - "" Mozilla / 5.0 (совместимый; ЯндексБот / 3.0; + http: //yandex.com/bots) "
HTTP User Agent
YandexBot / 3.0
IP-адреса
Наблюдаемый IP-адрес: 5.45.207.28 .
WHOIS DNS команда дает следующую информацию об IP-адресе:
inetnum: | 5.45.207.0 — 5.45.207.255 |
netname: | YANDEX-5-45-207 |
адрес : | ООО «Яндекс» |
адрес: | ул. Льва Толстого, 16 |
адрес: | 119021 |
адрес: | Москва |
адрес: | Российская Федерация |
последние изменения: | 2018-08-03T07: 15 |
Как видно из вышеизложенного, наблюдаемый IP-адрес является частью блока, присвоенного ООО «Яндекс».
Владелец
ООО «Яндекс»
Страна
Российская Федерация
Исключение
Строка user-agent содержит ссылку на сайт http: // yandex.com / bots. В меню слева есть ссылка на использование robots.txt, где дается информация о настройке ботов Яндекса и конкретная информация для каждого из них.
Указанный веб-сайт подтверждает, что бот поддерживает текст исключения роботов, а также подчиняется задержке сканирования.
На веб-сайте Яндекса представлена подробная информация о том, как их робот соответствует стандарту исключения robots.txt, который был описан на http://www.robotstxt.org/wc/exclusion.html#robotstxt, но в настоящее время недоступен.Информация доступна на том же веб-сайте https://www.robotstxt.org/robotstxt.html, а также на веб-сайте w3c по адресу https://www.w3.org/TR/html4/appendix/notes.html#hB.4.1. .1.
Приведены подробные сведения о предотвращении индексирования веб-сайта роботом и о том, как настроить скорость его сканирования.
Их совет — включить следующую запись в файл robots.txt, чтобы ЯндексБот не заходил на ваш сайт
Пользователь-агент: ЯндексБот Disallow: /
Также, чтобы контролировать частоту посещения вашего сайта Яндекс-ботом, можно установить минимально допустимую задержку между последовательными запросами, добавив в файл robots.txt файл:
Пользователь-агент: ЯндексБот Задержка сканирования: 10
В этом примере задержка установлена на 10 секунд.
Как это обычно бывает со сканерами веб-сайтов, существует задержка между изменениями, внесенными в файл robots.txt , и внесением изменений.
Не забудьте внести изменения в файл robots.txt. Неправильное понимание конфигурации или ошибка конфигурации может привести к тому, что важные поисковые системы исключат ваш веб-сайт.
Дополнительная информация
Яндекс — один из интернет-роботов.Он ассоциируется с одноименной российской поисковой системой.
Яндекс — самая популярная поисковая система в России и одна из крупнейших интернет-компаний в Европе.
У Яндекса есть несколько страниц с информацией о своем боте. Эта страница — хорошее место для начала http://help.yandex.com/search/
# # Объявления Adbeat Пользовательский агент: adbeat_bot Запретить: / #AgentLinkSpammer Пользовательский агент: AgentLinkSpammer Запретить: / # AhrefsBot объявления # Пользовательский агент: AhrefsBot #Disallow: / # Пользовательский агент: AhrefsBot / 4.0 #Disallow: / #aiHitBot Украина или Россия Пользовательский агент: aiHitBot Запретить: / Пользовательский агент: aiHitBot / 1.0 Запретить: / Пользовательский агент: aiHitBot / 1.1 Запретить: / # Акун Германия Пользовательский агент: Acoon Запретить: / # Арахмо Япония Пользовательский агент: Арахмо Запретить: / #Baiduspider Китай и Япония Пользовательский агент: Baiduspider Запретить: / Пользовательский агент: Baiduspider + Запретить: / Пользовательский агент: Baiduspider + (+ http: // www.baidu.com/search/spider.htm) Запретить: / Пользовательский агент: Baiduspider / 2.0; + http: //www.baidu.com/search/spider.html Запретить: / Пользовательский агент: Baiduspider / 2.0 Запретить: / Пользовательский агент: + Baiduspider Запретить: / Пользовательский агент: + Baiduspider / 2.0 Запретить: / Пользовательский агент: + Baiduspider / 2.0; ++ http: //www.baidu.com/search/spider.html Запретить: / Пользовательский агент: Mozilla / 5.0 (совместимый; Baiduspider / 2.0; + http: //www.baidu.com/search/spider.html) Запретить: / Пользовательский агент: Mozilla / 5.0 + (совместимый; + Baiduspider / 2.0; ++ http: //www.baidu.com/search/spider.html) Запретить: / Пользовательский агент: Mozilla / 5.0 + (совместимый; + MJ12bot / v1.4.5; + http: //www.majestic12.co.uk/bot.php? +) Запретить: / #careerbot Германия Пользователь-агент: карьерный робот Запретить: / # COMODOSpider / Nutch-1.2 Соединенное Королевство Пользовательский агент: COMODOSpider / Nutch-1.2 Запретить: / #EasouSpider — Китай Пользовательский агент: EasouSpider Запретить: / # Экзабот / 3.0 — сборщик прокси для Франции Пользовательский агент: Exabot / 3.0 Запретить: / #Exalead прокси-скребок Франция Пользовательский агент: Exalead Запретить: / Пользовательский агент: ExaLead Crawler Запретить: / #Ezooms и dotbot Пользовательский агент: ezooms Запретить: / Пользовательский агент: Ezooms / 1.0 Запретить: / Пользовательский агент: DotBot Запретить: / Пользовательский агент: Mozilla / 5.0 (совместимый; Ezooms / 1.0; ezooms.bot [at] gmail [dot] com) Запретить: / # findlinks / 2.6 Германия http://wortschatz.uni-leipzig.de/findlinks Пользовательский агент: findlinks / 2.6 Запретить: / # Java / 1.6.0_04 Пользовательский агент: Java / 1.6.0_04 Запретить: / #JikeSpider Китай Пользовательский агент: JikeSpider Запретить: / #KaloogaBot Контекстная реклама в Нидерландах Пользовательский агент: KaloogaBot Запретить: / # Mail.RU_Bot / 2.0 Россия User-agent: Mail.RU_Bot / 2.0 Запретить: / # Mail.RU Россия User-agent: Mail.RU Запретить: / #Почта.Ru Россия Пользователь-агент: Mail.Ru Запретить: / User-agent: Mail.RU_Bot / 2.0; + http: //go.mail.ru/help/robots Запретить: / # MJ12bot Соединенное Королевство Пользовательский агент: MJ12bot Запретить: / # MJ12bot / v1.4.3 United Kingdon Пользовательский агент: MJ12bot / v1.4.3 Запретить: / Пользовательский агент: moget Запретить: / # Ичиро Япония Пользовательский агент: Ичиро Запретить: / #Ichiro 3.0 Япония Пользовательский агент: Ichiro 3.0 Запретить: / Пользовательский агент: NaverBot Запретить: / Пользовательский агент: Yeti Запретить: / # NetcraftSurveyAgent / 1.0 Пользовательский агент: NetcraftSurveyAgent / 1.0 Запретить: / # OpenWebIndex / Nutch-1.6 Германия Пользовательский агент: OpenWebIndex / Nutch-1.6 Запретить: / Пользовательский агент: OpenWebIndex Запретить: / #panoptaStudyBot check.panopta.com monitor Пользовательский агент: PanoptaStudyBot Запретить: / #panoptaStudyBot check.panopta.com monitor Пользовательский агент: check.panopta.com Запретить: / #picsearch Швеция ищет картинки Пользовательский агент: psbot Запретить: / #plukkie Dutch (botje.nl) / Бельгия (botje.be) / Франция (botje.fr) / Великобритания (botje.co.uk) поисковая система Пользовательский агент: plukkie Запретить: / #SeznamBot Чешская Республика Пользовательский агент: SeznamBot Запретить: / Пользовательский агент: SeznamBot / 1.0 Запретить: / Пользовательский агент: SeznamBot / 1.1 Запретить: / # SeznamBot / 3.0 Пользовательский агент: SeznamBot / 3.0 Запретить: / #SistrixCrawler Германия DE Пользовательский агент: SistrixCrawler Запретить: / Пользовательский агент: Sistrix Запретить: / Пользовательский агент: SISTRIX Crawler Запретить: / Пользовательский агент: SISTRIX Запретить: / # Согоу Пользовательский агент: sogou spider Запретить: / Пользовательский агент: Sogou web spider Запретить: / # Sosospider — Китай http: // help.soso.com/webspider.htm Пользовательский агент: Sosospider + Запретить: / # Сососпайдер — Китай Пользовательский агент: Sosospider Запретить: / # Sosospider / 2.0 — Китай не может подчиняться robots.txt Пользовательский агент: Sosospider / 2.0 Запретить: / # 360Spider Китай Пользовательский агент: 360Spider Запретить: / # SurveyBot Пользовательский агент: SurveyBot Запретить: / # Wada.vn Вьетнамский поиск / 2.1 Пользовательский агент: Wada.vn Запретить: / Пользователь-агент: Wada.vn Вьетнамский Поиск Запретить: / Пользовательский агент: Wada.vn Vietnamese Search / 2.1 Запретить: / # Яндекс User-agent: Яндекс Запретить: / User-agent: Яндекс / 1.01.001 Запретить: / Пользовательский агент: ЯндексБот / 3.0-MirrorDetector Запретить: / User-agent: YandexImages / 3.0 Запретить: / User-agent: YandexSomething / 1. Запретить: / User-agent: Яндекс.com Запретить: / User-agent: ЯндексБот / 3.0 Запретить: / #YisouSpider Китай Пользовательский агент: YisouSpider Запретить: / # YoudaoBot / 1.0 Китай Пользовательский агент: YoudaoBot / 1.0 Запретить: / #YoudaoBot Китай Пользовательский агент: YoudaoBot / 1.0 Запретить: / #Zao — Япония Пользовательский агент: Zao Запретить: / Пользовательский агент: * Задержка сканирования: 10 Пользовательский агент: * Запрещение: / sitecore Disallow: / cgi-bin / Запретить: / pagenotfound / Запретить: / pagenotfound Запретить: / sitecoremodules / Запретить: / sitecore modules / Запретить: / sitecore-modules / Запретить: / sitecore-files / Запретить: / sitecore_files / Запретить: / App_config / Запретить: / temp / Запретить: / upload / Запретить: / xsl / Запретить: / common / js / Запретить: / data / Запретить: / admin / Запретить: / EmbraceMyHomeLoan / Запретить: / lead-confirm / Запретить: / *.Ashx Разрешить: / specs / ReleaseAssets / Разрешить: / node_modules / Пользовательский агент: Googlebot Запрещение: / sitecore Disallow: / cgi-bin / Запретить: / pagenotfound / Запретить: / pagenotfound Запретить: / sitecoremodules / Запретить: / sitecore modules / Запретить: / sitecore-modules / Запретить: / sitecore-files / Запретить: / sitecore_files / Запретить: / App_config / Запретить: / lib / Запретить: / temp / Запретить: / upload / Запретить: / xsl / Запретить: / common / js / Запретить: / data / Запретить: / admin / Запретить: / EmbraceMyHomeLoan / Запретить: / lead-confirm / Запретить: / *.Ashx Разрешить: / specs / ReleaseAssets / Разрешить: / node_modules / Карта сайта: https://www.embracehomeloans.com/sitemap.xml Карта сайта: https://blog.embracehomeloans.com/sitemap_index.xml
Yandex Cant Crwal / Index my Site Robots.txt Forbidden (403) — Поддержка
Здравствуйте,
Спасибо, что связались с Rank Math и сообщили нам о своей проблеме. Приносим извинения за задержку и возможные неудобства, связанные с этой проблемой.
Проблема с вашим сайтом и ботом Яндекса не связана с роботами.txt файл. Похоже, что ваши файлы Sitemap возвращают запрещенный код статуса 403, когда бот Яндекса пытается получить к ним доступ.
Это могут быть некоторые правила перезаписи вашего файла htaccess или вашего сервера. Вы можете уточнить у своего хоста, не заблокировано ли у него что-то, что блокирует доступ Яндекса к файлу карты сайта.
Если нет, нам, возможно, придется более внимательно изучить настройки.
Пожалуйста, отредактируйте первую запись в этом билете и включите свои учетные записи WordPress и FTP в специальный раздел конфиденциальных данных.
Это полностью безопасно, и только наша служба поддержки имеет доступ к этому разделу. Если вы хотите, вы можете использовать указанный ниже плагин для создания временного URL-адреса для входа на свой веб-сайт и поделиться им с нами вместо этого:
https://wordpress.org/plugins/ Contemporary-login-without-password/
Вы можете использовать вышеуказанный плагин вместе с журналом аудита безопасности WP, чтобы отслеживать, какие изменения наши сотрудники могут внести на ваш сайт (если таковые имеются):
WP Activity Log
Пожалуйста, сделайте полную резервную копию своего веб-сайта, прежде чем поделиться с нами информацией.
Спасибо, и мы очень ждем возможности вам помочь.
Здравствуйте,
Спасибо, что связались с Rank Math и сообщили нам о своей проблеме. Приносим извинения за задержку и возможные неудобства, связанные с этой проблемой.
Проблема с вашим сайтом и ботом Яндекса не связана с файлом robots.txt. Похоже, что ваши файлы Sitemap возвращают запрещенный код статуса 403, когда бот Яндекса пытается получить к ним доступ.
Это могут быть некоторые правила перезаписи вашего файла htaccess или вашего сервера. Вы можете уточнить у своего хоста, не заблокировано ли у него что-то, что блокирует доступ Яндекса к файлу карты сайта.
Если нет, нам, возможно, придется более внимательно изучить настройки.
Пожалуйста, отредактируйте первую запись в этом билете и включите свои учетные записи WordPress и FTP в специальный раздел конфиденциальных данных.
Это полностью безопасно, и только наша служба поддержки имеет доступ к этому разделу.Если вы хотите, вы можете использовать указанный ниже плагин для создания временного URL-адреса для входа на свой веб-сайт и поделиться им с нами вместо этого:
https://wordpress.org/plugins/ Contemporary-login-without-password/
Вы можете использовать вышеуказанный плагин вместе с журналом аудита безопасности WP, чтобы отслеживать, какие изменения наши сотрудники могут внести на ваш сайт (если таковые имеются):
WP Activity Log
Пожалуйста, сделайте полную резервную копию своего веб-сайта, прежде чем поделиться с нами информацией.
Спасибо, и мы очень ждем возможности вам помочь.
Здравствуйте,
Поскольку мы не получали от вас ответа в течение 15 дней, мы предполагаем, что вы нашли решение. Мы закрываем этот запрос в службу поддержки.
Если вам по-прежнему нужна помощь или какая-либо другая помощь, не стесняйтесь открыть новый запрос в службу поддержки, и мы будем более чем рады помочь.
Спасибо.
Правильная настройка txt файла robots.Яндекс роботов. Зачем сканировать
Правильная, грамотная настройка корневого файла robots.txt — одна из важнейших задач WEB-мастера. В случае непростительных ошибок в результатах поиска может появиться много ненужных страниц сайта. Или наоборот, важные документы вашего сайта будут закрыты для индексации, в худшем случае вы можете закрыть всю корневую директорию домена для поисковых роботов.
Правильная настройка файла robots.txt своими руками на самом деле не очень сложная задача.Прочитав эту статью, вы познакомитесь с тонкостями директив и самостоятельно напишете правила для файла robots.txt на своем сайте.
Для создания файла robots.txt используется особый, но не сложный синтаксис. Используется не так много директив. Давайте шаг за шагом и подробно рассмотрим правила, структуру и синтаксис файла robots.txt.
Общие правила robots.txt
Во-первых, сам файл robots.txt должен иметь кодировку ANSI.
Во-вторых, вы не можете использовать какие-либо национальные алфавиты для написания правил, возможен только латинский алфавит.
Структурно файл robots.txt может состоять из одного или нескольких блоков инструкций, отдельно для роботов из разных поисковых систем. Каждый блок или раздел имеет набор правил (директив) для индексации сайта определенной поисковой системой.
В самих директивах, в блоках правил и между ними никакие лишние заголовки и символы не допускаются.
Директивы и блоки правил разделяются переносом строки. Единственное предположение — это комментарии.
Роботы.txt, комментируя
Символ «#» используется для комментариев. Если вы поместите символ решетки в начале строки, все содержимое будет игнорироваться поисковыми роботами до конца строки.
User-agent: *
Disallow: / css # написать комментарий
# Написать другой комментарий
Disallow: / img
Разделы в файле robots.txt
Когда робот читает файл, используется только раздел, адресованный роботу этой поисковой системы, то есть, если в разделе user-agent указано имя поисковой системы Яндекса, то его робот будет читать только раздел, адресованный это, игнорируя другие, в частности раздел с директивой для всех роботов — User-agent: *.
Каждая из секций независима. Может быть несколько разделов для роботов каждой или нескольких поисковых систем или один универсальный раздел для всех роботов или роботов одной из их систем. Если есть только один раздел, то он начинается с первой строки файла и занимает все строки. Если разделов несколько, то они должны быть разделены хотя бы одной пустой строкой.
Раздел всегда начинается с директивы User-agent и содержит название поисковой системы, для которой он предназначен для роботов, если это не универсальный раздел для всех роботов.На практике это выглядит так:
User-agent: YandexBot
# пользовательский агент для роботов системы Яндекс
User-agent: *
# пользовательский агент для всех роботов
Запрещено указывать несколько имен ботов. Для ботов каждой поисковой системы создается свой раздел, свой отдельный блок правил. Если в вашем случае правила для всех роботов одинаковы, используйте один универсальный общий раздел.
Какие есть директивы?
Директива — это команда или правило, сообщающее поисковому роботу определенную информацию.Директива сообщает поисковому боту, как индексировать ваш сайт, какие каталоги не просматривать, где находится XML-карта сайта, какое доменное имя является главным зеркалом, и некоторые другие технические детали.
Раздел robots.txt состоит из отдельных команд,
директив. Общий синтаксис директив следующий:
[DirectiveName]: [необязательный пробел] [значение] [необязательный пробел]
Директива записывается в одну строку, без переносов. Согласно принятым стандартам, разрыв строки между директивами в одном разделе не допускается, то есть все директивы одного раздела записываются в каждой строке без дополнительных промежутков между строками.
Опишем значение основных используемых директив.
Запрещающая директива
Наиболее часто используемая директива в файле robots.txt — Disallow. Директива Disallow запрещает индексацию указанного в ней пути. Это может быть отдельная страница, страницы, содержащие указанную «маску» в своем URL (пути), часть сайта, отдельный каталог (папку) или весь сайт.
«*» — звездочка означает — «любое количество символов». То есть путь / folder * такой же, как «/ folder», «/ folder1», «/ folder111», «/ foldersssss» или «/ folder».Роботы при чтении правил автоматически добавляют знак «*». В приведенном ниже примере обе директивы абсолютно эквивалентны:
Disallow: / news
Disallow: / news *
«$» — знак доллара запрещает роботам автоматически добавлять символ «*» при чтении директивы (звездочка) в конце директивы. Другими словами, символ «$» обозначает конец строки сравнения. То есть в нашем примере мы запрещаем индексацию папки «/ folder», но не запрещаем ее в папках «/ folder1», «/ folder111» или «/ foldersssss»:
User-agent: *
Disallow: / folder $
«#» — (резкий) знак комментария … Все, что написано после этого значка в одной строке с ним, поисковыми системами игнорируется.
Разрешающая директива
Директива ALLOW файла robots.txt по смыслу противоположна директиве DISSALOW, которую разрешает директива ALLOW. В приведенном ниже примере показано, что мы запрещаем индексацию всего сайта, кроме папки /:
. Агент пользователя: *
Разрешить: / папка
Запретить: /
Пример одновременного использования «Разрешить», «Запрещать» и приоритет
Не забывайте о приоритете запретов и разрешений при указании директив.Раньше приоритет указывался в порядке объявления запретов и разрешений. Теперь приоритет определяется указанием максимального существующего пути в одном блоке для робота поисковой системы (User-agent) в порядке увеличения длины пути и места, где указана директива, чем длиннее путь, тем выше приоритет:
Агент пользователя: *
Разрешить: / папки
Запретить: / папка
В приведенном выше примере индексирование URL-адресов, начинающихся с «/ folder», разрешено, но запрещено для путей, содержащих «/ folder», «/ folderssss» или «/ folder2» в своих URL-адресах.Если один и тот же путь попадает под обе директивы «Разрешить» и «Запрещать», предпочтение отдается директиве «Разрешить».
Пустое значение параметра в директивах «Разрешить» и «Запрещать»
Есть ошибки WEB-мастеров, когда в файле robots.txt в директиве «Disallow»
забывают включить символ «/». Это неправильная, ошибочная интерпретация значений директив и их синтаксиса. В результате запрещающая директива становится разрешающей: «Disallow:» абсолютно идентично «Allow: /».Правильный запрет индексации всего сайта выглядит так:
То же самое можно сказать и о «Разрешить:». Директива «Allow:» без символа «/» запрещает индексацию всего сайта, как и «Disallow: /».
Директива о файле Sitemap
Согласно всем канонам SEO-оптимизации, необходимо использовать карту сайта (SITEMAP) в формате XML и предоставлять ее поисковым системам.
Несмотря на функционал «кабинетов вебмастеров» в поисковых системах, необходимо декларировать наличие карты сайта.xml в robots.txt с помощью директивы « SITEMAP ». При сканировании вашего сайта поисковые роботы увидят указание на файл sitemap.xml и обязательно будут использовать его при следующем сканировании. Пример использования директивы карты сайта в файле robots.txt:
Агент пользователя: *
Карта сайта: https://www.domainname.zone/sitemap.xml
Директива хоста
Другая важная директива robots.txt — HOST .
Считается, что не все поисковые системы распознают его.Но Яндекс указывает, что читает эту директиву, а Яндекс в России является основным «поисковым провайдером», поэтому мы не будем игнорировать директиву «host».
Эта директива сообщает поисковым системам, какой домен является главным зеркалом. Все мы знаем, что у сайта может быть несколько адресов. URL-адрес сайта может использовать префикс WWW, а может и не использовать, или сайт может иметь несколько доменных имен, например, domain.ru, domain.com, domen.ru, www.domen.ru. Именно в таких случаях мы сообщаем поисковой системе в файле robots.txt с помощью директивы host, какое из этих имен является основным. Значение директивы — это имя самого главного зеркала. Приведем пример. У нас есть несколько доменных имен (domain.ru, domain.com, domen.ru, www.domen.ru), и все они перенаправляют посетителей на сайт www.domen.ru, запись в файле robots.txt будет выглядеть так :
User-agent: *
Host: www.domen.ru
Если вы хотите, чтобы ваше главное зеркало было без префикса (WWW), то, соответственно, вам следует указать в директиве имя сайта без префикса.
Директива HOST решает проблему дублирования страниц, с которой очень часто сталкиваются WEB-мастера и SEO-специалисты. Следовательно, директиву HOST необходимо использовать, если вы ориентируетесь на русскоязычный сегмент и вам важно ранжировать свой сайт в поисковой системе Яндекса. Повторимся, на сегодня только Яндекс сообщает, что прочитал эту директиву. Чтобы указать главное зеркало в других поисковых системах, необходимо использовать настройки в кабинетах WEB-мастеров. Не забывайте, что имя главного зеркала должно быть указано правильно (правильное написание, соблюдение кодировки и синтаксиса robots.txt файл). Эта директива разрешена только один раз в файле. Если вы введете его по ошибке несколько раз, то роботы учтут только первое вхождение.
Директива о задержке сканирования
Это техническая директива, команда для поиска роботами, как часто вам нужно посещать ваш сайт. Точнее, директива Crawl-delay указывает минимальный интервал между посещениями вашего сайта роботами (сканерами поисковых систем). Зачем указывать это правило? Если роботы приходят к вам очень часто, а новая информация на сайте появляется гораздо реже, то со временем поисковые системы привыкнут к редким изменениям информации на вашем сайте и будут посещать вас гораздо реже, чем хотелось бы.Это аргумент поиска для использования директивы Crawl-delay. Теперь о технических аргументах. Слишком частое посещение вашего сайта роботами создает дополнительную нагрузку на сервер, которая вам совершенно не нужна. Лучше указать в качестве значения директивы целое число, но теперь некоторые роботы научились читать и дробные числа. Время указывается в секундах, например:
User-agent: Яндекс
Crawl-delay: 5.5
Директива Clean-param
Необязательная директива Clean-param указывает поисковым роботам параметры адреса сайта, которые не нужно индексировать и должны рассматриваться как один и тот же URL.Например, у вас есть одни и те же страницы, отображаемые по разным адресам, которые отличаются одним или несколькими параметрами:
www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/ index.php? папка = 1 & страница = 1
Поисковые роботы просканируют все похожие страницы и заметят, что страницы одинаковые, содержат одинаковое содержание. Во-первых, это создаст путаницу в структуре сайта при индексации. Во-вторых, увеличится дополнительная нагрузка на сервер.В-третьих, заметно упадет скорость сканирования. Чтобы избежать этих неприятностей, используется директива Clean-param. Синтаксис следующий:
Clean-param: param1 [& param2 & param3 & param4 & … & param * N] [Путь]
Директива «Clean-param», как и «Host», читается не всеми поисковыми системами. Но Яндекс это понимает.
Распространенные ошибки в robots.txt
Файл robots.txt находится не в корне сайта
Роботы.txt должен находиться в корне сайта, только в корневом каталоге … Все остальные файлы с таким же именем, но находящиеся в других папках (каталогах), поисковыми системами игнорируются.
Ошибка имени файла robots.txt
Имя файла пишется строчными буквами (строчными буквами) и должно называться robots. txt … Все остальные варианты считаются ошибочными, и поисковые системы сообщат вам, что файл отсутствует. Типичные ошибки выглядят так:
РОБОТЫ.txt
Robots.txt
robot.txt
Использование недопустимых символов в robot.txt
Файл robots.txt должен иметь кодировку ANSI и содержать только латинские символы. Запрещается писать директивы и их значения любыми другими национальными символами, за исключением содержания комментариев.
Синтаксические ошибки robots.txt
Строго соблюдайте правила синтаксиса в файле robots.txt. Синтаксические ошибки могут привести к тому, что поисковые системы будут игнорировать содержимое всего файла.
Вывод нескольких роботов в одну строку в директиве User-agent
Ошибка, которую часто допускают начинающие WEB-мастера, скорее из-за собственной лени, — не разбивать файл robots.txt на разделы, а объединять команды для нескольких поисковых систем в одном разделе, например:
User-agent: Яндекс, Googlebot, Bing
Для каждой поисковой системы необходимо создать свой отдельный раздел с учетом директив, которые эта поисковая система читает.Исключением в данном случае является единый раздел для всех поисковых систем:
Агент пользователя с пустым значением
Директива User-agent не может быть пустой. Только «Разрешить» и «Запретить» могут быть пустыми, и то с учетом того, что они меняют свое значение. Указание директивы User-agent с пустым значением — грубая ошибка.
Несколько значений в директиве Disallow
Менее распространенная ошибка, но, тем не менее, время от времени ее можно увидеть на сайтах, это указание нескольких значений в директивах Allow и Disallow, например:
Запретить: / folder1 / folder2 / folder3
Запретить: / folder1
Запретить: / folder2
Запретить: / folder3
Отсутствие приоритетов директив в robots.txt
Эта ошибка уже описывалась выше, но для закрепления материала мы ее повторим. Ранее приоритет определялся порядком, в котором указывались директивы. На сегодняшний день правила изменились, приоритет определяется длиной строки. Если файл содержит две взаимоисключающие директивы, Allow и Disallow с одинаковым содержимым, то Allow будет иметь приоритет.
Поисковые системы и robots.txt
Директивы в файле robots.txt — это рекомендации для поисковых систем. Это означает, что правила чтения могут время от времени изменяться или дополняться. Также помните, что каждая поисковая система по-разному обрабатывает файловые директивы. И не все директивы читаются каждой поисковой системой. Например, директиву «Хост» сегодня читает только Яндекс. При этом Яндекс не гарантирует, что доменное имя, указанное в качестве главного зеркала в директиве Host, обязательно будет присвоено основному, но утверждает, что приоритет будет отдан указанному в директиве имени.
Если у вас небольшой набор правил, вы можете создать единый раздел для всех роботов. В противном случае не поленитесь, создавайте отдельные разделы для каждой интересующей вас поисковой системы. Это особенно актуально для банов, если вы не хотите, чтобы определенные страницы попадали в поиск.
Файл Robots.txt — текстовый файл в формате .txt, ограничивающий доступ поисковых роботов к контенту на http-сервере. Как определение , Robots.txt — это стандарт исключения роботов , который был принят W3C 30 января 1994 года и который добровольно используется большинством поисковых систем.Файл robots.txt состоит из набора инструкций для поисковых роботов по предотвращению индексации определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ к сайту для роботов.
Простой пример файла robots.txt:
User-agent: * Allow: /
Здесь роботы полностью разрешают индексацию всего сайта.
Файл robots.txt должен быть загружен в корневой каталог вашего сайта, чтобы он был доступен по адресу:
Your_site.ru / robots.txt
Для размещения файла robots.txt в корне сайта обычно требуется доступ по FTP. … Однако некоторые системы управления (CMS) предоставляют возможность создавать robots.txt прямо из панели управления сайтом или через встроенный FTP-менеджер.
Если файл доступен, вы увидите содержимое файла robots.txt в браузере.
Для чего нужен robots.txt?
Roots.txt для сайта важный аспект. Зачем нужен robots.txt ? Например, в SEO robots.txt нужен для исключения из индексации страниц, не содержащих полезного контента и многого другого … Как, что, почему и почему он исключается, уже рассказывалось в статье про, здесь мы не будем останавливаться. Вам нужен файл robots.txt? на все сайты? Да и нет. Если использование robots.txt предполагает исключение страниц из поиска, то для небольших сайтов с простой структурой и статическими страницами такие исключения могут быть излишними. Однако даже для небольшого сайта директив robots.txt, например директива Host или Sitemap, но об этом ниже.
Как создать robots.txt
Поскольку robots.txt — это текстовый файл, а создает файл robots.txt , вы можете использовать любой текстовый редактор, например Блокнот … Как только вы открыли новый текстовый документ, вы уже начали создавать robots.txt, все, что осталось, это составить его содержимое, в зависимости от ваших требований, и сохранить его как текстовый файл под названием robots в формате txt … Это просто, и создание Файл robots.txt не должен создавать проблем даже для новичков.Ниже я покажу, как составлять robots.txt и что писать в роботе на примерах.
Создать robots.txt онлайн
Вариант для ленивых — создать роботов онлайн и скачать файл robots.txt уже в готовом виде. Сборка robots txt online предлагает множество услуг, выбор за вами. Главное — четко понимать, что будет запрещено, а что разрешено, иначе создание файла robots.txt в сети может стать трагедией , которую потом будет сложно исправить.Особенно, если в поиске есть то, что следовало закрыть. Будьте осторожны — проверьте свой файл robots, прежде чем загружать его на сайт. Тем не менее, пользовательский файл robots.txt более точно отражает структуру ограничений, чем тот, который был автоматически сгенерирован и загружен с другого сайта. Читайте дальше, чтобы узнать, на что следует обращать внимание при редактировании robots.txt.
Редактирование robots.txt
После того, как вам удалось создать файл robots.txt онлайн или вручную, вы можете редактировать robots.txt … Вы можете изменять его содержимое по своему усмотрению, главное соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом файл robots может изменяться, и если вы редактируете robots.txt, то не забудьте загрузить обновленную, текущую версию файла со всеми изменениями на сайте. Затем давайте посмотрим на правила настройки файла, чтобы узнать, , как изменить файл robots.txt и «не рубить дрова».
Правильная настройка robots.txt
Правильная robots.txt настройка позволяет избежать попадания личной информации в результаты поиска основных поисковых систем. Однако не забывайте, что команды robots.txt — это не более чем руководство к действию, а не защита … Роботы надежных поисковых систем, таких как Яндекс или Google, следуют инструкциям robots.txt, но другие роботы могут легко их игнорировать. Правильное понимание и применение robots.txt — ключ к достижению результатов.
Чтобы понять , как сделать правильный текст robots txt , сначала вам нужно понять общие правила, синтаксис и директивы robots.txt файл.
Правильный файл robots.txt начинается с директивы User-agent, которая указывает, какие директивы для конкретных роботов адресованы.
Примеры User-agent в robots.txt:
# Определяет директивы для всех роботов одновременно User-agent: * # Определяет директивы для всех Яндекс роботов User-agent: Yandex # Определяет директивы только для основного индексирующего робота Яндекса User- agent: YandexBot # Указывает директивы для всех роботов Google. User-agent: Googlebot
Обратите внимание, что такой setup a robots.txt файл сообщает роботу использовать только те директивы, которые соответствуют пользовательскому агенту с его именем.
Пример robots.txt с несколькими вхождениями User-agent:
# Будет использоваться всеми роботами Яндекса User-agent: Yandex Disallow: / * utm_ # Будет использоваться всеми роботами Google User-agent: Googlebot Disallow: / * utm_ # Будет использоваться всеми роботами, кроме роботов Яндекса и Google User-agent: * Allow: / * utm_
Директива User-agent создает только указание на конкретного робота, и сразу после директивы User-agent туда должен быть командой или командами с прямым указанием состояния выбранного робота.В приведенном выше примере используется директива Disallow, которая имеет значение «/ * utm_». Таким образом, мы закрываем все. Правильная конфигурация robots.txt запрещает наличие пустых разрывов строк между директивами «User-agent», «Disallow» и директивами после «Disallow» в текущем «User-agent».
Пример неправильного перевода строки в robots.txt:
Пример правильного переноса строки в robots.txt:
User-agent: Yandex Disallow: / * utm_ Allow: / * id = User-agent: * Disallow: / * utm_ Allow: / * id =
Как видно из примера, инструкций в robots.txt состоит из блоков , каждый из которых содержит инструкции либо для конкретного робота, либо для всех роботов «*».
Также важно поддерживать правильный порядок и сортировку команд в robots.txt при одновременном использовании таких директив, как «Disallow» и «Allow». Директива «Разрешить» — это разрешающая директива, которая противоположна команде «Запретить» robots.txt — запрещающей директиве.
Пример директив совместного использования в robots.txt:
User-agent: * Allow: / blog / page Disallow: / blog
В этом примере всем роботам запрещается индексировать все страницы, начинающиеся с «/ blog», но разрешается индексация страницы, начинающиеся с «/ blog / page».
Последний пример файла robots.txt в правильном порядке:
User-agent: * Disallow: / blog Allow: / blog / page
Сначала мы запрещаем весь раздел, затем разрешаем некоторые его части.
Еще один правильный пример robots.txt с совместными директивами:
User-agent: * Allow: / Disallow: / blog Allow: / blog / page
Обратите внимание на правильную последовательность директив в данном файле robots.txt .
Директивы «Разрешить» и «Запрещать» могут быть указаны без параметров, в этом случае значение будет интерпретировано обратно в параметр «/».
Пример директивы Disallow / Allow без параметров:
User-agent: * Disallow: # эквивалентно Allow: / Disallow: / blog Allow: / blog / page
Как правильно написать robots.txt , а как использовать интерпретацию директив — это ваш выбор. Оба варианта будут правильными. Главное, не запутаться.
Для корректной компиляции robots.txt необходимо точно указать приоритеты в параметрах директивы и то, что будет запрещено скачивать роботами.Мы рассмотрим более подробно использование директив Disallow и Allow ниже, а теперь рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к и создаст идеальный robots txt своими руками .
Синтаксис Robots.txt
Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, но не все поисковые системы интерпретируют синтаксис robots.txt одинаково. Файл robots.txt имеет очень специфический синтаксис, но в то же время для роботов написать txt несложно, так как его структура очень проста и понятна.
Вот конкретный список простых правил, следуя которым вы устраните частых ошибок robots.txt :
- Каждая директива начинается с новой строки;
- Не включайте более одной директивы в одну строку;
- Не ставить пробел в начале строки;
- Параметр директивы должен быть в одной строке;
- Параметры директивы не нужно заключать в кавычки;
- Параметры директивы не требуют закрывающей точки с запятой;
- Команда в robots.txt указывается в формате — [Имя_ директивы]: [необязательный пробел] [значение] [необязательный пробел];
- Комментарии разрешены в robots.txt после знака решетки #;
- Пустую строку можно интерпретировать как конец директивы User-agent;
- Директива Disallow: (с пустым значением) эквивалентна «Allow: /» — разрешить все;
- В директивах «Разрешить», «Запрещать» указывается не более одного параметра;
- Имя файла robots.txt не может быть написано с заглавной буквы, имя файла написано с ошибкой — Роботы.txt или ROBOTS.TXT;
- Использование заглавных букв в именах директив и параметров считается плохим тоном, и если по стандарту robots.txt нечувствителен к регистру, часто имена файлов и каталогов чувствительны к этому;
- Если параметром директивы является каталог, то перед именем каталога всегда ставится косая черта «/», например: Disallow: / category
- Слишком большой файл robots.txt (более 32 КБ) считается полностью разрешающий, эквивалент «Disallow:»;
- Роботы.txt, недоступный по какой-либо причине, можно интерпретировать как полностью разрешающий;
- Если файл robots.txt пуст, он будет рассматриваться как полностью разрешающий;
- В результате перечисления нескольких директив User-agent без перевода строки все последующие директивы User-agent, кроме первой, могут быть проигнорированы;
- Использование любых символов национальных алфавитов в robots.txt не допускается.
Так как разные поисковые системы могут интерпретировать файл robots.txt по-разному, некоторые моменты можно опустить. Например, если вы напишете несколько директив «User-agent» без пустой строки, все директивы «User-agent» будут интерпретироваться Яндексом правильно, так как Яндекс отбирает записи по наличию «User-agent» в строке.
В роботе должно быть строго указано только то, что нужно, и ничего лишнего. Не думаю , как все прописать в robots txt , что можно и как заполнить. Perfect robots txt Это тот, у которого меньше строк, но больше смысла.«Краткость — душа остроумия». Это выражение пригодится здесь.
Как проверить robots.txt
Чтобы проверить robots.txt на правильный синтаксис и структуру файла, вы можете воспользоваться одним из онлайн-сервисов. Например, Яндекс и Google предлагают вебмастерам собственные сервисы, которые включают анализ robots.txt:
Проверка файла robots.txt в Яндекс.Вебмастере: http://webmaster.yandex.ru/robots.xml
К проверьте robots.txt онлайн необходимо загрузить robots.txt на сайт в корневой каталог … В противном случае служба может сообщить, что не удалось загрузить robots.txt … Рекомендуется предварительно проверить robots.txt на наличие по адресу, по которому находится файл, например: your_site.ru / robots.txt.
Помимо сервисов верификации от Яндекс и Гугл, в сети есть еще много других валидаторов robots.txt.
Robots.txt vs Яндекс и Google
Существует субъективное мнение, что Яндекс воспринимает указание отдельного блока директив «User-agent: Яндекс» в роботах.txt положительнее общего блока директив с «User-agent: *». Похожая ситуация с robots.txt и Google. Если указать отдельные директивы для Яндекса и Google, вы сможете управлять индексацией сайта через robots.txt. Возможно, им льстит личное обращение, тем более что для большинства сайтов содержание блоков robots.txt Яндекс, Гугл и других поисковых систем будет одинаковым. За редким исключением, все блоки User-agent будут иметь стандартный для robots.txt набор директив.Также, используя другой «User-agent», вы можете установить , запрещающий индексацию в robots.txt, например, для Яндекс , но не для Google.
Отдельно следует отметить, что Яндекс учитывает такую важную директиву, как «Хост», и правильный robots.txt для Яндекса должен включать эту директиву для обозначения главного зеркала сайта. Более подробно директива Host будет рассмотрена ниже.
Disallow indexing: robots.txt Disallow
Disallow — запрещающая директива , которая чаще всего используется в роботах.txt файл. Disallow запрещает индексацию сайта или его части в зависимости от пути, указанного в параметре директивы Disallow.
Пример того, как предотвратить индексацию сайта в robots.txt:
User-agent: * Disallow: /
В этом примере весь сайт закрывается от индексации для всех роботов.
В параметре директивы Disallow разрешены специальные символы * и $:
* — любое количество любых символов, например, параметр / page * соответствует / page, / page1, / page-be-cool, / page / kak-skazat и др.Однако нет необходимости включать * в конце каждого параметра, поскольку, например, следующие директивы интерпретируются одинаково:
User-agent: Yandex Disallow: / page User-agent: Yandex Disallow: / page *
$ — указывает точное соответствие исключения значению параметра:
User-agent: Googlebot Disallow: / page $
В этом случае директива Disallow запрещает / page, но не запрещает индексацию / page1, / page-be-cool, или / page / kak-skazat.
Если закрыть сайт, индексирующий robots.txt , поисковые системы могут отреагировать на этот шаг ошибкой «Заблокирован в robots.txt» или «URL-адрес ограничен robots.txt» (URL-адрес запрещен в robots.txt). Если нужно отключить индексацию страницы , можно использовать не только robots txt, но и похожие html-теги:
- — не индексировать содержимое страницы;
- — не переходить по ссылкам на странице;
- — запрещено индексировать контент и переходить по ссылкам на странице;
- — аналогично content = «none».
Разрешить индексирование: robots.txt Разрешить
Разрешить — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, аналогичный Disallow.
Пример того, как запретить индексацию сайта в robots.txt за исключением некоторых страниц:
User-agent: * Disallow: / Allow: / page
Запрещено индексировать весь сайт , кроме страниц начиная с / page.
Disallow и Allow с пустым значением параметра
Пустая директива Disallow:
User-agent: * Disallow:
Не запрещать ничего и не разрешать индексацию всего сайта и эквивалентно:
User-agent: * Allow: /
Пусто Директива Allow:
User-agent: * Allow:
Не разрешать или полностью запрещать индексацию сайта эквивалентно:
User-agent: * Disallow: /
Главное зеркало сайта: robots .txt Host
Директива Host используется для указания роботу Яндекса главного зеркала вашего сайта. … Из всех популярных поисковых систем директива Host распознается только роботами Яндекса … Директива Host полезна, если к вашему сайту имеют доступ несколько, например:
Mysite.ru mysite.com
Или установить приоритет между:
Mysite.ru www.mysite.ru
Вы можете указать роботу Яндекса, какое зеркало является основным … Директива Host указывается в блоке директив «User-agent: Yandex» и в виде параметр, предпочтительный адрес сайта указывается без «http: //».
Пример robots.txt, показывающий главное зеркало:
User-agent: Yandex Disallow: / page Host: mysite.ru
В качестве главного зеркала указано доменное имя mysite.ru без www. Таким образом, этот тип адреса будет указан в результатах поиска.
User-agent: Яндекс Disallow: / page Хост: www.mysite.ru
В качестве главного зеркала указано доменное имя www.mysite.ru.
Директива Host в файле robots.txt может использоваться только один раз, но если директива Host указана более одного раза, будет учитываться только первая директива Host, остальные директивы Host будут проигнорированы.
Если вы хотите указать главное зеркало для поискового робота Google, используйте сервис Google Webmaster Tools.
Sitemap: robots.txt карта сайта
С помощью директивы Sitemap в robots.txt можно указать местоположение на сайте.
Пример robots.txt с URL-адресом карты сайта:
User-agent: * Disallow: / page Карта сайта: http://www.mysite.ru/sitemap.xml
Указание адреса карты сайта с помощью директивы Sitemap в robots .txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексирование.
Директива Clean-param
Директива Clean-param позволяет исключать страницы с динамическими параметрами из индексации. Похожие страницы могут обслуживать один и тот же контент с разными URL-адресами. Проще говоря, как будто страница доступна по разным адресам. Наша задача — удалить все ненужные динамические адреса, которых может быть миллион. Для этого мы исключаем все динамические параметры, , используя директиву Clean-param в robots.txt .
Синтаксис директивы Clean-param:
Clean-param: parm1 [& parm2 & parm3 & parm4 &.. & parmn] [Путь]
В качестве примера рассмотрим страницу со следующим URL:
Www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3
Robots.txt Пример Clean-param:
Clean-param: parm1 & parm2 & parm3 /page.html # только для page.html
Clean-param: parm1 & parm2 & parm3 / # для всех
Директива Crawl-delay
Эта инструкция позволяет снизить нагрузку на сервере, если роботы заходят на ваш сайт слишком часто.Эта директива актуальна в основном для сайтов с большим объемом страниц.
Пример robots.txt Crawl-delay:
User-agent: Yandex Disallow: / page Crawl-delay: 3
В этом случае мы «просим» роботов Яндекса скачивать страницы нашего сайта не более одного раза каждые три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра Crawl-delay директивы robots.txt .
Сначала я расскажу, что такое robots.txt.
Роботы.txt — файл, расположенный в корневой папке сайта, где написаны специальные инструкции для поисковых роботов. Эти инструкции нужны для того, чтобы при входе на сайт робот не учитывал страницу / раздел, другими словами мы закрывали страницу от индексации.
Зачем нужен robots.txt
Файл robots.txt считается ключевым требованием для SEO-оптимизации абсолютно любого сайта. Отсутствие этого файла может негативно сказаться на нагрузке со стороны роботов и медленной индексации, а тем более сайт не будет полностью проиндексирован.Соответственно, пользователи не смогут переходить на страницы через Яндекс и Гугл.
Влияние robots.txt на поисковые системы?
Поисковые системы (особенно Google) проиндексируют сайт, но если нет файла robots.txt, то, как сказано, не все страницы. Если такой файл есть, то роботы руководствуются правилами, которые указаны в этом файле. Более того, существует несколько типов поисковых роботов, одни могут учитывать правило, другие игнорировать. В частности, робот GoogleBot не учитывает директивы Host и Crawl-Delay, робот YandexNews недавно перестал учитывать директиву Crawl-Delay, а роботы YandexDirect и YandexVideoParser игнорируют общепринятые директивы в robots.txt (но учтите те, что написаны специально для них).
Сайт наиболее загружен роботами, которые скачивают контент с вашего сайта. Соответственно, если мы скажем роботу, какие страницы индексировать, а какие игнорировать, а также с какими интервалами времени загружать контент со страниц (это больше для крупных сайтов, у которых более 100 000 страниц в индексе поисковых систем). Это значительно упростит робот-индексатор и процесс загрузки контента с сайта.
Ненужные для поисковых систем включают файлы, относящиеся к CMS, например, в WordPress — / wp-admin /. Кроме того, скрипты ajax, json отвечают за всплывающие формы, баннеры, отображение капчи и так далее.
Для большинства роботов я также рекомендую закрыть все файлы Javascript и CSS из индексации. Но для GoogleBot и Яндекс такие файлы лучше индексируются, поскольку они используются поисковыми системами для анализа юзабилити сайта и его рейтинга.
Что такое роботы.txt?
Директивы — это правила для поисковых роботов. Первые стандарты для написания robots.txt и, соответственно, появились в 1994 году, а расширенный стандарт — в 1996 году. Однако, как вы уже знаете, не все роботы поддерживают определенные директивы. Поэтому ниже я описал, чем руководствуются основные роботы при индексации страниц сайта.
Что означает User-agent?
Это самая важная директива, определяющая, для каких поисковых роботов будут выполняться дальнейшие правила.
Для всех роботов:
Для конкретного бота:
Агент пользователя: Googlebot
Регистр в robots.txt не важен, можно писать и Googlebot, и googlebot
Сканеры Google
Поисковые роботы Яндекса
Главный робот-индексатор Яндекса | |
Используется в Яндекс.Сервис картинок | |
Используется в сервисе Яндекс.Видео | |
Мультимедийные данные | |
Искать в блогах | |
Сканер, который обращается к странице при ее добавлении через форму «Добавить URL» | |
робот, который индексирует значки | |
Яндекс.Прямой | |
Яндекс.Метрика | |
Используется в сервисе Яндекс.Каталог | |
Используется в сервисе Яндекс.Новости | |
YandexImageResizer | Сканер мобильных услуг |
Поисковые роботы Bing, Yahoo, Mail.ru, Rambler
Директивы Disallow и Allow
Disallow закрывает разделы и страницы вашего сайта из индексации.Соответственно, Allow их наоборот открывает.
Есть некоторые особенности.
Во-первых, дополнительные операторы *, $ и #. Для чего они нужны?
«*» — это любое количество символов и их отсутствие. По умолчанию он уже стоит в конце строки, поэтому ставить заново нет смысла.
«$» — указывает, что предшествующий ему персонаж должен идти последним.
«#» — комментарий, робот не учитывает все, что идет после этого символа.
Примеры использования Disallow:
Запрещено: *? S =
Запрещено: / category /
Соответственно поисковый робот закроет страницы вида:
Но следующие страницы будут открыты для индексации:
Теперь вам нужно понять, как применяются вложенные правила. Порядок написания директив абсолютно важен. Наследование правил определяется тем, какие каталоги указаны, то есть, если мы хотим закрыть страницу / документ от индексации, достаточно написать директиву.Посмотрим на пример
Это наш файл robots.txt
Disallow: / template /
Эта директива также указывается где угодно, и вы можете зарегистрировать несколько файлов карты сайта.
Директива хоста в robots.txt
Эта директива необходима для указания главного зеркала сайта (часто с www или без него). Обратите внимание, что директива host указывается без протокола http: //, но с протоколом https: //. Директива учитывается только поисковыми роботами Яндекс и Почта.ru и другие роботы, в том числе GoogleBot, не примут во внимание правило. Разместите один раз в файле robots.txt
Пример с http: //
Хост: website.ru
Пример с https: //
Директива о задержке сканирования
Устанавливает временной интервал, в течение которого поисковый робот индексирует страницы сайта. Значение указывается в секундах и миллисекундах.
Пример:
Используется в основном на крупных интернет-магазинах, информационных сайтах, порталах, где посещаемость сайта от 5000 в сутки.Поисковому роботу необходимо сделать запрос на индексацию в течение определенного периода времени. Если вы не укажете эту директиву, это может создать серьезную нагрузку на сервер.
Оптимальное значение задержки сканирования для каждого сайта отличается. Для поисковых систем Mail, Bing, Yahoo можно установить минимальное значение 0,25, 0,3, поскольку роботы этих поисковых систем могут сканировать ваш сайт один раз в месяц, 2 месяца и так далее (очень редко). Для Яндекса лучше выставить большее значение.
Если нагрузка на ваш сайт минимальна, то указывать эту директиву нет смысла.
Директива о чистых параметрах
Правило интересно тем, что оно сообщает сканеру, что страницы с определенными параметрами не нужно индексировать. Зарегистрировано 2 аргумента: URL страницы и параметр. Эта директива поддерживается поисковой системой Яндекс.
Пример:
Запретить: / admin /
Disallow: / plugins /
Запретить: / search /
Запрещено: / cart /
Запрещено: * sort =
Disallow: * view =
Пользовательский агент: GoogleBot
Запретить: / admin /
Disallow: / plugins /
Запретить: / search /
Запрещено: / cart /
Запрещено: * sort =
Disallow: * view =
Разрешить: / plugins / *.css
Разрешить: /plugins/*.js
Разрешить: /plugins/*.png
Разрешить: /plugins/*.jpg
Разрешить: /plugins/*.gif
User-agent: Яндекс
Запретить: / admin /
Disallow: / plugins /
Запретить: / search /
Запрещено: / cart /
Запрещено: * sort =
Disallow: * view =
Разрешить: /plugins/*.css
Разрешить: /plugins/*.js
Разрешить: / plugins / *.png
Разрешить: /plugins/*.jpg
Разрешить: /plugins/*.gif
Clean-Param: utm_source & utm_medium & utm_campaign
В этом примере мы написали правила для 3 разных ботов.
Куда добавить robots.txt?
Добавил в корневую папку сайта. Кроме того, чтобы вы могли перейти по ссылке на нем:
Как проверить robots.txt?
Яндекс Вебмастер
На вкладке «Инструменты» выберите «Анализ файла Robots.txt» и нажмите «Проверить»
.Консоль поиска Google
На вкладке Сканирование выберите Роботы.txt и нажмите кнопку Проверить.
Вывод:
Файл robots.txt должен присутствовать на каждом продвигаемом сайте, и только его правильная настройка позволит вам получить необходимую индексацию.
И напоследок, если у вас есть вопросы, задавайте их в комментариях под статьей, и мне тоже интересно, как вы пишете robots.txt?
Виды роботов Яндекса
- Яндекс / 1.01.001 (совместимый; Win16; I) — основной робот индексации
- Яндекс / 1.01.001 (совместимый; Win16; P) — индексатор изображений
- Яндекс / 1.01.001 (совместимый; Win16; H) — робот, обнаруживающий зеркала сайтов
- Яндекс / 1.02.000 (совместимый; Win16; F) — робот, индексирующий значки сайтов (фавиконы)
- Яндекс / 1.03.003 (совместимый; Win16; D) — робот, обращающийся к странице при ее добавлении через форму «Добавить URL»
- Яндекс / 1.03.000 (совместимый; Win16; M) — робот, переходящий по ссылке «Найденные слова» при открытии страницы
- YaDirectBot / 1.0 (совместимый; Win16; I) — робот, индексирующий страницы сайтов-участников Рекламной сети Яндекса
- ЯндексБлог / 0.99.101 (совместимый; DOS3.30, B) — робот, индексирующий xml-файлы для поиска по блогам.
- YandexSomething / 1.0 — робот, индексирующий новостные ленты партнеров Яндекс-Новости.
- Bond, James Bond (версия 0.07) — робот, который посещает сайты из подсети Яндекса. Официально не упоминается. Выборочно проходит по страницам. Referer не передает.Картинки не загружаются. Судя по повадкам, робот проверяет сайты на предмет нарушений — маскировки и т. Д.
IP-адреса роботов Яндекса
Есть много IP-адресов, с которых «ходит» робот Яндекса, и они могут меняться. Список адресов не разглашается.
Помимо роботов, в Яндексе есть несколько «перехватывающих» агентов, которые определяют, доступен ли в данный момент сайт или документ, на которые есть ссылка в соответствующем сервисе.
- Яндекс / 2.01.000 (совместимый; Win16; Дятел; C) — «гремучий» Яндекс.Каталог. Если сайт недоступен в течение нескольких дней, он удаляется из публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Яндекс / 2.01.000 (совместимый; Win16; Дятел; Z) — «тап» Яндекс.Букмарка. Ссылки на недоступные сайты отображаются серым цветом.
- Яндекс / 2.01.000 (совместимые; Win16; Дятел; Д) — «тапки» Яндекс.Директ. Проверяет правильность ссылок из объявлений перед модерацией.Никаких автоматических действий не предпринимается.
- Яндекс / 2.01.000 (совместимый; Win16; Дятел; N) — «тап» Яндекс.Новости. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и при необходимости связывается с партнером.
Директива хоста
Во избежание проблем с зеркалами сайта рекомендуется использовать директиву Host. Директива Host указывает роботу Яндекса на главное зеркало этого сайта. Это не имеет ничего общего с директивой Disallow.
User-agent: Яндекс
Disallow: / cgi-bin
Host: www.site.ru
User-agent: Яндекс
Disallow: / cgi-bin
Host: site.ru
в зависимости от того, что вам больше подходит.
Вопрос: Когда вы планируете вовремя соблюдать директиву Host: в robots.txt? Если сайт проиндексирован как www.site.ru, когда Host: site.ru указан после размещения robots.txt в течение 1-2 недель, то сайт с www и без www не слипается более чем на 1–2 недели. 2 месяца и В Яндексе одновременно есть 2 копии частично перекрывающихся сайтов (одна на 550 страниц, другая на 150 страниц, при этом 50 страниц совпадают).Прокомментируйте, пожалуйста, проблемы с работой «зеркала».
Ответ: Расширение стандарта robots.txt, представленного Яндексом, директива Host не является командой для рассмотрения любых двух сайтов как зеркал, это указание того, какой сайт из группы, который автоматически идентифицируется как зеркала, следует считать основным. Следовательно, когда сайты определены как зеркала, директива Host будет работать.
HTML-тег
Робот Яндекса поддерживает тег noindex, запрещающий роботу Яндекса индексировать указанные (служебные) текстовые разделы.В начале служебного фрагмента,, а в конце -, и Яндекс не будет индексировать этот раздел текста.
Время чтения: 7 минут
Практически каждый проект, который приходит к нам на аудит или продвижение, имеет некорректный файл robots.txt, а зачастую и вовсе отсутствует. Это происходит потому, что при создании файла каждый руководствуется своим воображением, а не правилами. Давайте посмотрим, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.
Зачем мне нужен параметр robots.txt?
Robots.txt — это файл, расположенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким — нет.
Настройка robots.txt — важная часть результатов поисковой системы. Правильно настроенные роботы также увеличивают производительность веб-сайта. Отсутствие файла Robots.txt не помешает поисковым системам сканировать и индексировать сайт, но если у вас нет этого файла, у вас могут возникнуть две проблемы:
Поисковый робот прочитает весь сайт, что «подорвет» краулинговый бюджет.Бюджет сканирования — это количество страниц, которые сканер может просканировать за определенный период времени.
Без файла robots поисковая система будет иметь доступ к черновикам и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он проиндексирует их, и когда дело доходит до необходимых страниц, которые предоставляют прямой контент для посетителей, краулинговый бюджет «иссякает».
Индекс может получить страницу входа на сайт, другие ресурсы администратора, поэтому злоумышленник может легко их отследить и провести ddos-атаку или взломать сайт.
Как поисковые роботы видят веб-сайт с файлом robots.txt и без него:
Синтаксис Robots.txt
Прежде чем мы начнем разбирать синтаксис и настраивать robots.txt, давайте посмотрим, как должен выглядеть «идеальный файл»:
Но не используйте его сразу. Для каждого сайта чаще всего нужны свои настройки, так как у всех у нас разная структура сайта, разная CMS. Давайте рассмотрим каждую директиву по порядку.
Агент пользователя
User-agent — определяет поискового робота, который должен следовать инструкциям, описанным в файле. Если вам нужно обратиться ко всем сразу, используется значок *. Вы также можете обратиться к конкретному поисковому роботу. Например, Яндекс и Гугл:
С помощью этой директивы робот понимает, какие файлы и папки запрещено индексировать. Если вы хотите, чтобы весь ваш сайт был открыт для индексации, оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте, поставьте «/» после Disallow.
Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, поиску и расширению pdf.
Разрешить
Разрешить принудительно открывать страницы и разделы сайта для индексации. В примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к битриксу, папке поиска и расширению pdf. Но в папке bitrix принудительно открываем на индексацию 3 папки: components, js, tools.
Host — зеркало сайта
Зеркало сайта — это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. Д.
Host — одно из важнейших правил. Если это правило прописано, то робот поймет, какое из зеркал сайта нужно учитывать при индексации. Эта директива требуется для роботов Яндекс и Mail.ru. Другие роботы проигнорируют это правило. Хост регистрируется только один раз!
Для протоколов «https: //» и «http: //» синтаксис в файле robots.txt будет другим.
Карта сайта — карта сайта
Карта сайта — это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. Используя директиву sitemap, мы «принудительно» показываем роботу, где находится карта.
Символы в robots.txt
Используемые в файле символы: «/, *, $, #».
Проверка работоспособности после настройки robots.txt
После того, как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в Яндекс и вебмастере Google.
Яндекс чек:
- Перейдите по этой ссылке.
- Выберите: Настройка индексации — Анализ Robots.txt.
Проверка Google:
- Перейдите по этой ссылке.
- Выберите: Сканировать — Инструмент проверки файлов Robots.txt.
Таким образом, вы можете проверить файл robots.txt на наличие ошибок и при необходимости выполнить необходимые настройки.
- Содержимое файла должно быть написано заглавными буквами.
- В директиве Disallow необходимо указать только один файл или каталог.
- Строка «User-agent» не может быть пустой.
- User-agent всегда должен стоять перед Disallow.
- Не забудьте прописать косую черту, если нужно запретить индексацию каталогов.
- Перед загрузкой файла на сервер обязательно проверьте его на наличие синтаксических и орфографических ошибок.
Желаю успехов!
Видеообзор трех методов создания и настройки роботов.txt
# # robots.txt # # Этот файл предназначен для предотвращения сканирования и индексации определенных частей # вашего сайта поисковыми роботами и пауками, управляемыми такими сайтами, как Yahoo! # и Google. Сообщая этим «роботам», куда нельзя заходить на вашем сайте, # вы экономите трафик и ресурсы сервера. # # Этот файл будет проигнорирован, если он не находится в корне вашего хоста: # Используется: http://example.com/robots.txt # Игнорируется: http://example.com/site/robots.txt # # Для получения дополнительной информации о файле robots.txt, см .: # http://www.robotstxt.org/robotstxt.html Пользовательский агент: * Задержка сканирования: 10 User-agent: Яндекс Разрешать: / Пользовательский агент: Baiduspider Пользовательский агент: baiduspider Пользовательский агент: Baiduspider + Пользовательский агент: Baiduspider-video Пользовательский агент: Baiduspider-image Разрешать: / Пользовательский агент: cludo Разрешать: / Пользовательский агент: Googlebot Разрешать: / Пользовательский агент: MSNBot Запретить: / пользовательский агент: AhrefsBot запретить: / Пользовательский агент: CCBot Запретить: / # CSS, JS, изображения Разрешить: /misc/*.css$ Разрешить: /misc/*.css? Разрешить: /misc/*.js$ Разрешить: / misc / *.js? Разрешить: /misc/*.gif Разрешить: /misc/*.jpg Разрешить: /misc/*.jpeg Разрешить: /misc/*.png Разрешить: /modules/*.css$ Разрешить: /modules/*.css? Разрешить: /modules/*.js$ Разрешить: /modules/*.js? Разрешить: /modules/*.gif Разрешить: /modules/*.jpg Разрешить: /modules/*.jpeg Разрешить: /modules/*.png Разрешить: /profiles/*.css$ Разрешить: /profiles/*.css? Разрешить: /profiles/*.js$ Разрешить: /profiles/*.js? Разрешить: /profiles/*.gif Разрешить: /profiles/*.jpg Разрешить: /profiles/*.jpeg Разрешить: /profiles/*.png Разрешить: /themes/*.css$ Разрешить: /themes/*.css? Разрешить: / themes / *.js $ Разрешить: /themes/*.js? Разрешить: /themes/*.gif Разрешить: /themes/*.jpg Разрешить: /themes/*.jpeg Разрешить: /themes/*.png # Каталоги Disallow: / включает / Запретить: / misc / Запретить: / modules / Запретить: / profiles / Запретить: / scripts / Запретить: / themes / # Файлов Запретить: /CHANGELOG.txt Запретить: /cron.php Запретить: /INSTALL.mysql.txt Запретить: /INSTALL.pgsql.txt Запретить: /INSTALL.sqlite.txt Запретить: /install.php Запретить: /INSTALL.txt Запрещено: /LICENSE.txt Запретить: /MAINTAINERS.txt Запретить: /update.php Запретить: / ОБНОВЛЕНИЕ.текст Запретить: /xmlrpc.php # Пути (чистые URL) Запретить: / admin / Запретить: / комментарий / ответ / Запретить: / filter / tips / Запретить: / узел / добавить / Запретить: / поиск / Запретить: / пользователь / регистрация / Запретить: / пользователь / пароль / Запретить: / пользователь / логин / Запретить: / пользователь / выход из системы / # Пути (без чистых URL) Запретить: /? Q = admin / Запретить: /? Q = комментарий / ответ / Запретить: /? Q = filter / tips / Запретить: /? Q = узел / добавить / Запретить: /? Q = search / Запретить: /? Q = пользователь / пароль / Запретить: /? Q = пользователь / регистрация / Запретить: /? Q = пользователь / логин / Запретить: /? Q = пользователь / выход из системы /
Роботы.txt — что это и зачем он нужен?
Сегодня мы подробнее рассмотрим txt-файл robots — что это такое, зачем он нужен и как с ним работать. Термин robots txt описан на многих сайтах и в блогах. Однако везде статьи на эту тему существенно отличаются друг от друга. А потому, что пользователи в них запутались, как рыба в сетях.
txt файл роботов — что за страшный зверь?
Robots.txt — это файл. Это стандартный текстовый документ, сохраненный в кодировке UTF-8.Он создан специально для работы с такими протоколами, как:
Файл несет важную функцию — он нужен для того, чтобы показать поисковому роботу, что именно нужно сканировать, а что закрыто от сканирования.
Все правила, требования, рекомендации, которые указаны в robots.txt, актуальны только для конкретного хоста, а также протокола и номера порта, на котором непосредственно находится описанный нами файл.
Кстати, сам файл robots.txt находится в корневом каталоге и представляет собой стандартный текстовый документ.Его адрес: https://admin.com /robots.txt., Где admin.com — название вашего сайта.
В других файлах ставится специальная метка Byte Order Mark или ее еще называют аббревиатурой PTO. Этот знак является символом Unicode — он необходим для установления четкой последовательности считываемой информации в байтах. Код символа — U + FEFF.
Но в начале нашего robots.txt упускается возможность последовательного чтения.
Отметим непосредственно технические характеристики роботов.текст. В частности, заслуживает упоминания тот факт, что файл представляет собой описание в форме BNF. И применяются правила RFC 822.
Что именно и как файл обрабатывается?Читая команды, указанные в файле, роботы поисковых систем получают от следующих команд на выполнение (одну из следующих):
- сканирование только отдельных страниц — это называется частичным доступом;
- сканирование всего сайта в целом — полный доступ;
- запрет на сканирование.
При обработке сайта роботы получают определенные ответы, которые могут быть следующими:
- 2xx — сайт просканирован успешно;
- 3xx — робот продолжает пересылку до тех пор, пока ему не удастся получить следующий ответ. В большинстве случаев требуется пять попыток, чтобы найти ответ, отличный от 3xx. Если в течение пяти попыток не было получено ответа, будет записана ошибка 404;
- 4xx — робот уверен, что должен просканировать весь сайт;
- 5xx — такой ответ расценивается как временная ошибка сервера, и сканирование запрещено.Поисковый робот будет «стучать» по файлу до тех пор, пока не получит ответ. При этом робот от Google оценивает правильность или неправильность ответов. При этом следует сказать, что если вместо традиционной ошибки 404 получен ответ 5xx, то в этой ситуации робот обработает страницу с ответом 404.
Директивы txt файла роботов — для чего нужны они нужны?
Например, бывают ситуации, когда необходимо ограничить посещение роботов:
- страниц, содержащих личную информацию владельца;
- страниц, на которых размещены те или иные формы для передачи информации;
- зеркала сайта;
- страниц, отображающих результаты поиска и т. Д.
Как создать текстовый файл robots: подробные инструкции
Вы можете использовать практически любой текстовый редактор для создания такого файла, например:
- Блокнот;
- Ноутбук;
- Sublime et al.
Этот «документ» описывает инструкцию User-agent, а также указывает правило Disallow, но есть и другие, не столь важные, но необходимые правила / инструкции для поисковых роботов.
User-agent: кому это возможно, а кому нет
Самая важная часть «документа» — User-agent.Он указывает, какие именно поисковые роботы должны «смотреть» на инструкции, описанные в самом файле.
В настоящее время существует 302 робота. Чтобы не регистрировать каждого отдельного робота в документе лично, необходимо указать запись в файле:
User-agent: *
Эта отметка означает, что правила в файле ориентированы на всех поисковых роботов. .
Google имеет главную поисковую систему Googlebot. Чтобы правила были разработаны только для него, в файле необходимо написать:
User-agent: Googlebot_
Если такая запись есть в файле, другие поисковые роботы будут оценивать материалы сайта согласно их основным директивам, которые предусматривают обработку пустых роботов.текст.
Яндекс имеет основного поискового робота Яндекса и для него запись в файле будет выглядеть так:
User-agent: Яндекс
Если такая запись есть в файле, другие поисковые роботы будут оценивать материалы сайта согласно их основным директивам, которые предусматривают обработку пустого файла robots.txt.
Другие специальные поисковые роботы
- Googlebot-News — используется для сканирования новостных сообщений;
- Mediapartners-Google — специально разработан для сервиса Google AdSense;
- AdsBot-Google — оценивает общее качество конкретной целевой страницы;
- YandexImages — индексирует картинки Яндекс;
- Googlebot-Image — для сканирования изображений;
- ЯндексМетрика — сервисный робот Яндекс Метрик;
- ЯндексМедиа — робот, индексирующий мультимедиа;
- YaDirectFetcher — Яндекс.Прямой робот;
- Googlebot-Video — для индексации видео;
- Googlebot-Mobile — создан специально для мобильной версии сайтов;
- ЯндексДиректДин — робот для генерации динамических баннеров;
- ЯндексБлоги — поисковый робот по блогам; сканирует не только посты, но и комментарии;
- ЯндексДирект — предназначен для анализа содержания партнерских сайтов Рекламной сети. Это позволяет вам определять тематику каждого сайта и более эффективно выбирать релевантные объявления;
- YandexPagechecker — это валидатор микромаркировок.
Других роботов перечислять не будем, но, повторяем, всего их более 300 тонн. Каждый из них ориентирован на определенные параметры.
Что такое Disallow?
Disallow — указывает, что не подлежит проверке на сайте. Чтобы весь сайт был открыт для сканирования поисковыми роботами, вы должны вставить запись:
User-agent: *
Disallow:
И если вы хотите, чтобы весь сайт был закрыт для сканирования поисковыми роботами введите в файле следующую «команду»:
User-agent: *
Disallow: /
Такая «запись» в файле будет актуальна, если сайт еще не полностью готов, вы планируете внести в него изменения, но так, чтобы в текущем состоянии он не отображался в результатах поиска.
И еще несколько примеров, как прописать ту или иную команду в файле robots.txt.
Чтобы запретить роботам просматривать определенную папку на сайте:
User-agent: *
Disallow: / papka /
Чтобы заблокировать сканирование определенного URL:
User-agent : *
Запретить: /private-info.html
Чтобы закрыть определенный файл из сканирования:
Агент пользователя: *
Запретить: / image / имя файла и его расширение
Чтобы закрыть все файлы с определенным разрешением из сканирования:
User-agent: *
Disallow: / *.имя расширения и значок $ (без пробела)
Разрешить — команда для управления роботами
Разрешить — эта команда дает разрешение на сканирование определенных данных:
- файл;
- директивы;
- страниц и т. Д.
В качестве примера рассмотрим ситуацию, когда важно, чтобы роботы могли просматривать только страницы, начинающиеся с / catalog, а все остальное содержимое на сайте должно быть закрыто. Команда в файле robots.txt будет выглядеть так:
User-agent: *
Allow: / catalog
Disallow: /
Host + to robots txt file or how to выберите зеркало для своего сайта
Добавление команды host + в txt-файл robots — одна из нескольких обязательных задач, которые вы должны выполнить в первую очередь.Это предусмотрено для того, чтобы поисковый робот понимал, какое зеркало сайта подлежит индексации, а какие не следует учитывать при сканировании страниц сайта.
Такая команда позволит роботу избежать недоразумений при обнаружении зеркала, а также понять, что является главным зеркалом ресурса — это указано в файле robots.txt.
При этом адрес сайта указывается без «https: //», однако , если ваш ресурс работает по HTTPS, в этом случае необходимо указать соответствующий префикс.
Это правило записывается следующим образом:
User-agent: * (имя поискового робота)
Allow: / catalog
Disallow: /
Host: name
Если сайт использует HTTPS, команда будет записана следующим образом:
User-agent: * (имя поискового робота)
Разрешить: / catalog
Disallow: /
Host: https: // имя сайта
Sitemap — что это такое и как с ним работать?
Карта сайта необходима для передачи информации поисковым роботам о том, что все URL-адреса сайтов, открытые для сканирования и индексирования, расположены по адресу https: // site.ua / sitemap.xml.
Во время каждого посещения и обхода сайта поисковый робот будет точно изучать, какие изменения были внесены в этот файл, тем самым обновляя информацию о сайте в своей базе данных.
Вот как пишутся эти «команды» в файле robots.txt:
User-agent: *
Allow: / catalog
Disallow: /
Sitemap: https: // site.ua/sitemap.xml.
Crawl-delay — если сервер слабый
Crawl-delay — необходимый параметр для тех сайтов, которые расположены на слабых серверах.С его помощью у вас есть возможность установить определенный период, через который будут загружаться страницы вашего ресурса.
Действительно, слабые серверы провоцируют формирование задержек при доступе к ним поисковых роботов. Такие задержки фиксируются в секундах.
Вот пример написания этой команды:
User-agent: *
Allow: / catalog
Disallow: /
Crawl-delay: 3
Clean-param — если у него дублированный контент
Clean-param — предназначен для «борьбы» с get-параметрами.Это необходимо для того, чтобы исключить возможное дублирование контента, который со временем будет доступен поисковым роботам по различным динамическим адресам. Подобные адреса появляются, если у ресурса разные сортировки и т.п.
Например, конкретная страница может быть доступна по следующим адресам:
- www.vip-site.com/foto/tele.ua?ref=page_1&tele_id=1
- www.vip-site .com / foto / tele.ua? ref = page_2 & tele_id = 1
- www.vip-site.com/foto/tele.ua?ref=page_3&tele_id=1
В аналогичной ситуации в файле robots.txt будет присутствовать следующая команда:
User-agent: Яндекс
Disallow:
Clean-param: ref / foto / tele.ua
В данном случае параметр ref показывает, откуда идет ссылка, и поэтому он пишется прямо в самом начале, и только после этого пишется остальная часть адреса.
Какие символы используются в robots.txt
Чтобы не ошибиться при написании файла, вы должны знать все символы, которые используются, а также понимать их значение.
Вот главные герои:
/ — нужно закрыть что-то от сканирования поисковыми роботами. Например, если вы поставите / catalog / — в начале и в конце отдельной директории сайта, то эта папка будет полностью закрыта от сканирования. Если команда имеет вид / catalog, то все ссылки на сайте, начало которых написано как / catalog, на сайте будут закрыты.
* — указывает любую последовательность символов в файле и устанавливается в конце каждого правила.
Например, запись:
User-agent: *
Disallow: /catalog/*.gif$
В такой записи говорится, что всем роботам запрещено сканировать и индексировать файлы с .gif, которые размещаются в папке сайта каталога.
«$» — используется для введения ограничений на действия знака *. Например, вам нужно запретить все, что находится в папке каталога, но вы также можете не запрещать URL-адреса, в которых присутствует / catalog, вы должны сделать следующую запись:
User-agent: *
Disallow: / каталог?
— «#» — этот значок предназначен для комментариев, заметок, которые веб-мастер создает для себя или других веб-мастеров, которые также будут работать с сайтом.Этот значок предотвращает сканирование этих комментариев.
Запись будет выглядеть так (например):
User-agent: *
Разрешить: / catalog
Disallow: /
Карта сайта: https://site.ua/ sitemap.xml.
# инструкции
Идеальный файл robots.txt: что это такое?
Вот пример практически идеального файла robots.txt, который подходит если не всем, то многим сайтам.
User-agent: *
Disallow:
User-agent: GoogleBot
Disallow:
Host: https: // имя сайта
Sitemap: https : // название сайта / sitemap.xml.
Давайте разберемся, что это за файл robots.txt. Таким образом, он позволяет вам индексировать все страницы сайта и весь контент, который там размещен. Он также указывает хост и карту сайта, поэтому поисковые системы будут видеть все адреса открытыми для индексации.