Robots txt создать онлайн: Генератор файла robots txt – проверка robots txt на ошибки

Содержание

Правильный robots.txt | medoed1.ru

SEO

Файл robots.txt указывает поисковым ботам, какие именно страницы на сайте нужно индексировать. Иногда им пренебрегают, так как он не влияет на ранжирование, но это неверный подход, потому что robots.txt может быть очень полезен. Во-первых, он указывает поисковым машинам, какие страницы можно индексировать, а какие нельзя. Иногда имеет смысл скрыть от поисковиков часть контента, который предназначен для вашего личного пользования, или полностью спрятать сайт, если он, к примеру, находится на реконструкции. Кроме того, правильно написанный файл robots.txt защищает сайт от спам-ботов, которые проводят сканирование на предмет электронных почт для последующих рассылок. Ниже мы рассмотрим, как создать правильный robots.txt.

Как создать robots.txt

Несмотря на всю важность, которую несет robots.txt, создается он элементарно. Файл можно легко написать самостоятельно в блокноте и разместить в корневой директории ресурса. Для этого не требуется дополнительного софта или знания языков программирования. Команды, которые содержит файл, однотипны, поэтому составление robots.txt по силам любому новичку. Ниже мы разберем, что же именно он должен в себя включать.

Директивы robots.txt

Директива user-agent

Файл будет содержать информацию о том, как должен вести себя каждый конкретный поисковик, и к ним он будет обращаться посредством директивы User-agent.

Если всем ботам вы ходите дать одинаковые инструкции, то директива будет выглядеть таким образом:

User-agent: *

Однако здесь можно дать инструкцию любому поисковику, если знать, как к ним обращаться. Разберем два наиболее популярных. Для Google и Яндекса данная директива будет выглядеть следующим образом:

User-agent: Googlebot

User-agent: Yandex

Директива Disallow в robots.txt — запретить индексацию

Вторая обязательная директива – это Disallow. Она указывает на те страницы или целые папки, которые не нужно индексировать, например:

Disallоw: /index.html

Disallоw: /folder/

Для запрещения индексации всего сайта нужно в директиве поставить слэш:

Disallоw: /

Также есть возможность запретить индексировать часть файлов, объединенных определенным признаком. В примере ниже мы запрещаем ботам индексировать не только папку index, но и все файлы, начинающиеся со слова index:

Disallow: /index

Директива Allow

Если необходимо добавить исключения в это правило, на помощь приходит разрешающая директива Allow:

User-agent: Yandex

Disallоw: /index

Allow: /index15.html

Для директив Allow и Disallow возможно употребление знака звездочки, например, для применения ко всем файлам одного расширения:

Disallow: *.jpg

Кроме этого, параметры этих директив могут содержать и пустые значения.

User-agent: *
Disallow:

User-agent: *
Allow: /

Два варианта выше равнозначны, и если они будут прописаны, то это значит, что ни одна страница на сайте не будет запрещена для индексации. Два варианта ниже, наоборот, ставят полный запрет:

User-agent: *
Allow:

User-agent: *
Disallow: / 

Директива Sitemap

Желательно использование директивы Sitemap, благодаря которой робот быстрее сориентируется во всех страницах ресурса:

Sitemap: /sitemap.xml

Директива Clean-param

На сайте возможно наличие динамических страниц, то есть тех, которые имеют идентичное содержание, но при этом разные ссылки. Таких страниц может быть бесконечное множество, для того, чтобы их убрать, нужно воспользоваться директивой clean-param, которая имеет следующий вид:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]

Например, УРЛ сайта имеет вид:

www.site.com/page.html?&parm1=1&parm2=2&parm3=3

Директива может принять, в этом случае, следующие значения:

Clean-param: parm1&parm2&parm3 /page.html # только для page.html

или

Clean-param: parm1&parm2&parm3 / # для всех

Кстати, как вы могли заметить, в этих строчках используется символ решетки — в robots.txt он обозначает комментарий, и все, что написано после него до конца строки, поисковиком восприниматься не будет.

Как создать robots.txt онлайн

По сути, в создании файла robots.txt, однако если нет желания создавать его вручную, можно воспользоваться каким-либо онлайн-генератором, например, sitespy.ru или mediasova.com, однако учтите, что такой способ может оказаться неподходящим, из-за того, что при автоматической генерации не будут учтены страницы, которые нужно скрыть, или наоборот. Поэтому если уж вы выбрали создание robots.txt онлайн, то тщательно проверьте, какой файл вам будет предложен.

robots.txt для Яндекса и Гугла

Существуют свои особенности написания команд для Яндекса и Гугла. Например, директива Host, воспринимаемая только Яндексом, обязательна для использования и предназначена для того, чтобы не индексировались зеркала ресурса. Следовательно, содержание robots.txt будет таким:

User-agent: Yandex

Disallow: /index.html

Host: site.com

User-agent: Googlebot

Disallow: /index.html

В случае с Гуглом, в директиве User-agent можно прописать Googlebot-image или Googlebot-mobile – для индексации изображений и для сайтов, рассчитанных на мобильные устройства, соответственно.

Правила написания robots.txt

Несмотря на то, что у поисковиков могут быть разные принципы прочтения файла, правильно составить robots.txt не так и трудно, нужно лишь соблюдать его синтаксис, и проблем возникнуть не должно. Вот список основных правил, которым необходимо следовать:

  • На каждую строку отводится только одна директива
  • В параметрах директивы не стоит использовать кавычки или точку с запятой
  • Строка не должна начинаться с пробела
  • В директивах Allow и Disallow нужно указывать не более одного параметра
  • В названии самого файла robots.txt не должно быть заглавных букв, только строчные
  • Директивы и параметры также не следует писать заглавными буквами
  • Если параметр директивы является директорией вашего сайта, то перед ней должен быть знак слэша (/), без разделения пробелом
  • robots.txt воспринимает только латиницу
  • Пустой файл, либо по каким-то причинам недоступный, или файл свыше 32 Кб будет считаться полностью разрешающим
  • Команда в robots.txt указывается в формате: [Имя_директивы]:[необязательный пробел][значение][необязательный пробел]

Как проверить robots.txt

Для того, чтобы проверить, насколько корректно работает robots.txt для вашего сайта, достаточно зайти в Яндекс.Вебмастер и на странице «Проверить robots.txt» ввести данные своего сайта.

Как видите, в написании robots.txt нет ничего сложного, а эффект от этих нескольких строчек можно получить очень полезный.

Создаем правильный файл robots.txt — настраиваем индексацию, директивы

  1. Зачем robots.txt в SEO?
  2. Создаем robots самостоятельно
  3. Синтаксис robots.txt
  4. Обращение к индексирующему роботу
  5. Запрет индексации Disallow
  6. Разрешение индексации Allow
  7. Директива host robots.txt
  8. Sitemap.xml в robots.txt
  9. Использование директивы Clean-param
  10. Использование директивы Crawl-delay
  11. Комментарии в robots.txt
  12. Маски в robots.txt
  13. Как правильно настроить robots.txt?
  14. Проверяем свой robots.txt

Robots — это обыкновенный текстовой файл (.txt), который располагается в корне сайта наряду c index.php и другими системными файлами. Его можно загрузить через FTP или создать в файловом менеджере у хост-провайдера. Создается данный файл как обыкновенный текстовой документ с самым простым форматом — TXT. Далее файлу присваивается имя ROBOTS. Выглядит это следующим образом:

(robots.txt в корневой папке WordPress)

После создание самого файла нужно убедиться, что он доступен по ссылке ваш домен/robots.txt. Именно по этому адресу поисковая система будет искать данный файл.

В большинстве систем управления сайтами роботс присутствует по умолчанию, однако зачастую он настроен не полностью или совсем пуст. В любом случае, нам придется его править, так как для 95% проектов шаблонный вариант не подойдет.

Зачем robots.txt в SEO?

Первое, на что обращает внимание оптимизатор при анализе/начале продвижения сайта — это роботс. Именно в нем располагаются все главные инструкции, которые касаются действий индексирующего робота. Именно в robots.txt мы исключаем из поиска страницы, прописываем пути к карте сайта, определяем главной зеркало сайта, а так же вносим другие важные инструкции.

Ошибки в директивах могут привести к полному исключению сайта из индекса. Отнестись к настройкам данного файла нужно осознано и очень серьезно, от этого будет зависеть будущий органический трафик.

Создаем robots самостоятельно

Сам процесс создания файла до безобразия прост. Необходимо просто создать текстовой документ, назвав его «robots». После этого, подключившись через FTP соединение, загрузить в корневую папку Вашего сайта. Обязательно проверьте, что бы роботс был доступен по адресу ваш домен/robots.txt. Не допускается наличие вложений, к примеру ваш домен/page/robots.txt.

Если Вы пользуетесь web ftp — файловым менеджером, который доступен в панели управления у любого хост-провайдера,  то файл можно создать прямо там.

В итоге, у нас получается пустой роботс. Все инструкции мы будем вписывать вручную. Как это сделать, мы опишем ниже.

Используем online генераторы

Если создание своими руками это не для Вас, то существует множество online генераторов, которые помогут в этом. Но нужно помнить, что никакой генератор не сможет без Вас исключить из поиска весь «мусор» и не добавит главное зеркало, если Вы не знаете какое оно. Данный вариант подойдет лишь тем, кто не хочет писать рутинные повторяющиеся для большинства сайтов инструкции.

Сгенерированный онлайн роботс нужно будет в любом случае править «руками», поэтому без знаний синтаксиса и основ Вам не обойтись и в этом случае.

Используем готовые шаблоны

В Интернете есть множество шаблонов для  распространенных CMS, таких как WordPress, Joomla!, MODx и т.д. От онлайн генераторов они отличаются только тем, что сам текстовой файл Вам нужно будет сделать самостоятельно. Шаблон позволяет не писать большинство стандартных директив, однако он не гарантирует правильную и полную настройку для Вашего ресурса. При использовании шаблонов так же нужны знания.

Синтаксис robots.txt

Использование правильного синтаксиса при настройке — это основа всего. Пропущенная запятая, слэш, звездочка или проблем могут «сбить» всю настройку. Безусловно, есть системы проверки файла, однако без знания синтаксиса они все равно не помогу. Мы по порядку рассмотрим все возможные инструкции, которые применяются при настройке robots.txt. Сначала самые популярные.

Обращение к индексирующему роботу

Любой файл robots начинается с директивы User-agent:, которая указывает для какой поисковой системы или для какого  робота приведены инструкции ниже. Пример использования:


User-agent: Yandex
User-agent: YandexBot
User-agent: Googlebot

Строка 1 — Инструкции для всех роботов Яндекса
Строка 2 — Инструкции для основного индексирующего робота Яндекса
Строка 3 — Инструкции для основного индексирующего робота Google
Яндекс и Гугл имеют не один и даже не два робота. Действиями каждого можно управлять в нашем robots.txt. Давайте рассмотрим, какие бывают роботы и зачем они нужны.

Роботы  Yandex
НазваниеОписаниеПредназначение
YandexBot Основной индексирующий робот Отвечает за основную органическую выдачу Яндекса.
YandexDirect Работ контекстной рекламы Оценивает сайты с точки зрения расположения на них контекстных объявлений.
YandexDirectDyn Так же робот контекста Отличается от предыдущего тем, что работает с динамическими баннерами.
YandexMedia Индексация мультимедийных данных.Отвечает, загружает и оценивает все, что связано с мультимедийными данными.
YandexImages Индексация изображений Отвечает за раздел Яндекса «Картинки»
YaDirectFetcher Так же робот Яндекс Директ Его особенность в том, что он интерпретирует файл robots особым образом. Подробнее о нем можно прочесть у Яндекса.
YandexBlogs Индексация блогов Данный робот отвечает за посты, комментарии, ответы и т.д.
YandexNews Новостной робот Отвечает за раздел «Новости». Индексирует все, что связано с периодикой.
YandexPagechecker Робот микроразметки Данный робот отвечает за индексацию и распознание микроразметки сайта.
YandexMetrika Робот Яндекс Метрики Тут все и так ясно.
YandexMarket Робот Яндекс Маркета Отвечает за индексацию товаров, описаний, цен и всего того, что относится к Маркету.
YandexCalendar Робот Календаря Отвечает за индексацию всего, что связано с Яндекс Календарем.
Роботы Google
НазваниеОписаниеПредназначение
Googlebot (Googlebot) Основной индексирующий роботом Google.Индексирует основной текстовой контент страницы. Отвечает за основную органическую выдачу. Запрет приведет к полному отсутствия сайта в поиске.
Googlebot-News (Googlebot News) Новостной робот.Отвечает за индексирование сайта в новостях. Запрет приведет к отсутствию сайта в разделе «Новости»
Googlebot-Image (Googlebot Images) Индексация изображений.Отвечает за графический контент сайта. Запрет приведет к отсутствию сайта в выдаче в разделе «Изображения»
Googlebot-Video (Googlebot Video) Индексация видео файлов.Отвечает за видео контент. Запрет приведет к отсутствию сайта в выдаче в разделе «Видео»
Googlebot (Google Smartphone) Робот для смартфонов. Основной индексирующий робот для мобильных устройств.
 Mediapartners-Google(Google Mobile AdSense) Робот мобильной контекстной рекламы Индексирует и оценивает сайт с целью размещения релевантных мобильных объявлений.
 Mediapartners-Google(Google AdSense) Робот контекстной рекламы Индексирует и оценивает сайт с целью размещения релевантных объявлений.
 AdsBot-Google(Google AdsBot) Проверка качества страницы. Отвечает за качество целевой страницы — контент, скорость загрузки, навигация и т.д.
 AdsBot-Google-Mobile-AppsРобот Google для приложенийСканирование для мобильных приложений. Оценивает качество так же, как и предыдущий робот AdsBot

Обычно robots.txt настраивается для всех роботов Яндекса и Гугла сразу. Очень редко приходится делать отдельные настройки для каждого конкретного краулера. Однако это возможно.

Другие поисковые системы, такие как Bing, Mail, Rambler, так же индексируют сайт и обращаются к robots.txt, однако мы не будем заострять на них внимание. Про менее популярные поисковики мы напишем отдельную статью.

Запрет индексации Disallow

Без сомнения самая популярная директива. Именно при помощи disallow страницы исключаются из индекса. Disallow — буквально означает запрет на индексацию страницы, раздела, файла или группы страниц (при помощи маски). Рассмотрим пример:


Disallow: /wp-admin   
Disallow: /wp-content/plugins   
Disallow: /img/images.jpg   
Disallow: /dogovor.pdf   
Disallow: */trackback   
Disallow: /*my   

Строка 1 — запрет на индексацию всего раздела wp-admin
Строка 2 — запрет на индексацию подраздела plugins
Строка 3 — запрет на индексацию изображения в папке img
Строка 4 — запрет индексации документа
Строка 5 — запрет на индексацию trackback в любой папке на 1 уровень
Строка 6 — запрет на индексацию не только /my, но и /folder/my или /foldermy

Данная директива поддерживает маски, о которых мы подробнее напишем ниже.
После Disallow в обязательном порядке ставится пробел, а вот в конце строки пробела быть не должно. Так же, допускается написание комментария в одной строке с директивой через пробел после символа «#», однако это не рекомендуется.

Указание нескольких каталогов в одной инструкции не допускается!

Разрешение индексации Allow

Обратная Disallow директива Allow разрешает индексацию конкретного раздела. Заходить на Ваш сайт или нет решает поисковая система, но данная директива ей это позволяет. Обычно Allow не применяется, так как поисковая система старается индексировать весь материал сайта, который может быть полезен человеку.

Пример использования Allow


Allow: /img/   
Allow: /dogovor.pdf   
Allow: /trackback.html   
Allow: /*my   

Строка 1 — разрешает индексацию всего каталога /img/
Строка 2 — разрешает индексацию документа

Строка 3 — разрешает индексацию страницы
Строка 4 — разрешает индексацию по маске *my

Данная директива поддерживает и подчиняется всем тем же правилам, которые справедливы для Disallow.

Директива host robots.txt

Данная директива позволяет обозначить главное зеркало сайта. Обычно, зеркала отличаются наличием или отсутствием www. Данная директива применяется в каждом robots и учитывается большинством поисковых систем.

Пример использования:


Host: dh-agency.ru

Если вы не пропишите главное зеркало сайта через host, Яндекс сообщит Вам об этом в Вебмастере.

Не знаете главное зеркало сайта? Определить довольно просто. Вбейте в поиск Яндекса адрес своего сайта и посмотрите выдачу. Если перед доменом присутствует www, то значит главное зеркало у вас с www.

Если же сайт еще не участвует в поиске, то в Яндекс Вебмастере в разделе «Переезд сайта» Вы можете задать главное зеркало самостоятельно.

Sitemap.xml в robots.txt

Данную директиву желательно иметь в каждом robots.txt, так как ее используют yandex, google, а так же все основные поисковые системы. Директива представляет из себя ссылку на файл sitemap.xml в котором содержатся все страницы, которые предназначены для индексирования. Так же в sitemap указываются приоритеты и даты изменения.

Пример использования:


Sitemap: http://dh-agency.ru/sitemap.xml

О том, как правильно создавать sitemap.xml мы напишем чуть позже.

Использование директивы Clean-param

Очень полезная, но мало кем применяющаяся директива. Clean-param позволяет описать динамические части URL, которые не меняют содержимое страницы. Такими динамическими частями могут быть:

  • Идентификаторы сессий;
  • Идентификаторы пользователей;
  • Различные индивидуальные префиксы не меняющие содержимое;
  • Другие подобные элементы.

Clean-param позволяет поисковым системам не загружать один и тот же материал многократно, что делает обход сайта роботом намного эффективнее.

Объясним на примере. Предположим, что для определения с какого сайта перешел пользователь мы взяли параметр site. Данный параметр будет меняться в зависимости от ресурса, но контент страницы будет одним и тем же.


http://dh-agency.ru/folder/page.php?site=x&r_id=985
http://dh-agency.ru/folder/page.php?site=y&r_id=985
http://dh-agency.ru/folder/page.php?site=z&r_id=985

Все три ссылки разные, но они отдают одинаковое содержимое страницы, поэтому индексирующий робот загрузит 3 копии контента. Что бы этого избежать пропишем следующие директивы:


User-agent: Yandex
Disallow:
Clean-param: site /folder/page.php

В данном случае робот Яндекса либо сведет все страницы к одному варианту, либо проиндексирует ссылку без параметра. Если такая конечно есть.

Использование директивы Crawl-delay

Довольно редко используемая директива, которая позволяет задать роботу минимальный промежуток между загружаемыми страницами. Crawl-delay применяется, когда сервер нагружен и не успевает отвечать на запросы. Промежуток задается в секундах. К примеру:


User-agent: Yandex
Crawl-delay: 3

В данном случае таймаут будет 3 секунды. Кстати, стоит отметить, что Яндекс поддерживает и не целые значения в данной директиве. К примеру, 0.4 секунды.

Комментарии в robots.txt

Хороший robots.txt всегда пишется с комментариями. Это упростит работу Вам и поможет будущим специалистам.

Что бы написать комментарий, который будет игнорировать робот поисковой системы, необходимо поставить символ «#». К примеру:


#мой роботс
Disallow: /wp-admin   
Disallow: /wp-content/plugins   

Так же возможно, но не желательно, использовать комментарий в одной строке с инструкцией.


Disallow: /wp-admin   #исключаем wp admin
Disallow: /wp-content/plugins   

На данный момент никаких технических запретов по написанию комментария в одной строке с инструкцией нету, однако это считается плохим тоном.

Маски в robots.txt

Применение масок в robots.txt не только упрощает работу, но зачастую просто необходимо. Напомним, маска — это условная запись, которая содержит в себе имена нескольких файлов или папок. Маски применяются для групповых операций с файлами/папками. Предположим, что у нас есть список файлов в папке /documents/

Среди этих файлов есть презентации в формате pdf. Мы не хотим, что бы их сканировал робот, поэтому исключаем из поиска.

Мы можем перечислять все файлы формата .pdf «в ручную»


Disallow: /documents/admin.pdf
Disallow: /documents/r7.pdf
Disallow: /documents/leto.pdf
Disallow: /documents/sity.pdf
Disallow: /documents/afrika.pdf
Disallow: /documents/t-12.pdf

А можем сделать простую маску *.pdf и скрыть все файлы в одной инструкции.


Disallow: /documents/*.pdf

Удобно, не правда ли?
Маски создаются при помощи спецсимвола «*». Он обозначает любую последовательность символов, в том числе и пробел. Примеры использования:


Disallow: *.pdf
Disallow: admin*.pdf
Disallow: a*m.pdf
Disallow: /img/*.*
Disallow: img.*
Disallow: &=*

Стоит отметить, что по умолчанию спецсимвол «*» добавляется в конце каждой инструкции, которую Вы прописываете. То есть,


Disallow: /wp-admin # равносильно инструкции ниже
Disallow: /wp-admin*

То есть, мы исключаем все, что находится в папке /wp-admin, а так же /wp-admin.html, /wp-admin.pdf и т.д. Для того, что бы этого не происходило необходимо в конце инструкции поставить другой спецсимвол — «$».


Disallow: /wp-admin$ # 

В таком случае, мы уже не запрещаем файлы /wp-admin.html, /wp-admin.pdf и т.д

Как правильно настроить robots.txt?

С синтаксисом robots.txt мы разобрались выше, поэтому сейчас напишем как правильно настроить данный файл. Если для популярных CMS, таких как WordPress и Joomla!, уже есть готовые robots, то для самописного движка или редкой СУ Вам придется все настраивать вручную.

(Даже несмотря на наличие готовых robots.txt редактировать и удалять «уникальный мусор» Вам придется  и в ВордПресс. Поэтому этот раздел будет полезен и для владельцев сайтов на ТОПовых CMS)

Что нужно исключать из индекса?

А.) В первую очередь из индекса исключаются дубликаты страниц в любом виде. Страница на сайте должна быть доступна только по одному адресу. То есть, при обращении к ресурсу робот должен получать по каждому URL уникальный контент.

Зачастую дубликаты появляются у систем управления сайтом при создании страниц. К примеру, одна и та же страница может быть доступна по техническому адресу /?p=391&preview=true и одновременно с этим иметь ЧПУ. Так же дубли могут возникать при работе с динамическими ссылками.

Всех их необходимо при помощи масок исключать из индекса.


Disallow: /*?*
Disallow: /*%
Disallow: /index.php
Disallow: /*?page=
Disallow: /*&page=

Б.) Все страницы, которые имеют не уникальный контент, желательно убрать из индекса еще до того, как это сделает поисковая система.

В.) Из индекса должны быть исключены все страницы, которые используются при работе сценариев. К примеру, страница «Спасибо, сообщение отправлено!».

Г.) Желательно исключить все страницы, которые имеют индикаторы сессий


Disallow: *PHPSESSID=
Disallow: *session_id=

Д.) В обязательном порядке из индекса должны быть исключены все файлы вашей cms. Это файлы панели администрации, различных баз, тем, шаблонов и т.д.


Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback

Е.) Пустые страницы и разделы, «не нужный» пользователям контент, результаты поиска и работы калькулятора так же должны быть недоступны роботу.

«Держа в чистоте» Ваш индекс Вы упрощаете жизнь и себе и индексирующему роботу.

Что нужно разрешать индексировать?

Да по сути все, что не запрещено. Есть только один нюанс. Поисковые системы по умолчанию индексируют любой полезный контент Вашего сайта, поэтому использовать директиву Allow в 90% случаев не нужно.

Корректный файл sitemap.xml и качественная перелинковка дадут гарантию, что все «нужные» страницы Вашего сайта будут проиндексированы.

Обязательны ли директивы host и sitemap?

Да, данные директивы обязательны. Прописать их не составит труда, но они гарантируют, что робот точно найдет sitemap.xml, и будет «знать» главное зеркало сайта.

Для каких поисковиков настраивать?

Инструкции файла robots.txt понимают все популярные поисковые системы. Если различий в инструкциях нету, то Вы можете прописать User-agent: * (Все директивы для всех поисковиков).

Однако, если Вы укажите инструкции для конкретного робота, к примеру Yandex, то все другие директивы Яндексом будут проигнорированы.

Нужны ли мне директивы Crawl-delay и Clean-param?

Если Вы используете динамические ссылки или же передаете параметры в URL, то Вам скорее всего понадобиться Clean-param, дабы не вводить робота в заблуждение. Использование данной директивы мы описали выше. Данная директива поможет Вам избежать ненужных дубликатов в поиске, что очень важно.

Использование Crawl-delay зависит исключительно от Вашего хостинга. Если Вы чувствуете, что сервер уже не справляется запросами, то желательно увеличить время межу ними.

Проверяем свой robots.txt

После настройки файла его необходимо проверить. Сделать это возможно через Ваш Вебмастер в разделе «Инструменты» -> «Анализ robots.txt»

Но нужно понимать, что данный онлайн инструмент сможет лишь найти синтаксическую ошибку. Он никак не убережет Вас от лишней исключенной страницы, а так же от мусора в выдаче.

Правила формирование файла robots.txt на сайте

Являясь обычным текстовым документом расположенным в папке сайта, файл робота как его обычно называют пользователи, вместе с динамической xml картой является одним из самых важных для поисковых систем. Через robots.txt поисковики получают информацию какие страницы необходимо индексировать, а какие пропустить. Одна ошибка в файле робота может полностью закрыть сайт от Яндекса и Google, или дать общий доступ к разделам с конфиденциальной информацией. При подготовке SEO-аудита оптимизаторы в первую очередь анализируют файл robots.


Если углубиться в историю, то в далеком 1994 году на W3C консорциуме было принято общее решение о добровольном использовании данного стандарта исключений для поисковых роботов, которых в данный момент насчитывается более трехсот. С того момента все основные системы при обращении к сайту смотрят на файл робота, используя его как путеводитель по разделам и страницам.

Для каких сайтов и зачем нужен файл robots.txt

При разработке сайта файл робота добавляется всегда и владельцу ресурса, как минимум нужно проверить, чтобы все url были открыты для индексации. Кроме этого, настройка файла robots является часть поисковой оптимизации сайта. Обратить внимание на директивы файла и закрыть некоторые разделы необходимо когда:

  • Имеются технические страницы, отдельные urlс формами связи, регистрации и другие модули для отправки информации. Данные страницы не имеет ценности для продвижения и самое правильное, это закрыть их от индексации; 

  • Выводятся результаты поиска на отдельной странице. Также как с формами, временные страницы с результатами поиска лучше исключить из выдачи;

  • В разделах присутствуют страницы или блоки с личной информацией. Как правило, это касается баз данных покупателей, хранящихся в структуре сайта. Помните, не имеет значения, выведен раздел на сайте. Информация все равно может быть проиндексирована если не закрыть её соответствующей директивой;

  • У сайта имеется зеркало или временный адрес с ранней версией разработки. Наличие зеркал явление исключительно отрицательное и если вдруг у веб-сайта они имеются, то нужно закрыть их все от индексации, в противном случае сайт может попасть под фильтр аффилирования.

Как создать и править robots.txt

Ряд систем управления создают файл робота автоматически. Внести корректировку обычно в файле можно через административную панель. В остальных случаях достаточно создать стандартный текстовый файл в программе блокнот (доступной на любом ПК на базе Windows) и прямо в нем прописать необходимые команды для поисковика. Альтернативным вариантом является использование многочисленных онлайн-сервисов, позволяющих создать, заполнять и скачивать в нужном формате файлы роботса. Заполненный robots.txt заливаем в корневую директорию вашего сайта. Если все сделано правильно, то по адресу вашсайт.ру/robots.txt должно появиться тоже само описание, что вы вводили в блокноте.

Редактирование документа можно сделать двумя способами: создать таким же образом новый файл на компьютере и просто заменить содержимое в корне сайта, или открыть файловую панель хостинга, найти там в корне (или поиском)robots.txt и исправить его в режиме онлайн.

Как настроить robots.txt ?

Работа с файлом робота является одновременно и простой, и сложной. Внесение корректировок происходит быстро, но в случае ошибки последствия могут быть критическими. Чтобы разобраться как правильно настроить роботс, давайте рассмотрим его синтаксис и правила. 


Директивы 

Все роботсы, если мы говорим о его стандартной версии, имеют директивы User-agent, отвечающие за указание настроек определенной поисковой системе. Возможен вариант как общих директив, так и конкретного прописания правил под Яндекс и Google. 

Примеры User-agent’ов:

User-agent: * — общие правила для всех ПС

User-agent: Yandex – директивы для всей ПС Яндекс

User-agent: YandexBot – директива для бота Яндекса 

User-agent: Googlebot– общие правила для всех ботов Google

Директива «Disallow» отвечает за закрытие информации на сайте. Применяется директива как ко всему ресурсу в целом (для этого достаточно добавить строчку disallow: /), так и к конкретным разделам. Как правило, все временные адреса и технические домены сразу закрываются от индексации. После переноса информации на «боевой» домен, копируется также файл робота и если не убрать директиву «disallow: /», то домен так останется скрытым от поисковых систем.

Директива «Allow» показывает боту какую страницу или раздел ему необходимо проиндексировать. Такая команда необходима тогда, когда есть исключения из общего правила. Например, мы закрыли от индексации целую папку фото, но непосредственно файл «карта проезда» находящийся в этой папке, указали поисковику для индексирования. В таком случае нам и надобится использование команды «Allow». Помните, при добавлении нескольких правил бот считывает информацию сверху вниз, а значит последняя команда будет приоритетной.

Директива «Host» помогает поисковой системе проиндексировать основное зеркало сайта. Это бывает необходимо, когда сайт переезжает на https протокол. Директива поможет ему не запутаться и быстрее проиндексировать все страницы с новым протоколом.

Директива «Sitemap» отправляет роботу самую свежую динамическую карту сайта. Это бывает полезно, когда веб-сайт имеет несколько карт. Чтобы не тратить время бота на анализ устаревшей карты, ему сразу подсказывают расположение актуальной.

 

Символы

К каждой директиве применимы 4 основных вида символов —  «/», «*», «$», «#»:

«/» — обратным слешем обозначается что именно скрывается от поисковой системы директивой disallow, так же «/»используется для уточнения раздела по такому же принципу, как в доменном имени. Если оставить «/» без указания раздела, то правило будет применимо ко всему сайту;

«*» — звезда показывает последовательность символов в документе и используется после каждого правила;

«$» — использование значка доллара ограничивает значение звезды, что актуально для одинаковых названий папок и файлов;

«#» — значок решетки сейчас используется редко, так как поисковые системы не обращают на него внимание. Раньше через «#» вебмастеры оставляли комментарии для коллег. 

 

Заключение

Несмотря на то, что неправильное заполнение файла может сильно навредить поисковому продвижению, редактировать и проверять robots.txt нужно обязательно. Перед внесением правок в документ, их всегда можно проверить в панели вебмастеров. Если все прописано верно, сервис скажет об этом, точно так же, как и подсветит ошибки в случае их обнаружения. Кроме этого, для разных CMS есть готовые настройки для роботс, которые как минимум не навредят сайту и не будут препятствовать индексации страниц.

 

 

 


Правильная настройка файла robots txt. Роботы яндекса. Зачем нужно сканирование

Правильная, грамотная настройка корневого файла robots.txt одна из важнейших задач WEB-мастера. В случае непростительных ошибок в поисковой выдаче может появиться множество ненужных страниц сайта. Или, наоборот, будут закрыты для индексирования важные документы вашего сайта, в худшем случае, можно закрыть для поисковых роботов всю корневую директорию домена.

Правильная настройка файла robots.txt своими руками, на самом деле, задача не очень сложная. Прочитав эту статью, вы научитесь премудростям директив, и самостоятельно написать правила для файла robots.txt на своём сайте.

Для создания файла robots.txt используется определённый, но не сложный синтаксис. Используемых директив не много. Рассмотрим правила, структуру и синтаксис файла robots.txt пошагово и подробно.

Общие правила robots.txt

Во-первых, сам файл robots.txt должен иметь кодировку ANSI.

Во-вторых, нельзя использовать для написания правил никаких национальных алфавитов, возможна только латиница.

Структурно файл robots.txt может состоять из одного или нескольких блоков инструкций, отдельно для роботов разных поисковых систем. Каждый блок или секция имеют набор правил (директив) для индексации сайта той или иной поисковой системой.

В самих директивах, блоках правил и между ними не допускаются какие-либо лишние заголовки и символы.

Директивы и блоки правил разделяются переносом строки. Единственное допущение, это комментарии.

Комментирование в robots.txt

Для комментирования используется символ ‘#’. Если вы поставите в начале строки символ «решётки», то до конца строки всё содержимое игнорируется поисковыми роботами.

User-agent: *
Disallow: /css #пишем комментарий
#Пишем ещё один комментарий
Disallow: /img

Секции в файле robots.txt

При прочтении файла роботом, используется только секция адресованная роботу этой поисковой системы, то есть, если в секции, user-agent указано имя поисковой системы Яндекс, то его робот прочитает только адресованную ему секцию, игнорируя другие, в частности и секцию с директивой для всех роботов — User-agent:*.

Каждая из секций является самостоятельной. Секций может быть несколько, для роботов каждой или некоторых поисковых систем, так и одна универсальная, для всех роботов или роботов одной их систем. Если секция одна, то начинается она с первой строки файла и занимает все строки. Если секций несколько, то они должны разделяться пустой строкой, хотя бы одной.

Секция всегда начинается с директивы User-agent и содержит имя поисковой системы, для роботов которой предназначена, если это не универсальная секция для всех роботов. На практике это выглядит так:

User-agent:YandexBot
# юзер-агент для роботов системы Яндекс
User-agent: *
# юзер-агент для всех роботов

Перечислять несколько имён ботов запрещено. Для ботов каждой поисковой системы создаётся своя секция, свой отдельный блок правил. Если, в вашем случае, правила для всех роботов одинаковые, используйте одну универсальную, общую секцию.

Директивы, что это?

Директива — это команда или правило сообщающее поисковому роботу определённую информацию. Директива сообщает поисковому боту, как индексировать ваш сайт, какие каталоги не просматривать, где находится карта сайта в формате XML, какое имя домена является главным зеркалом и некоторые другие технические подробности.

Секция файла robots.txt состоит из отдельных команд,
директив. Общий синтаксис директив таков:

[Имя_директивы]:[необязательный пробел][значение][необязательный пробел]

Директива пишется в одну строку, без переносов. По принятым стандартам, между директивами в одной секции пропуск строки не допускается, то есть все директивы одной секции пишутся на каждой строке, без дополнительных пропусков строк.

Давайте опишем значения основных используемых директив.

Директива Disallow

Наиболее используемая директива в файле robots.txt, это «Disallow» — запрещающая. Директива «Disallow» запрещает индексацию указанного в ней пути. Это может быть отдельная страница, страницы, содержащие указанную «маску» в своём URL`е (пути), часть сайта, отдельная директория (папка) или сайт целиком.

«*» — звёздочка означает — «любое количество символов». То есть, путь /folder* одинаков по своему значению с «/folders», «/folder1», «/folder111», «/foldersssss» или «/folder». Роботы, при чтении правил, автоматически дописывают знак «*». В примере, приведённом ниже, обе директивы абсолютно равнозначны:

Disallow: /news
Disallow: /news*

«$» — знак доллара запрещает роботам при чтении директив автоматически дописывать символ «*» (звёздочка) в конце директивы. Другими словами, символ «$» означает конец строки сравнения. То есть, в нашем примере мы запрещаем индексацию папки «/folder», но не запрещаем в папках «/folder1», «/folder111» или «/foldersssss»:

User-agent: *
Disallow: /folder$

«#» — (шарп) знак комментария . Всё, что написано после этого значка, в одной с ним строке, игнорируется поисковыми системами.

Директива Allow

Директива ALLOW файла robots.txt противоположна по своему значению директиве DISSALOW, директива ALLOW разрешающая. В примере ниже показано, что мы запрещаем индексировать весь сайт кроме папки /folder:

User-agent: *
Allow: /folder
Disallow: /

Пример одновременного использования «Allow», «Disallow» и приоритетность

Не забывайте, о понимании приоритетности при запретах и разрешениях, при указании директив. Раньше приоритет указывался порядком объявления запретов и разрешений. Сейчас приоритет определяется указанием максимально существующего пути в пределах одного блока для робота поисковой системы (User-agent), в порядке увеличения длинны пути и месту указания директивы, чем длиннее путь, тем приоритетнее:

User-agent: *
Allow: /folders
Disallow: /folder

В приведённом примере выше разрешена индексация URL`ов начинающихся с «/folders», но запрещена в путях, которые имеют в своих URL`ах начало «/folder», «/folderssss» или «/folder2». В случае попадания одинакового пути под обе директивы «Allow» и «Disallow», предпочтение отдаётся директиве «Allow».

Пустое значение параметра в директивах «Allow» и «Disallow»

Встречаются ошибки WEB-мастеров, когда в файле robots.txt в директиве «Disallow»
забывают указать символ «/». Это является неправильным, ошибочным трактованием значений директив и их синтаксиса. В результате, запрещающая директива становится разрешающей: «Disallow:» абсолютно идентична «Allow: /». Правильный запрет на индексацию всего сайта выглядит так:

То же самое можно сказать и об «Allow:». Директива «Allow:» без символа «/» запрещает индексацию всего сайта, так же как и «Disallow: /».

Директива Sitemap

По всем канонам SEO-оптимизации, необходимо использовать карту сайта (SITEMAP) в формате XML и предоставлять её поисковым системам.

Несмотря на функциональность «кабинетов для WEB-мастеров» в поисковых системах, необходимо заявлять о присутствии sitemap.xml и в robots.txt с помощью директивы «SITEMAP ». Поисковые роботы при обходе вашего сайта увидят указание на файл sitemap.xml и будут обязательно использовать его при следующих обходах. Пример использования директивы sitemap в файле robots.txt:

User-agent: *
Sitemap: https://www.domainname.zone/sitemap.xml

Директива Host

Ещё одной важной директивой robots.txt является директива HOST .

Считается, что не все поисковые системы её распознают. Но «Яндекс» указывает, что читает эту директиву, а Яндекс в России является основным «поисковым кормильцем», поэтому не будем игнорировать директиву «host».

Эта директива говорит поисковым системам, какой домен является главным зеркалом. Все мы знаем, что сайт может иметь несколько адресов. В URL сайта может использоваться или не использоваться префикс WWW или сайт может иметь несколько доменных имён, например, domain.ru, domain.com, domen.ru, www.domen.ru. Вот именно в таких случаях мы и сообщаем поисковой системе в файле robots.txt с помощью директивы host, какое из этих имён является главным. Значением директивы является само имя главного зеркала. Приведём пример. Мы имеем несколько доменных имён (domain.ru, domain.com, domen.ru, www.domen.ru) и все они перенаправляют посетителей на сайт www.domen.ru, запись в файле robots.txt будет выглядеть так:

User-agent: *
Host: www.domen.ru

Если вы хотите, чтобы ваше главное зеркало было без префикса (WWW), то, соответственно, следует указать в директиве имя сайта без префикса.

Директива HOST решает проблему дублей страниц, с которой очень часто сталкиваются WEB-мастера и SEO-специалисты. Поэтому директиву HOST нужно использовать обязательно, если вы нацелены на русскоязычный сегмент и вам важно ранжирование вашего сайта в поисковой системе «Яндекс». Повторимся, на сегодня о чтении этой директивы заявляет только «Яндекс». Для указания главного зеркала в других поисковых системах необходимо воспользоваться настройками в кабинетах WEB-мастеров. Не забывайте, что имя главного зеркала должно быть указано корректно (правильность написания, соблюдение кодировки и синтаксиса файла robots.txt). В файле эта директива допускается только один раз. Если вы по ошибке укажете её несколько раз, то роботы учтут только первое вхождение.

Директива Crawl-delay

Данная директива является технической, командой поисковым роботам, как часто нужно посещать ваш сайт. Точнее, директива Crawl-delay указывает минимальный перерыв между посещениями вашего сайта роботами (краулерами поисковых систем). Зачем указывать это правило? Если роботы заходят к вам очень часто, а новая информация на сайте появляется намного реже, то со временем поисковые системы привыкнут к редкому изменению информации на вашем сайте и будут посещать вас значительно реже, чем хотелось бы вам. Это поисковый аргумент в пользу использования директивы «Crawl-delay». Теперь технический аргумент. Слишком частое посещение вашего сайта роботами создаёт дополнительную нагрузку на сервер, которая вам совсем не нужна. Значением директивы лучше указывать целое число, но сейчас некоторые роботы научились читать и дробные числа. Указывается время в секундах, например:

User-agent: Yandex
Crawl-delay: 5.5

Директива Clean-param

Необязательная директива «Clean-param» указывает поисковым роботам параметры адресов сайта, которые не нужно индексировать и следует воспринимать, как одинаковые URL. Например, у вас одни и те же страницы выводятся по разным адресам, отличающимся одним или несколькими параметрами:

www.domain.zone/folder/page/
www.domain.zone/index.php?folder=folder&page=page1/
www.domain.zone/ index.php?folder=1&page=1

Поисковые роботы будут сканировать все подобные страницы и заметят, что страницы одинаковые, содержат один и тот же контент. Во-первых, это создаст путаницу в структуре сайта при индексации. Во-вторых, дополнительная нагрузка на сервер возрастёт. В третьих, скорость сканирования заметно упадёт. Чтобы избежать этих неприятностей и используется директива «Clean-param». Синтаксис следующий:

Clean-param: param1[&param2&param3&param4& … &param*N] [Путь]

Директиву «Clean-param», как и «Host» читают не все поисковые системы. Но Яндекс её понимает.

Ошибки, которые часто встречаются в robots.txt

Файл robots.txt находится не в корне сайта

Файл robots. txt должен размещаться в корне сайта , только в корневой директории . Все остальные файлы с таким же именем, но находящиеся в других папках (директориях) игнорируются поисковыми системами.

Ошибка в имени файла robots.txt

Имя файла пишется маленькими буквами (нижний регистр) и должен называться robots. txt . Все остальные варианты считаются ошибочными и поисковые стсемы будут вам сообщать об отсутствии файла. Частые ошибки выглядят так:

ROBOTS.txt
Robots.txt
robot.txt

Использование недопустимых символов в robot.txt

Файл robots.txt должен быть в кодировке ANSI и содержать только латиницу. Написание директив и их значений любыми другими национальными символами недопустимо, за исключением содержимого комментариев.

Ошибки синтаксиса robots.txt

Старайтесь строго соблюдать правила синтаксиса в файле robots.txt. Синтаксические ошибки могут привести к игнорированию содержимого всего файла поисковыми системами.

Перечисление нескольких роботов одной строкой в директиве User-agent

Ошибка, часто допускаемая начинающими WEB-мастерами, скорее из-за собственной лени, не разбивать файл robots.txt на секции, а объединять команды для нескольких поисковых систем в одной секции, например:

User-agent: Yandex, Googlebot, Bing

Для каждой поисковой системы необходимо создавать свою отдельную секцию, с учётом тех директив, которые читает эта поисковая система. Исключением, в данном случае, является единая секция для всех поисковых систем:

User-agent с пустым значением

Директива User-agent не может иметь пустое значение. Пустыми могут быть только «Allow» и «Disallow» и то с учётом того, что меняют своё значение. Указание директивы User-agent с пустым значением является грубейшей ошибкой.

Нескольких значений в директиве Disallow

Реже встречающаяся ошибка, но, тем не менее, периодически её можно видеть на сайтах, это указание нескольких значений в директивах Allow и Disallow, например:

Disallow: /folder1 /folder2 /folder3

Disallow: /folder1
Disallow: /folder2
Disallow: /folder3

Несоблюдение приоритетов директив в robots.txt

Эта ошибка уже описывалась выше, но для закрепления материала повторимся. Раньше приоритет определялся порядком указания директив. На сегодняшний день правила изменились, приоритет уточняется по длине строки. Если в файле будут присутствовать две взаимоисключающих директивы, Allow и Disallow с одинаковым содержимым, то приоритет будет иметь Allow.

Поисковые системы и robots.txt

Директивы в файле robots.txt носят рекомендательный характер для поисковых систем. Это значит, что правила прочтения могут периодически меняться или дополняться. Так же помните, что каждая поисковая система по-своему обрабатывает директивы файла. И не все директивы каждая из поисковых систем читает. Например, директиву «Host» сегодня читает только Яндекс. При этом Яндекс не гарантирует, что имя домена указанное, как главное зеркало в директиве Host обязательно будет назначено главным, но утверждает, что приоритет указанному имени в директиве будет отдаваться.

Если у вас небольшой набор правил, то можно создать единую секцию для всех роботов. В противном случае, не ленитесь, создайте отдельные секции для каждой интересующей вас поисковой системы. В особенности это относится к запрещениям, если вы не хотите, чтобы какие-то определённые страницы попали в поиск.

Файл robots.txt — текстовый файл в формате.txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. Как определение, Robots.txt — это стандарт исключений для роботов , который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.

Простой пример robots.txt:

User-agent: * Allow: /

Здесь роботс полностью разрешает индексацию всего сайта.

Файл robots.txt необходимо загрузить в корневой каталог вашего сайта , чтобы он был доступен по адресу:

Ваш_сайт.ru/robots.txt

Для размещения файла robots.txt в корне сайта обычно необходим доступ через FTP . Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.

Если файл доступен, то вы увидите содержимое robots.txt в браузере.

Для чего нужен robots.txt

Roots.txt для сайта является важным аспектом . Зачем нужен robots.txt ? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое . Как, что, зачем и почему исключается уже было описано в статье про , здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование robots.txt подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы robots.txt , например директива Host или Sitemap, но об этом ниже.

Как создать robots.txt

Поскольку robots.txt — это текстовый файл, и чтобы создать файл robots.txt , можно воспользоваться любым текстовым редактором, например Блокнотом . Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt . Все просто, и создание файла robots.txt не должно вызвать проблем даже у новичков. О том, как составить robots.txt и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых — создать роботс онлайн и скачать файл robots.txt уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией , которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt . Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита . Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.

Чтобы понять, как сделать правильный robots txt , для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.

Правильный robots.txt начинается с директивы User-agent , которая указывает, к какому роботу обращены конкретные директивы.

Примеры User-agent в robots.txt:

# Указывает директивы для всех роботов одновременно User-agent: * # Указывает директивы для всех роботов Яндекса User-agent: Yandex # Указывает директивы для только основного индексирующего робота Яндекса User-agent: YandexBot # Указывает директивы для всех роботов Google User-agent: Googlebot

Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.

Пример robots.txt с несколькими вхождениями User-agent:

# Будет использована всеми роботами Яндекса User-agent: Yandex Disallow: /*utm_ # Будет использована всеми роботами Google User-agent: Googlebot Disallow: /*utm_ # Будет использована всеми роботами кроме роботов Яндекса и Google User-agent: * Allow: /*utm_

Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все . Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».

Пример неправильного перевода строки в robots.txt:

Пример правильного перевода строки в robots.txt:

User-agent: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Как видно из примера, указания в robots.txt поступают блоками , каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».

Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.

Пример совместного использования директив в robots.txt:

User-agent: * Allow: /blog/page Disallow: /blog

Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».

Прошлый пример robots.txt в правильной сортировке:

User-agent: * Disallow: /blog Allow: /blog/page

Сначала запрещаем весь раздел, потом разрешаем некоторые его части.

Еще один правильный пример robots.txt с совместными директивами:

User-agent: * Allow: / Disallow: /blog Allow: /blog/page

Обратите внимание на правильную последовательность директив в данном robots.txt.

Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».

Пример директивы «Disallow/Allow» без параметров:

User-agent: * Disallow: # равнозначно Allow: / Disallow: /blog Allow: /blog/page

Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.

Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы создать идеальный robots txt своими руками .

Синтаксис robots.txt

Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.

Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt :

  1. Каждая директива начинается с новой строки;
  2. Не указывайте больше одной директивы в одной строке;
  3. Не ставьте пробел в начало строки;
  4. Параметр директивы должен быть в одну строку;
  5. Не нужно обрамлять параметры директив в кавычки;
  6. Параметры директив не требуют закрывающих точки с запятой;
  7. Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
  8. Допускаются комментарии в robots.txt после знака решетки #;
  9. Пустой перевод строки может трактоваться как окончание директивы User-agent;
  10. Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
  11. В директивах «Allow», «Disallow» указывается не более одного параметра;
  12. Название файла robots.txt не допускает наличие заглавных букв, ошибочное написание названия файла — Robots.txt или ROBOTS.TXT;
  13. Написание названия директив и параметров заглавными буквами считается плохим тоном и если по стандарту, robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий;
  14. Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
  15. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
  16. Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
  17. Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
  18. В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
  19. Использование любых символов национальных алфавитов в robots.txt не допускается.

Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».

В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все , что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.

Как проверить robots.txt

Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы для вебмастеров, которые включают анализ robots.txt:

Проверка файла robots.txt в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml

Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию . Иначе, сервис может сообщить, что не удалось загрузить robots.txt . Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.

Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.

Robots.txt vs Яндекс и Google

Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить запрет индексации в robots.txt для Яндекса , но, например не для Google.

Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.

Запретить индексацию: robots.txt Disallow

Disallow — запрещающая директива , которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.

Пример как в robots.txt запретить индексацию сайта:

User-agent: * Disallow: /

Данный пример закрывает от индексации весь сайт для всех роботов.

В параметре директивы Disallow допускается использование специальных символов * и $:

* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:

User-agent: Yandex Disallow: /page User-agent: Yandex Disallow: /page*

$ — указывает на точное соответствие исключения значению параметра:

User-agent: Googlebot Disallow: /page$

В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.

Если закрыть индексацию сайта robots.txt , в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы , можно воспользоваться не только robots txt, но и аналогичными html-тегами:

  • — не индексировать содержимое страницы;
  • — не переходить по ссылкам на странице;
  • — запрещено индексировать содержимое и переходить по ссылкам на странице;
  • — аналогично content=»none».

Разрешить индексацию: robots.txt Allow

Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.

Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:

User-agent: * Disallow: / Allow: /page

Запрещается индексировать весь сайт , кроме страниц, начинающихся с /page.

Disallow и Allow с пустым значением параметра

Пустая директива Disallow:

User-agent: * Disallow:

Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:

User-agent: * Allow: /

Пустая директива Allow:

User-agent: * Allow:

Разрешить ничего или полный запрет индексации сайта, равнозначно:

User-agent: * Disallow: /

Главное зеркало сайта: robots.txt Host

Директива Host служит для указания роботу Яндекса главного зеркала Вашего сайта . Из всех популярных поисковых систем, директива Host распознаётся только роботами Яндекса . Директива Host полезна в том случае, если ваш сайт доступен по нескольким , например:

Mysite.ru mysite.com

Или для определения приоритета между:

Mysite.ru www.mysite.ru

Роботу Яндекса можно указать, какое зеркало является главным . Директива Host указывается в блоке директивы «User-agent: Yandex» и в качестве параметра, указывается предпочтительный адрес сайта без «http://».

Пример robots.txt с указанием главного зеркала:

User-agent: Yandex Disallow: /page Host: mysite.ru

В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.

User-agent: Yandex Disallow: /page Host: www.mysite.ru

В качестве основного зеркала указывается доменное имя www.mysite.ru.

Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.

Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.

Карта сайта: robots.txt sitemap

При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте .

Пример robots.txt с указанием адреса карты сайта:

User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml

Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.

Директива Clean-param

Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param .

Синтаксис директивы Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]

Рассмотрим на примере страницы со следующим URL:

Www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Пример robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # только для page.html

Clean-param: parm1&parm2&parm3 / # для всех

Директива Crawl-delay

Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.

Пример robots.txt Crawl-delay:

User-agent: Yandex Disallow: /page Crawl-delay: 3

В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt .

Сначало расскажу, что такое robots.txt.

Robots.txt – файл, который находится в корневой папки сайта, где прописываются специальные инструкции для поисковых роботов. Эти инструкции необходимы для того, чтобЫ при заходе на сайт, робот не учитывал страницу/раздел, другими словами мы закрываем страницу от индексации.

Зачем нужен robots.txt

Файл robots.txt считается ключевым требованием при SEO-оптимизации абсолютно любого сайта. Отсутствие этого файла может негативно сказаться на нагрузку со стороны роботов и медленной индексации и, даже более того, сайт полностью не будет проиндексирован. Соответственно пользователи не смогут перейти на страницы через Яндекс и Google.

Влияние robots.txt на поисковые системы?

Поисковые системы (в особенности Google) проиндексируют cайт, но если файла robots.txt нет, то, как и говорил не все страницы. Если имеется такой файл, то роботы руководствуются правилами, которые указываются в этом файле. Причем существует несколько видов поисковых роботов, если одни могут учитывать правило, то другие игнорируют. В частности, робот GoogleBot не учитывает директиву Host и Crawl-Delay, робот YandexNews совсем недавно перестал учитывать директиву Crawl-Delay, а роботы YandexDirect и YandexVideoParser игнорируют общепринятые директивы в robots.txt (но учитывают те, которые прописаны специально для них).

Нагружают сайт больше всего роботы, которые подгружают контент с вашего сайта. Соответственно, если мы укажем роботу, какие страницы индексировать, а какие игнорировать, а также с какими временными промежутками подгружать контент со страниц (это больше качается крупных сайтов у которых имеется более 100 000 страниц в индексе поисковых систем). Это позволит значительно облегчить роботу индексацию и процесс подгружения контента с сайта.

К ненужным для поисковых систем можно отнести файлы которые относятся к CMS, например, в WordPress – /wp-admin/. Помимо этого, скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и так далее.

Для большинства роботов также рекомендую закрыть от индексации все файлы Javascript и CSS. Но для GoogleBot и Yandex такие файлы лучше индексировать, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования.

Что такое директива robots.txt?


Директивы – это и есть правила для поисковых роботов. Первые стандарты по написанию robots.txt и соответственно появились в 1994, а расширенный стандарт в 1996 году. Однако, как вы уже знаете, что не все роботы поддерживают те или иные директивы. Поэтому ниже я расписал чем руководствуются основные роботы при индексации страниц сайта.

Что означает User-agent?

Это самая главная директива, которая определяет для каких поисковых роботов будут действовать следовать дальнейшие правила.

Для всех роботов:

Для определенного бота:

User-agent: Googlebot

Регистр в robots.txt не стол важен, писать можно как Googlebot так и googlebot

Поисковые роботы Google







Поисковые роботы Яндекса

основной индексирующий робот Яндекса

Используется в сервисе Яндекс.Картинки

Используется в сервисе Яндекс.Видео

Мультимедийные данные

Поиск по блогам

Поисковый робот, обращающийся к странице при добавлении ее через форму «Добавить URL»

робот, индексирующий пиктограммы сайтов (favicons)

Яндекс.Директ

Яндекс.Метрика

Используется в сервисе Яндекс.Каталог

Используется в сервисе Яндекс.Новости

YandexImageResizer

Поисковый робот мобильных сервисов

Поисковые роботы Bing, Yahoo, Mail.ru, Rambler

Директивы Disallow и Allow

Disallow закрывает от индексирования разделы и страницы вашего сайта. Соответственно Allow наоборот открывает их.

Есть некоторые особенности.

Во первых, дополнительные операторы — *, $ и #. Для чего они используются?

“*” – это любое количество символов и их отсутствие. По умолчанию она уже находится в конце строки, поэтому ставить ее еще раз смысла нет.

“$” – показывает, что символ перед ним должен идти последним.

“#” – комментарий, все что идет после этого символа робот не учитывает.

Примеры использования Disallow:

Disallow: *?s=

Disallow: /category/

Соответственно поисковый робот закроет страницы типа:

Но открыты для индексации будут страницы вида:

Теперь вам необходимо понять, каким образом выполняются правила с вложенностью. Порядок записи директив совершено важен. Наследование правил, определяется по тому какие директории указаны, то есть если мы хотим закрыть страницу/документ от индексации достаточно прописать директиву. Давайте посмотрим на примере

Это наш файл robots.txt

Disallow: /template/

Данная директива указывается так же в любом месте, причем можно прописать несколько файлов sitemap.

Директива Host в robots.txt

Данная директива необходима для указания главного зеркала сайта (часто с www или без). Обратите внимание, что директива host указывается без протокола http://, но с протоколом https://. Директиву учитывают только поисковые роботы Яндекса и Mail.ru, а другими роботами, в том числе GoogleBot правило не будет учтено. Host прописывать 1 раз в файле robots.txt

Пример с http://

Host: website.ru

Пример с https://

Директива Crawl-delay

Устанавливает временной интервал индексирования поисковым роботом страниц сайта. Значение указывается в секундах, и в миллисекундах.

Пример:

Применяется по большей части на крупных интернет-магазинах, информационных сайтах, порталах, где посещаемость сайта от 5 000 в день. Необходим для того, чтобы поисковый робот делал запрос на индексирование в определенный промежуток времени. Если не указывать данную директиву, то это может создать серьезную нагрузку на сервер.

Оптимальное значение crawl-delay для каждого сайта свое. Для поисковых систем Mail, Bing, Yahoo значение можно выставить минимальное значение 0.25, 0.3, так как роботы эти поисковиков могут переобходить ваш сайт раз в месяц, 2 месяца и так далее (очень редко). Для Яндекса лучше установить большее значение.

Если нагрузка вашего сайта минимальная, то указывать данную директиву смысла нет.

Директива Clean-param

Правило интересно тем, что сообщает краулеру, что страницы с определенными параметрами нет необходимости индексировать. Прописывается 2 агрумента: URL страницы и параметр. Данная директива поддерживается поисковой системой Яндекс.

Пример:

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

User-agent: GoogleBot

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Allow: /plugins/*.css

Allow: /plugins/*.js

Allow: /plugins/*.png

Allow: /plugins/*.jpg

Allow: /plugins/*.gif

User-agent: Yandex

Disallow: /admin/

Disallow: /plugins/

Disallow: /search/

Disallow: /cart/

Disallow: *sort=

Disallow: *view=

Allow: /plugins/*.css

Allow: /plugins/*.js

Allow: /plugins/*.png

Allow: /plugins/*.jpg

Allow: /plugins/*.gif

Clean-Param: utm_source&utm_medium&utm_campaign

В примере мы прописали правила для 3 разных ботов.

Куда добавить robots.txt?

Добавляется в корневую папку сайта. Помимо, чтобы по нему можно было перейти по ссылке:

Как проверить robots.txt?

Яндекс Вебмастер

На вкладке Инструменты выбираете Анализ robots.txt и далее нажимаете проверить

Google Search Console

На вкладке Cканирование выбираете Инструмент проверки файла robots.txt и далее нажимаете проверить.

Заключение:

Файл robots.txt должен быть обязательно на каждом продвигаемом сайте и лишь правильная его настройка позволит получить необходимую индексацию.

Ну и напоследок, если у вас возникли вопросы задавайте их в комментариях под статьей и еще мне интересно, а как вы прописываете robots.txt?

Виды роботов Яндекса

  • Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
  • Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
  • Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
  • Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
  • Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
  • Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
  • YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
  • YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
  • YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
  • Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса. Официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения – клоакинг и пр.

IP-адреса роботов Яндекса

IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов не разглашается.

Кроме роботов у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

  • Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Директива Host

Во избежания возникновения проблем с зеркалами сайта рекомендуется использовать директиву «Host». Директива «Host» указывает роботу Яндекса на главное зеркало данного сайта. С директивой «Disallow» никак не связана.

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru

в зависимости от того что для вас оптимальнее.

Вопрос: Когда планируется своевременное соблюдение директивы Host: в robots.txt? Если сайт индексируется как www.site.ru, когда указано Host: site.ru уже после того, как robots.txt был размещен 1–2 недели, то при этом сайт с www и без www не склеивается более 1–2 месяца и в Яндексе существуют одновременно 2 копии частично пересекающихся сайтов (один 550 страниц, другой 150 страниц, при этом 50 страниц одинаковых). Прокомментируйте, пожалуйста, проблемы с работой «зеркальщика».
Ответ: Расширение стандарта robots.txt, введенное Яндексом, директива Host — это не команда считать зеркалами два любых сайта, это указание, какой сайт из группы, определенных автоматически как зеркала, считать главным. Следовательно, когда сайты будут идентифицированы как зеркала, директива Host сработает.

HTML-тег

Робот Яндекса поддерживает тег noindex, который запрещает роботу Яндекса индексировать заданные (служебные) участки текста. В начале служебного фрагмента ставится , а в конце — , и Яндекс не будет индексировать данный участок текста.

Время чтения: 7 минут(ы)

Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.

Зачем нужна настройка robots.txt?

Robots.txt — это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.

Настройка robots.txt — важная часть в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:

    Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет — это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.

    Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.

    В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.

Как поисковые роботы видят сайт с robots.txt и без него:


Синтаксис robots.txt

Прежде чем начать разбирать синтаксис и настраивать robots.txt, посмотрим на то, как должен выглядеть «идеальный файл»:


Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.

User-agent

User-agent — определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:


С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.

Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.


Allow

Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.


Host — зеркало сайта

Зеркало сайта — это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.

Host — одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать. Host прописывается только один раз!

Для протоколов «https://» и «http://», синтаксис в файле robots.txt будет разный.

Sitemap — карта сайта

Карта сайта — это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.


Символы в robots.txt

Символы, применяемые в файле: «/, *, $, #».


Проверка работоспособности после настройки robots.txt

После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.

Проверка Яндекса:

  1. Перейдите по ссылке .
  2. Выберите: Настройка индексирования — Анализ robots.txt.

Проверка Google:

  1. Перейдите по ссылке .
  2. Выберите: Сканирование — Инструмент проверки файла robots.txt.

Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые настройки, если потребуется.

  1. Содержимое файла необходимо писать прописными буквами.
  2. В директиве Disallow нужно указывать только один файл или директорию.
  3. Строка «User-agent» не должна быть пустой.
  4. User-agent всегда должна идти перед Disallow.
  5. Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
  6. Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.

Успехов вам!

Видеообзор 3 методов создания и настройки файла Robots.txt


как правильно составить и для чего он нужен

Поисковые роботы индексируют всё, что находят. Даже админпанель с личной информацией. Robots.txt — это специальный файл для ботов с правилами, по которым они начинают работать с вашим сайтом. В этом файле вы и прописываете всё, что разрешаете или запрещаете им делать.

Важный файл robots.txt

Для чего нужен

Для того, чтобы ваш сайт быстрее индексировался, в поиск не попадали ненужные страницы или приватная информация. «Ненужные страницы» — это дубликаты товарных категорий, личная информация, формы отправки данных, страницы с результатами поиска и т.п. Robots.txt устанавливает строгие правила для поисковиков, если же эти правила не указать, то вся ваша информация окажется в сети и удалить её из архивов интернета будет практически нереально.

Где писать этот файл и где его располагать

Писать можно в любом удобном для вас редакторе — в обычном встроенном блокноте для Windows, NotePad или Word — не суть. Главное, чтобы этот файл был сохранён в текстовом формате, то есть с расширением .txt.

В нашей системе вставить инструкцию для поисковых ботов на сайт очень просто: выберите в левой панели управления сайтом раздел «Реклама/SEO → Управление robots.txt».

Управление robots.txt находится в разделе «Реклама/SEO»

И в открывшееся поле вы просто вставляете готовую инструкцию (с помощью функции «копировать — вставить»).

На нашем сервисе файл robots.txt автоматически генерируется системой. В большинстве случаев он полностью отвечает всем требованиям поисковых роботов и закрывает от индексации те страницы, которые не должны быть на виду. Но вы можете создать свою инструкцию или внести любые изменения в готовый файл. В случае необходимости всегда можно восстановить первоначальный вариант.

Правила синтаксиса robots.txt

Поисковый робот учитывает только определённые выражения и алгоритмы. Поэтому инструкция составляется на понятном ему «языке». Вот основные команды, которые «понимает» робот:

  • User-Agent: Имя бота поисковой системы. Для Яндекса это Yandex, для Google — Google-bot, для Mail.ru — Mail.ru. Весь список названий роботов-поисковиков перечислен на этой странице.
  • Allow — команда «разрешить».
  • Disallow — команда «запретить».
  • Host — имя вашего хостера (на 1C-UMI это robot.umi.ru).

Директива Allow не является обязательной, а вот Disallow нужно указывать. По умолчанию файл robots.txt разрешает всё, поэтому прописывать нужно только запрещающие команды.

Правильный синтаксис написания: команда → двоеточие → пробел → слеш (/) → точное наименование страницы.

Точное наименование страницы — это весь путь, который ведёт на указанную страницу, начиная с главной: мойсайт.рф — мода — женская мода — верхняя одежда — пальто — чёрное пальто в горошек.

Пример:

  • Вы разрешаете поисковому боту Яндекс индексировать всё, кроме страницы «Контакты»:
    • User-Agent: Yandex
    • Allow:
    • Disallow: /contacts
  • Если вы разрешаете индексировать сайт всем поисковым системам, то после User-Agent нужно поставить знак *:
  • Если вы ничего не запрещаете к индексации, то после disallow ничего не ставите:
  • Если вы запрещаете какому-то определённому боту индексировать свой сайт, то ставите его имя и запрещающую команду disallow вместе со слешем:
    • User-Agent: googlebot-image (робот-поисковик по картинкам в Гугл)
    • Disallow: /

Disallow относится только к тому боту, который указан перед командой. Для каждого робота нужно прописывать команды индивидуально.

Как не запутаться в названиях ботов и командах

Есть удобная функция «комментарий», которую вы можете использовать при составлении robots.txt. Всё, что вы хотите прокомментировать, оставить какое-либо уточнение, отмечайте символом #. Всё, что будет написано после этого знака, роботом не учитывается.

User-Agent: Yandex

Disallow: /Price/ #Не индексировать каталог с ценами.

Как установить период захода на сайт робота-поисковика

Чтобы уменьшить нагрузку на сервер, нужно использовать директиву (команду для робота-поисковика) Crawl-delay. Она устанавливает период, за который робот-поисковик должен обойти сайт, или время, за которое робот просмотрит все страницы сайта и внесёт их в индекс. Другими словами, эта директива позволяет ускорить обход сайта роботом. Обычно устанавливается на сайт-многостраничник. Если у вас страниц ещё немного, не больше двухсот, то этот параметр можно не указывать.

Прописывается это так:

  • User-Agent: Yandex
  • Disallow: /contacts
  • Craw-delay: 2 #Тайм-аут обхода 2 секунды

Тайм-аут обхода вы можете указать любой. Это не гарантирует, что на ваш сайт робот будет заходить каждые 2 (3, 4, 5…) секунд, вы просто даёте ему приблизительное время обхода. Если ваш сайт уже хорошо ранжируется, то роботы будут заходить на него чаще, если сайт ещё молод, то реже. В справке Яндекс об этом параметре написано подробней.

Ошибки при составлении robots.txt

Рассмотрим самые популярные ошибки, которые совершают пользователи при создании файла.

Ошибки

Правильно

Путаница в инструкциях

User-Agent: /

Disallow: Googlebot

User-Agent: Googlebot

Disallow: /

Несколько каталогов в одной строке Disallow

Disallow: /moda/ hat/ images

Disallow: /moda/

Disallow: /hat/

Disallow: /images/

Пустая строка в указании имени поискового робота

User-Agent:

Disallow:

User-Agent: *

Disallow:

Заглавные буквы

USER-AGENT: YANDEX

ALLOW:

User-Agent: Yandex

Allow:

Перечисление каждого файла в категории

User-Agent: Googlebot

Disallow: / moda/ krasnoe-palto.html

Disallow: /moda/ sinee-palto.html

Disallow: /moda/ zelenoe-palto.html

Disallow: /moda/ seroe-palto.html

Disallow: /price/ women.html

Disallow: /price/ men.html

User-Agent: Googlebot

Disallow: / moda/

Disallow: /price/

Не забывайте про знак слеш (/). Если его не будет, то робот запретит к индексации все файлы и категории с таким же названием. Например, если вы не укажете слеш в директиве: “Disallow: moda”, то из индекса выпадут все страницы, рубрики и категории, где встречается это название.

Правила написания robots.txt

  • Каждую команду надо писать с новой строки.
  • В одной строке — одна директива.
  • В начале строки не должно быть пробела.
  • Команды не берут в кавычки.
  • В конце директивы не ставится точка с запятой, запятая или точка.
  • Disallow: равнозначно Allow: / (всё разрешено).
  • Поисковые роботы чувствительны к регистру букв — прописывайте имена файлов и категорий точно так же, как они указаны на вашем сайте.
  • Если у вас нет robots.txt, это сигнал для поисковиков, что запрещений нет, индексировать можно всё.
  • В robots.txt используется только английский язык. Все другие языки игнорируются.

Как проверить robots.txt на правильность написания

Есть специальные сервисы, которые проверяют, правильно ли составлен разрешающий файл. Проверьте свой robots.txt на сайте Яндекс или в Гугл.

Автоматическое создание robots.txt

Если для вас сложно самостоятельно написать инструкцию для ботов, то создайте её автоматически. На сайте pr-cy файл будет сгенерирован за 10 секунд, просто укажите нужные вам параметры, потом скопируйте текст и вставьте его в поле для robots.txt на нашем сервисе.

Директивы — базовая информация

Директивы – это своеобразный свод правил поведения на страничках сайта для robots.txt. Считывая их, поисковый агент и понимает, какой контент можно использовать для индексации сайта, а какой нельзя.

Если директивы не прописать вовсе, поисковик скачает с вашего сайта всю информацию и проиндексирует. Последствием этих действий станет его медленная загрузка. Очевидно, что такие сайты меньше посещают пользователи и не помещают в вершинах выдачи поисковые системы.

Ниже перечислим разные типы директив, с пояснениями.

User-agent

Если перевести на простой язык, то «User-agent» — это призыв к некоему действию. После этого директива обычно прописывается наименование robots.txt, которому сообщается информация, а далее — уже сама информация. Иными словами,  User-agent — самая важная директива для robots.txt.

Вот так выглядят  директивы User-agent для разных поисковых машин:

  • User-agent: *; — для всех видов роботов.
  • User-agent: Yandex; — для роботов поисковика Яндекс.
  • User-agent: Googlebot. — для роботов поисковика Google.
  • User-agent: Mail.Ru. — для роботов Mail.ru
  • User-agent: Slurp – для роботов Yahoo!
  • User-agent: MSNBot – для роботов MSN
  • User-agent: StackRambler – для роботов Рамблера.

Disallow

Директива, запрещающая индексировать те или иные странички веб-сайта. Веб-мастера советуют прописывать ее для следующих типов страниц:

  • Корзине и всем сопутствующим оформлению заказа страничкам.
  • Поисковым формам.
  • Административной панели сайта.
  • Ajax, Json — эти скрипты выводят всплывающие формы для заполнения, рекламные баннеры и так далее.

Allow

Это директива, наоборот, открывает страничку сайта для чтения роботом.

Sitemap

Простыми словами — директива, отображающая карту вашего сайта. Сообщая роботу структуру вашего сайта, вы ускоряете его индексацию.

Host

Указывает поисковому роботу на зеркало вашего сайта, куда будут попадать пользователи.

Crawl-delay

Помогает снижать нагрузку на сервер, задавая минимальный временной интервал между обращениями к сервису.

Общие рекомендации любых директив:

  • Не прописывайте в одной строчке больше одной директивы.
  • Убирайте пробелы в начале строк.
  • Только полная директива без лишних символов будет работать.
  • Код файла robots.txt немыслим без Disallow.

Robots.txt напрямую влияет на индексацию сайта, поэтому обязательно установите свои правила для поисковых ботов. Успешного вам продвижения!

ТОП4 способа как создать Robots txt для WordPress

👍 Бесплатно научим правильно создавать сайты на WordPress. Подробнее →

Хотите, чтобы поисковые системы корректно индексировали страницы и разделы вашего блога? Отличное решение — сделать правильный файл Robots txt для WordPress. Разберемся как и что в нем прописать.

Для чего нужен Robots.txt?

Он предназначен для поисковых систем, их роботов и правильной индексации. Директивы файла указывают, какие разделы сайта нужно выдавать в поиске, а какие скрыть. Это позволяет нацелить поисковик на попадание нужного контента в выдаче. Например, если человек в Google введет «как отремонтировать холодильник», то ему нужно показать инструкцию по ремонту, а не страницу регистрации или информацию о сайте.

Результат поисковой выдачи после изменений robots.txt вы заметите не сразу. Может пройти от недели до нескольких месяцев. Правильно будет его создать уже во время разработки сайта.

Где лежит Robots?

Это обычный текстовый файл, который располагается в корневой папке сайта и доступен по адресу

https://site.com/robots.txt

По умолчанию Роботс не создается. Его нужно создавать вручную или использовать инструменты, которые делают это автоматически. Разберем их ниже.

Не могу найти этот файл

Если по указанной выше ссылке файл доступен онлайн, но в корне сайта его нет, то это означает, что он создан виртуально. Для поисковой системы нет разницы. Главное, чтобы его содержимое можно было получить по адресу https://site.com/robots.txt.

Из чего состоит robots.txt

Имеет 4 основных директивы:

  • User-agent — задает правила для поисковых роботов.
  • Disalow — запрещает доступ.
  • Allow — разрешает.
  • Sitemap — полный путь (URL-адрес) XML-карты.

Пример стандартного robots.txt для ВордПресс

Вариаций этого файла много. На каждом сайте он может отличаться.

Вот пример рабочего Роботс. Посмотрим что означает каждая его строка и для чего нужна.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /license.txt
Disallow: /readme.html
Disallow: /trackback/
Disallow: /comments/feed/
Disallow: /*?replytocom
Disallow: */feed
Disallow: */rss
Disallow: /author/
Disallow: /?
Disallow: /*?
Disallow: /?s=
Disallow: *&s=
Disallow: /search
Disallow: *?attachment_id=
Allow: /*.css
Allow: /*.js
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Sitemap: https://site.com/sitemap_index.xml

Первая строка говорит, что ссылки сайта могут обходить все поисковые роботы.

Строки с Disallow запрещают индексировать служебные папки и файлы, кэшированные страницы, страницы авторизации и регистрации, RSS (Feed), страницы авторов, поиска и вложений.

Директивы с Allow наоборот разрешают добавлять в индекс поисковиков скрипты, стили, файлы загрузок, тем и плагинов.

Последняя строка указывает на адрес карты XML.

По этому примеру вы можете составить свой Роботс, который будет «заточен» под ваш ресурс.

Идеального содержимого этого файла для всех сайтов не существует. Его всегда нужно формировать под конкретный ресурс.

Как создать правильный robots.txt для сайта

Есть несколько способов.

Вручную

Это можно сделать обычным ручным способом. Например, в Блокноте (если локальный сайт) или через FTP-клиент (на сервере хостинга).

Также это можно сделать с помощью ВП-плагинов. Разберем лучшие.

Clearfy Pro

Виртуальный файл поможет создать премиум-плагин Clearfy Pro, который имеет целый набор функций для SEO и оптимизации сайта.

  1. Установите и активируйте расширение.
  2. Откройте админ-раздел Clearfy Pro.
  3. Перейдите на вкладку SEO.
  4. Активируйте опцию Создать правильный robots.txt.
  5. Заполните содержимое директивами.
  6. Нажмите кнопку Сохранить изменения.

Всегда можно отредактировать содержимое Robots. Просто измените/дополните его нужным содержимым и сохраните изменения.

Активировать промокод на 15%

Yoast SEO

Этот мощный СЕО-модуль для WP также корректно решит задачу.

  1. Откройте SEO > Инструменты.
  2. Кликните по Редактор файлов.
  3. Если этого файла в корне сайта нет, нажмите Создать файл robots.txt.
  4. Если существует, то откроется редактор, в котором можно вносить правки.
  5. Если изменили Роботс, кликните по кнопке ниже.

All in One SEO Pack

В этом популярном для поисковой оптимизации решении тоже есть инструменты чтобы создать/отредактировать Robots.

  1. После активации перейдите All in One SEO > Модули.
  2. Из списка выберите одноименное название модуля и нажмите Activate.
  3. Откройте All in One SEO > Robots.txt.
  4. С помощью полей добавьте директивы.

Настройка для интернет-магазинов на основе WooCommerce

Для WordPress-ресурсов с использованием этого расширения есть свои директивы. Просто добавьте их к своим.

Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/

Создайте файл Robots.txt с помощью инструмента генератора Robots.txt

Что такое Robots.txt?

Robots.txt — это простой текстовый файл, который сообщает поисковым роботам, какой контент разрешено сканировать и индексировать для публики. Файл должен быть загружен в корневой каталог вашего веб-сайта (обычно «/ public_html /»). И поисковые системы будут проверять корневой каталог вашего сайта на наличие файла robots.txt. Обратитесь к нашей отдельной статье о robots.txt, чтобы узнать полную информацию о файле robots.txt.

Как использовать этот инструмент?

Вот бесплатный онлайн-инструмент для создания robots.txt, с помощью которого вы можете создать необходимые записи для вашего файла robots.txt.



Вот объяснение значений, которые вы можете указать в инструменте для создания записей robots.txt:

1. По умолчанию — все роботы

Выберите из раскрывающегося списка, что вы хотите разрешить или запретить всем роботам сканировать ваш сайт. Хорошие боты, такие как Google и Bing, следуют этой директиве, установленной в файле robots.txt, но плохие боты ей не следуют. Вы должны найти таких плохих роботов, заглянув в журнал вашего сервера и заблокировать их с помощью директивы .htaccess.

2. Задержка сканирования

Задержка сканирования — это время в секундах между сканированием поисковых роботов, которое используется для предотвращения замедления работы вашего сервера агрессивными ботами.

Большинству компаний, предоставляющих общий хостинг, требуется задержка сканирования не менее 10 секунд, чтобы защитить сервер от агрессивных ботов. Если у вас есть управляемый, VPS или выделенный сервер, выберите значение «По умолчанию — без задержки». Помните, что выбор значения «20 секунд» позволит всем поисковым роботам (которые следуют этой директиве) индексировать 4320 страниц в день. Это не должно быть проблемой для небольших сайтов, в то время как владельцы крупных сайтов могут оставить это поле по умолчанию.

3. Карта сайта

Подобно robots.txt, по умолчанию файл Sitemap.xml также должен быть доступен в корневом каталоге вашего сайта. Поисковые системы будут искать XML Sitemap в корневом каталоге и соответствующим образом сканировать контент. Если ваш Sitemap находится в корне сайта, оставьте это поле пустым.

Если у вас есть файл Sitemap, расположенный в другом каталоге, кроме корневого, введите полный URL-адрес XML Sitemap, чтобы сообщить сканерам поисковой системы, где находится ваш файл Sitemap.

Независимо от расположения XML-файла Sitemap, убедитесь, что вы отправили его в учетную запись инструментов для веб-мастеров Google, Bing, Yandex и Baidu. Вот руководство по отправке Sitemap для поисковых систем.

4. Поисковые роботы

Вы можете оставить это значение таким же, как в поле 1, выбрав «По умолчанию». Или выберите значение разрешения или запрета для отдельных роботов поисковых систем. Эта директива будет добавлена ​​к элементу управления по умолчанию, и за ней будут следовать только эти поисковые системы. Например, вы можете выбрать разрешить значение по умолчанию и запретить только для паука Baidu. Это позволит использовать все поисковые роботы, кроме Baidu.

Мы предоставили варианты для самых популярных поисковых систем, таких как Google, Bing / MSN, Yahoo !, Baidu, Yandex, Ask / Teoma и Alexa / Wayback. Вы можете обратиться к полному списку пользовательских агентов и выбрать дополнительных ботов для блокировки.

5. Каталоги с ограниченным доступом

Если вы хотите ограничить определенные каталоги, введите имя каталога с косой чертой в конце. Например, если вы хотите запретить использование каталога yoursite.com/admin/, введите в это поле «/ admin /». Инструмент позволит вам добавить до шести каталогов, но вы можете добавить больше прямо в файл robots.file перед загрузкой на сервер.

6. Создайте файл Robots.txt.

После выбора необходимых значений нажмите кнопку «Создать Robots.txt», чтобы создать записи файла Robots.txt в текстовом поле.

7. Очистить

Если вы допустили ошибку или хотите сбросить инструмент до начальных значений, нажмите кнопку «Очистить». Это удалит все сгенерированные записи из текстового поля.

8. Текстовое поле

Созданные записи для вашего файла robots.txt можно скопировать из этого текстового поля.

Примеры:

Ниже приведены некоторые примеры записей robots.txt, созданных с помощью этого инструмента:

ВыборВывод
По умолчанию: Разрешить
Поисковые роботы: Baidu — запретить
Пользовательский агент: baiduspider
Запретить: /
Пользовательский агент: *
Запретить:
По умолчанию: запретитьПользовательский агент: *
Запретить: /
По умолчанию: Разрешить

Задержка сканирования: 10 секунд

Карта сайта: http://www.example.com/sitemap-folder/sitemap.xml

Поисковые роботы: Google — запретить

Ограничить каталог: / admin /

Пользовательский агент: Googlebot
Запретить: /
Пользовательский агент: *
Запретить:
Задержка сканирования: 10
Запретить: / admin /
Карта сайта: http://www.example.com/sitemap-folder/sitemap.xml

Как загрузить файл Robots.txt?

Сначала скопируйте все записи, созданные инструментом генератора robots.txt. Откройте текстовый редактор, например Блокнот / TextEdit, и вставьте содержимое. Сохраните файл в формате «UTF-8» с именем «robots.txt».

Загрузите файл robots.txt в корневой каталог вашего сайта с помощью FTP или диспетчера файлов, доступных в панели управления вашей учетной записи хостинга.

Как проверить файл?

После того, как вы загрузили файл robots.txt, он должен быть доступен через веб-браузер, как обычная веб-страница. Откройте свой любимый браузер и введите URL-адрес, например «yoursite.com/robots.txt», и вы должны увидеть файл, показанный ниже.

Отображение текстового файла роботов в браузере

Мгновенно создавайте собственный файл robots.txt!

Обзор нашего онлайн-генератора Robots.txt

Наш генератор Robots.txt разработан, чтобы помочь веб-мастерам, специалистам по поисковой оптимизации и маркетологам создавать файлы robots.txt без особых технических знаний. Однако будьте осторожны, поскольку создание файла robots.txt может существенно повлиять на возможность доступа Google к вашему веб-сайту, независимо от того, создан ли он на WordPress или другой CMS.

Хотя наш инструмент прост в использовании, мы рекомендуем вам ознакомиться с инструкциями Google перед его использованием.Это связано с тем, что неправильная реализация может привести к тому, что поисковые системы, такие как Google, не смогут сканировать важные страницы вашего сайта или даже всего вашего домена, что может очень негативно повлиять на ваше SEO.

Давайте углубимся в некоторые функции, которые предоставляет наш онлайн-генератор Robots.txt.

Как создать файл robots.txt

Как создать свой первый файл robots.txt?

Первый вариант, который вам будет предложен, — разрешить или запретить всем поисковым роботам доступ к вашему сайту.Это меню позволяет вам решить, нужно ли сканировать ваш сайт; однако могут быть причины, по которым вы можете отказаться от индексации своего веб-сайта в Google.

Второй вариант, который вы увидите, — добавлять ли файл карты сайта xml. Просто введите его местоположение в это поле. (Если вам нужно создать карту сайта в формате XML, вы можете использовать наш бесплатный инструмент.)

Наконец, вам предоставляется возможность заблокировать определенные страницы или каталоги от индексации поисковыми системами. Обычно это делается для страниц, которые не предоставляют никакой полезной информации для Google и пользователей, например страниц входа, корзины и параметров.

Когда это будет сделано, вы можете скачать текстовый файл.

После создания файла robots.txt обязательно загрузите его в корневой каталог своего домена. Например, ваш файл robots.txt должен появиться по адресу: www.yourdomain.com/robots.txt

Полезно? Мы надеемся на это!

Создайте свой первый файл robots.txt с помощью нашего инструмента и сообщите нам, как он работает для вас.

Что такое файл Robots.txt?

Файл robots.txt — это действительно простой файл в текстовом формате.Его основная функция — предотвращать сканирование и индексацию контента на веб-сайте определенными сканерами поисковых систем, такими как Google, в целях SEO.

Если вы не уверены, есть ли на вашем веб-сайте или на веб-сайте вашего клиента файл robots.txt, это легко проверить:

Просто введите yourdomain.com/robots.txt. Вы найдете либо страницу с ошибкой, либо страницу простого формата. Если вы используете WordPress и у вас установлен Yoast, то Yoast также может создать для вас текстовый файл.

Подробнее о роботах.txt Файлы

Некоторые расширенные фразы, которые вы можете найти в своем файле robots.txt, включают:

User-agent:

Поскольку каждая поисковая система имеет свой собственный сканер (наиболее распространенным является Googlebot), ‘user-agent’ позволяет вам чтобы уведомить определенные поисковые системы о том, что для них предназначен следующий набор инструкций.

Обычно после слова «user-agent» следует *, также известный как подстановочный знак. Это означает, что все поисковые системы должны принять к сведению следующий набор инструкций.Обычно после подстановочного знака есть фраза по умолчанию, которая говорит всем поисковым системам не индексировать какие-либо веб-страницы на вашем сайте.

Фраза по умолчанию — запретить индексирование символа «/», что, по сути, запрещает роботам доступ ко всем внутренним страницам, кроме вашего основного URL. Очень важно проверить эту фразу и немедленно удалить ее со страницы robots.txt.

Это будет выглядеть примерно так:

User-agent: *
Disallow: /

Disallow:

Термин «Disallow», за которым следует URL любого вида, дает строгие инструкции для вышеупомянутого пользователя. -agent, который должен появиться в строке выше.

Например, вы можете заблокировать определенные страницы от поисковых систем, которые, по вашему мнению, бесполезны для пользователей. Обычно к ним относятся страницы входа в систему WordPress или страницы корзины, поэтому в файлах robots.txt на сайтах WordPress вы обычно видите следующие строки текста:

User-agent: *
Disallow: / wp-admin /

XML Sitemap:

Другая фраза, которую вы можете увидеть, — это ссылка на расположение вашего XML-файла карты сайта. Обычно это последняя строка вашего файла robots.txt, и он указывает поисковым системам, где находится ваша карта сайта. Включение этого упрощает сканирование и индексацию.

Вы можете оптимизировать свой собственный веб-сайт, введя следующую простую функцию:

Sitemap: yourdomain.com/sitemap.xml (или точный URL-адрес вашего xml-файла карты сайта).

10 лучших инструментов для создания Robots.txt

Когда дело доходит до вашего веб-сайта, важно приложить максимум усилий (цифровой). Это может означать, что некоторые страницы будут скрыты от робота Googlebot при сканировании вашего сайта.К счастью, файлы robots.txt позволяют вам это делать.

Ниже мы обсудим важность файлов robots.txt и то, как просто создать robots.txt с помощью бесплатных инструментов.

Что такое файл Robots.txt?

Прежде чем мы перейдем к очень полезным (не говоря уже о бесплатном !) Инструментах генератора robots.txt, которые вы должны проверить, давайте поговорим о том, что на самом деле представляет собой файл robots.txt и почему он важен.

На вашем веб-сайте могут быть страницы, сканирование которых вам не нужно или которые нужно сканировать роботом Googlebot.Файл robots.txt сообщает Google, какие страницы и файлы сканировать, а какие пропускать на вашем сайте. Думайте об этом как об инструкции для робота Google, чтобы сэкономить время.

Вот как это работает.

Робот хочет просканировать URL-адрес веб-сайта, например http://www.coolwebsite.com/welcome.html. Сначала он сканирует http://www.coolwebsite.com/robots.txt и находит:

Раздел запрета сообщает Google (или указанному роботу другой поисковой системы) пропустить сканирование определенных элементов или страниц веб-сайта.

Хотите узнать больше? Прочтите наше полезное руководство по Robots.txt.

Вот несколько примеров файлов robots.txt некоторых популярных сайтов:

Яблоко

Файлы robots.txt от Apple включают в себя ряд страниц, посвященных его розничным и мобильным покупкам.

Старбакс

В этом примере Starbucks реализовал задержку сканирования. Это показывает, сколько секунд робот должен подождать, прежде чем сканировать страницу.Вы можете настроить скорость сканирования через Google Search Console, но часто в этом нет необходимости.

Дисней Плюс

Когда бот приземляется на веб-сайте Disney Plus, он не будет сканировать ни одну из этих страниц счетов, учетных записей или настроек. Сообщение о запрете дает понять, что бот должен пропускать эти URL-адреса.

Теперь, когда вы знаете, что такое файл robots.txt, давайте поговорим о том, почему он важен.

Почему важен файл Robots.txt?

А роботов.txt служит многим целям SEO. Во-первых, это быстро и четко помогает Google понять, какие страницы вашего сайта более важны, а какие менее важны.

Файлы

Robots.txt можно использовать, чтобы скрыть такие элементы веб-сайта, как аудиофайлы, от появления в результатах поиска. Обратите внимание: не следует использовать файл robots.txt для скрытия страниц от Google, но его можно использовать для управления трафиком сканера.

В руководстве по бюджету сканирования Google четко указано, что вы не хотите, чтобы ваш сервер был:

  1. перегружено поисковым роботом Google или
  2. тратят краулинговый бюджет на сканирование неважных или похожих страниц вашего сайта.

Как создать файл robots.txt? Рад, что ты спросил.

Как создать файл Robots.txt

Существует очень специфический способ форматирования файлов robots.txt для Google. Любой веб-сайт может иметь только один файл robots.txt. Первое, что нужно знать, это то, что файл robots.txt необходимо разместить в корне вашего домена.

См. В Центре поиска Google конкретные инструкции по созданию файлов robots.txt вручную. Мы упростим вам задачу, предоставив 10 лучших роботов.txt вы можете использовать бесплатно !

10 бесплатных инструментов для создания Robots.txt

В произвольном порядке, давайте начнем с бесплатных генераторов!

1. SEO Optimer

Инструмент

Seo Optimer предлагает чистый интерфейс для бесплатного создания файла robots.txt. Вы можете установить период задержки сканирования и указать, каким ботам разрешено или запрещено сканировать ваш сайт.

2. Ryte

В бесплатном генераторе

Ryte есть три варианта создания роботов.txt: разрешить все, все запретить и настроить. Параметр настройки позволяет указать, на каких ботов вы хотите повлиять, и включает пошаговые инструкции.

3. Лучше Robots.txt (WordPress)

Плагин WordPress Better Robots.txt помогает улучшить SEO и загрузку вашего сайта. Он поддерживается на 7 языках и может защитить ваши данные и контент от плохих ботов. Загрузите этот замечательный плагин для своего сайта WordPress!

4. Виртуальные роботы.txt (WordPress)

Плагин WordPress Virtual Robots.txt — это автоматическое решение для создания файла robots.txt для вашего веб-сайта WordPress. По умолчанию плагин блокирует некоторые части вашего веб-сайта и разрешает доступ к тем частям, к которым нужны хорошие боты WordPress.

5. Небольшие инструменты SEO

Бесплатный генератор

Small SEO Tools — еще один простой инструмент, который можно использовать для создания файла robot.txt. Он использует раскрывающиеся панели для настройки каждого отдельного бота.Вы можете выбрать разрешено или отклонено для каждого бота.

6. Веб-узлы

Инструмент генератора robots.txt

Web Nots похож на генератор Small SEO Tools из-за его упрощенного дизайна. Он также использует раскрывающиеся списки и имеет раздел для ограниченных каталогов. Когда закончите, вы можете скачать файл robots.txt.

7. Отчеты поисковых систем

В генераторе отчетов по поисковой системе

есть разделы для удаления карты вашего сайта и любых закрытых каталогов.Этот бесплатный инструмент — отличный вариант для простого создания файла robots.txt.

8. Инструменты SEO

Бесплатный генератор SEO Tools — это простое и быстрое решение для создания файла robots.txt для вашего веб-сайта. Вы можете установить задержку сканирования, если хотите, и введите карту своего сайта. Когда закончите выбирать нужные параметры, нажмите «Создать и сохранить как Robots.txt».

9. SEO для проверки

Генератор robot.txt

SEO To Checker — еще один отличный инструмент для создания файла robots.txt файл. Вы можете добавить карту своего сайта и обновить настройки для всех поисковых роботов.

10. Тестер Robots.txt Google Search Console

В

Google Search Console есть отличный тестер robots.txt, который можно использовать после создания файла robots.txt. Отправьте свой URL-адрес в инструмент тестирования, чтобы проверить, правильно ли он отформатирован, чтобы заблокировать роботу Googlebot определенные элементы, которые вы хотите скрыть.

Повысьте уровень своего веб-сайта с помощью технических советов от маркетологов!

Приведенные выше инструменты предлагают простые и быстрые способы создания файла robots.txt файл. Но здоровый, хорошо работающий сайт выходит за рамки robots.txt. Чтобы ваш веб-сайт был на виду, необходимо улучшить техническое SEO.

От оценки и повышения скорости сайта до обеспечения правильного индексирования — существует множество способов оптимизации вашего сайта. Markitors здесь, чтобы помочь вашему малому бизнесу с техническим SEO. Запишитесь на консультацию сегодня!

Генератор Robots.txt для WordPress | Лучший генератор robots.txt

Генератор Robots.txt


Обеспокоены своим онлайн-контентом, который не должен индексироваться поисковой системой, будучи индексированным в поисковых системах? Что ж, роботов.txt generator — удобный инструмент, который впечатляет, если поисковые системы посещают и индексируют ваш сайт. Но в некоторых случаях в поисковой системе индексируются неверные данные, которые вы не хотите, чтобы люди видели.

Предположим, вы создали специальные данные для людей, которые подписались на ваш сайт, но из-за некоторых ошибок эти данные доступны и для обычных людей. А иногда ваши конфиденциальные данные, которые вы не хотите никому показывать, становятся видимыми для многих.Чтобы решить эту проблему, вы должны сообщить веб-сайтам о некоторых конкретных файлах и папках, которые необходимо сохранить в безопасности, с помощью метатега. Но большинство поисковых систем не считывают все метатеги, поэтому, чтобы быть вдвойне уверенным, вы должны использовать файл robots.txt.

Robots.txt — это текстовый файл, который сообщает поисковым роботам, какие страницы должны оставаться конфиденциальными и не просматриваться другими людьми. Это текстовый файл, поэтому не сравнивайте его с html. Robots.txt иногда неправильно понимают как брандмауэр или любую другую функцию защиты паролем.Robots.txt гарантирует, что необходимые данные, которые владелец веб-сайта хочет сохранить в тайне, хранятся в тайне. Один из часто задаваемых вопросов относительно файла robots.txt: как создать файл robots.txt для SEO ? В этой статье мы ответим вам на этот вопрос.

Пример файла Robots.txt или базовый формат:

Robots.txt имеет правильный формат, о котором следует помнить. Если допущена ошибка в формате, поисковые роботы не будут выполнять никаких задач.Ниже представлен формат файла robots.txt:

User-agent: [имя user-agent]

Disallow: [строка URL-адреса, которую нельзя сканировать]

Только учтите, что файл должен быть в текстовом формате.

Генератор Robots.txt что это такое и как пользоваться?

Пользовательский генератор robots.txt для blogger — это инструмент, который помогает веб-мастерам защищать конфиденциальные данные своих веб-сайтов для индексации в поисковых системах.Другими словами, это помогает в создании файла robots.txt. Это упростило жизнь владельцам веб-сайтов, поскольку им не нужно создавать весь файл robots.txt самостоятельно. Они могут легко создать файл, выполнив следующие шаги:

  • Сначала выберите, хотите ли вы запретить всем роботам или некоторым роботам доступ к вашим файлам.
  • Во-вторых, выберите требуемую задержку сканирования. Вы можете выбрать от 5 до 120 секунд.
  • Вставьте карту сайта в генератор, если он у вас есть.
  • Выберите, какой бот вы хотите сканировать и какой бот не хотите сканировать на вашем сайте.
  • Наконец, ограничьте каталоги. Путь должен содержать косую черту «/».

С помощью этих простых шагов вы можете легко создать файл robots.txt для своего веб-сайта.

Как оптимизировать файл Robots.txt для лучшего SEO?

Если у вас уже есть файл robots.txt, то для обеспечения надлежащей безопасности ваших файлов вам необходимо создать оптимизированный файл robots.txt без ошибок. Следует внимательно изучить файл Robots.txt. Чтобы файл robots.txt был оптимизирован для поисковых систем, вы должны четко решить, что должно быть с тегом allow, а что — с тегом disallow. Папка изображений, папка содержимого и т. Д. Должны иметь тег Allow, если вы хотите, чтобы ваши данные были доступны поисковым системам и другим людям. А для тега Disallow должны быть такие папки, как, Дубликаты веб-страниц, Дублированный контент, повторяющиеся папки, архивные папки и т. Д.

Как использовать генератор файлов robots.txt для WordPress?

Хотя создавать файл Robots.txt в WordPress не требуется. Но для достижения более высокого SEO вам необходимо создать файл robots.txt, чтобы поддерживать стандарты. Вы можете легко создать файл robots.txt WordPress, чтобы запретить поисковым системам доступ к некоторым вашим данным, выполнив следующие действия:

  1. Сначала войдите в панель управления хостингом, например Cloudways. Cloudways — это роботы.txt генератор WordPress.
  2. После входа в панель управления выберите вкладку « Servers », расположенную в правом верхнем углу экрана.
  3. После этого откройте « FileZilla », приложение FTP-сервера, используемое для доступа к документу WordPress. После этого подключите FileZilla к серверу, используя «Основные учетные данные».
  4. После подключения к серверу перейдите на вкладку « Applications ».
  5. Вернитесь в Cloudways и в верхнем левом углу перейдите на вкладку « Applications ».
  6. Выберите WordPress из приложений.
  7. После входа в панель WordPress выберите « Файловый менеджер » на левой вкладке.

  1. После этого вернитесь в FileZilla и выполните поиск « / applications / [Имя вашей папки] / public_html ».

  1. Создайте новый текстовый файл и назовите его « Robots.txt ».

  1. После этого откройте этот файл в любом инструменте для набора текста, например, в Блокноте, Блокноте ++ и т. Д.Поскольку Блокнот встроен, вы можете его использовать.
  2. Ниже приведен пример создания файла robots.txt для Cloudways:

Пользовательский агент: *

Запретить: / admin /

Запретить: / admin / *? *

Запретить: / admin / *?

Запретить: / blog / *? *

Запретить: / blog / *?

Если у вас есть карта сайта, добавьте ее URL как:

«карта сайта: http: // www.yoursite.com/sitemap.xml ”

Как включить Robots.txt на панели инструментов Blogger?

Так как в системе blogger есть файл robots.txt, вам не нужно так много беспокоиться об этом. Но некоторых его функций недостаточно. Для этого вы можете легко изменить файл robots.txt в blogger в соответствии со своими потребностями, выполнив следующие шаги:

  1. Сначала посетите свой блог блоггера.
  2. После этого перейдите в настройки и нажмите « настройки поиска ».
  3. На вкладке «Параметры поиска» щелкните «Поисковые роботы и индексирование ».

4. Затем перейдите на вкладку « Custom robots.txt » и нажмите «Изменить», а затем «Да».

5. После этого вставьте туда ваш файл Robots.txt, чтобы добавить в блог дополнительные ограничения. Вы также можете использовать собственный генератор блоггеров robots.txt.

6. Затем сохраните настройку, и все готово.

Роботы.txt для blogger :

Ниже приведены некоторые шаблоны robots.txt:

  1. Разрешить все:

Пользовательский агент: *

Запрещено:

ИЛИ

Пользовательский агент: *

Разрешить: /

  1. Запретить все:

Пользовательский агент: *

Запрещено: /

  1. Запретить определенную папку:

Пользовательский агент: *

Запретить: / folder /

Как создать роботов.txt с помощью SEO-лупы?

За использованием инструмента для создания файлов роботов с лупой SEO нет ничего страшного. Просто выполните следующие действия для создания файла.

  • Выберите из опции « разрешить все » или « заблокировать все » роботов.

  • Выберите « время задержки сканирования ».

  • Введите адрес вашего веб-сайта « sitemap «, например https: // yoursite.ru / sitemap.xml

  • Выберите ваших любимых роботов поисковых систем, которым вы хотите « разрешить » или « block » отдельно.

  • Добавьте любой каталог, который вы хотите ограничить, например / admin, / uploads и т. Д.

  • После добавления всей информации просто нажмите « создать robots.txt » или « создать и сохранить как robots.txt », и вы это сделали, и они просто загрузят этот файл в «корневой каталог веб-сайта ».

Пользовательский генератор Robots.txt для Blogger & WordPress

Генератор Robots.txt Пользовательский агент: * Запретить: / поиск / Запретить: / блог / страница / Разрешать: / Карта сайта: Пользовательский агент: * Запретить: / поиск / Запретить: / блог / страница / Разрешать: / Карта сайта: Пользовательский агент: * Разрешить: / wp-content / uploads / Разрешить: /wp-admin/admin-ajax.php Запретить: / wp-content / plugins / Запретить: / wp-admin / Запретить: / блог / страница / Запретить: / поиск / Карта сайта:

Создание или добавление роботов.txt в Blogger
  1. Выберите платформу Blogger в верхней части инструмента генератора Robots.txt.
  1. Затем введите URL своего веб-сайта с « https: // » в поле ввода.

Убедитесь, что вы используете URL-адрес, который отображается на вашем веб-сайте. Например, если на вашем веб-сайте используется «www», убедитесь, что вы его вводите, «https://www.yourwebsite.com», на мои деньги я не использую, использует «www».

  1. Нажмите кнопку «Создать» и подождите, пока инструмент сгенерирует файл для вашего веб-сайта.
  1. Получив файл, « Скопируйте» его и вернитесь в свой Blogger .

1 ходовой
  • Затем перейдите к настройкам >> Параметры поиска >> Сканеры и индексирование >> Пользовательский файл Robots.txt >> Правка «Вставьте сгенерированный файл Robots.txt в поле» >> Нажмите ‘ Да »и сохраните все настройки.
  • Теперь ваш файл успешно загружен на ваш веб-сайт, вы можете увидеть их, только добавив « / robots.txt ‘в конце URL вашего веб-сайта.
  • отл. https://pawanblogs.com/robots.txt

2-ходовой
  • Перейдите на страницы, создайте новую, установите URL «/robots.txt» и вставьте скопированный файл robots.txt в html.
  • Onec вы сделали, щелкните по общедоступному, и теперь вы можете просмотреть robots.txt своего веб-сайта в разделе «https: //yourwebsite/robots.txt».

Создать или добавить файл Robots.txt в WordPress
  1. Выберите платформу WordPress Platform из верхней части Robots.txt генератор.
  1. Затем введите URL своего веб-сайта с « https: // » в поле ввода.

Убедитесь, что вы используете URL-адрес, который отображается на вашем веб-сайте. Например, если на вашем веб-сайте используется «www», убедитесь, что вы его вводите, «https://www.yourwebsite.com», на мои деньги я не использую, использует «www».

  1. Нажмите кнопку «Создать» и подождите, пока инструмент сгенерирует файл для вашего веб-сайта.
  1. Получив файл, « Скопируйте» его и вернитесь в свой WordPress .

1-ходовой
  • В WordPress нам понадобится « Yoast SEO » для добавления файла Robots.txt. если вы еще не установили их сейчас.
  • Посетите « Yoast Seo Tools », а затем перейдите в « файловый редактор ».
  • Теперь отредактируйте файл robots.txt, вставьте сюда сгенерированный код и нажмите « сохранить изменения в robots.txt ».

Теперь ваш файл успешно загружен на ваш веб-сайт, вы можете увидеть их, только добавив « / robots.txt ‘в конце URL вашего веб-сайта.
отл. https://pawanblogs.com/robots.txt

2-ходовой

Вместо этого, если у вас нет доступа к yoast или другому инструменту поисковой оптимизации, вы можете использовать другой метод, при котором вы напрямую помещаете файл robots.txt в свой public_html в cpanel.

  • Для этого сначала перейдите на панель cpanel , затем зайдите в файловый менеджер.
  • Как только вы войдете, откройте папку public_html , здесь вы должны добавить или создать файл , имя или robots.текст.
  • После этого поместите скопированный код в недавно созданный файл robots.txt и сохраните его.

Теперь файл robots.txt успешно добавлен в ваш doamin.

Файл Robots.txt

Если я скажу просто, файл robots.txt разрешит или запретит поисковым роботам или сканерам, которые вы хотите проиндексировать или показывать в поисковых системах, таких как google, bing и yahoo.

Файл robots.txt

— это корень любого веб-сервера, где вы можете определить правила для поисковых роботов, например разрешить или запретить сканирование определенных ресурсов.Веб-сканеры следят за ними и сканируют то, что вы хотите.

Поисковые боты . Поисковые системы — это, по большей части, объекты, которые полагаются на автоматизированных программных агентов , называемых пауками, сканерами, роботами и ботами. Эти боты ищут контент в Интернете и на отдельных веб-страницах. Эти инструменты являются ключевыми элементами работы поисковых систем.

У каждой поисковой системы есть собственный бот для сканирования данных. например, у Google есть Google bot , у Bing есть Bing bot , Yahoo ‘Slurp bot’, у DuckDuckGo есть ‘DuckDuckbot’, Baidu ‘Baiduspider’, Yandex ‘Yandex Bot’, Sogou ‘Sogou Spider’, Exalead ‘Exabot’, Facebook «Внешний хит Facebook» и Alexa «Сканер Alexa».

Это некоторые из популярных поисковых систем и их боты, краулеры и пауки.

Агент пользователя:

User-agent: Здесь будут указаны боты поисковых систем, сканеры, пауки или другие автоматизированные клиенты, которые сканируют ваши страницы, PST, изображения, видео и другие материалы веб-сайтов.

, например, User-agent: * , если вы используете это, это будут общие правила, которые применяются ко всем ботам поисковых систем, или вы также можете добавить конкретное правило для любого конкретного бота.

Например:

User-agent: Googlebot
Disallow: /no-index/your-page.html

Здесь мы устанавливаем правило для робота Googlebot, которое вы можете установить для других или других пользователей.

Запрещено:

Disallow: будет использоваться, чтобы запретить то, что вы не хотите индексировать, вы можете установить для определенной страницы или элементов, а также установить для всего пути или корня.

Если вы используете только этот /, он определяет или указывает на весь корень домена.

, например: Disallow: /
Это запретит поисковому роботу сканировать или индексировать весь путь к домену.

Это только для вашего пояснения, по поводу тега файла robots.txt не используйте эти теги, не зная о них все.

Disallow: / search /
Здесь мы запрещаем ботам сканировать поиск вашего сайта, который выполняет ваш посетитель.

Например, вы можете добавить тег запрета, чтобы скрыть то, что вы не хотите показывать в Google или других поисковых системах.

Разрешить:

Разрешить: это будет использоваться, чтобы Разрешить то, что вы хотите проиндексировать, вы можете установить для определенной страницы или вещей, а также установить для всего пути или корня.

Разрешить: /
Это позволит искателю сканировать или индексировать весь путь к домену.

Разрешить: / search /
здесь мы разрешаем ботам сканировать поиск вашего веб-сайта, который выполняет ваш посетитель.

Таким образом, вы можете добавить тег allow для индексации того, что вы хотите показывать в Google или других поисковых системах.

Карта сайта:

Карта сайта — это файл, в котором мы предоставляем информацию о публикации, изображениях, видео или другом контенте сайта, он помогает сканерам узнать, что мы хотим проиндексировать, в противном случае, если вы не используете его, сканер просканирует все корни доменов, а затем проиндексируйте их как разрешающие или запрещающие теги.

Это занимает много времени и тоже создает ошибки, если его игнорировать.

Вот несколько примеров карты сайта:

 Карта сайта: https://pawanblogs.com/sitemap.xml
Карта сайта: https://pawanblogs.com/post-sitemap.xml
Карта сайта: https://pawanblogs.com/sitemap_index.xml
Карта сайта: https://pawanblogs.com/page-sitemap.xml 

Он определит по Sitemap: , а затем вы можете поместить карту сайта своего веб-сайта в файл robots.txt.

Этот инструмент работает на основе JavaScript, js изменяет здесь значение, берет значение из поля ввода «где вы вводите URL своего веб-сайта» и помещает их в базовую структуру Robots.txt и создает файлы robots.txt для ваших веб-сайтов Blogger или WordPress.

Вы можете изменить файл по своему усмотрению. Прежде чем добавить его на свой веб-сайт, robots.txt потребуется время, чтобы появиться или заработать, поэтому не меняйте их все чаще и чаще, возможно, это приведет к ошибке.

Исходный код сейчас не является общедоступным, поэтому, если хотите, напишите мне в моем Instagram.

Как создать txt-файл robots для вашего блога или веб-сайта

В этом руководстве будет рассказано , как создать файл robots.txt для вашего блога WordPress, веб-сайта, сайта drupal или статического HTML-сайта.

Что такое файл robots.txt? Файл robots.txt — это текстовый файл, который вы можете разместить на своем веб-сайте, чтобы указать роботам, где сканировать или, что более важно, где не сканировать. Это важно, потому что, если вы не хотите, чтобы все страницы и файлы на вашем сайте отображались в Интернете в результатах поиска, вам нужно научиться создавать файл robots.txt.

Кроме того, некоторые гуру SEO утверждают, что наличие файла robots.txt может привлечь пауков и повысить позицию вашей поисковой системы.

Итак, как работает файл robots.txt и как его создать на своем веб-сайте? Ну, robots.txt — это простой файл (в основном созданный с помощью блокнота), который включает в себя набор инструкций для поисковых систем.

Как создать файл Robots.txt

Эти инструкции могут сообщить паукам, какие страницы им разрешено сканировать для индексации, а какие — не сканировать. Вы также можете давать конкретные инструкции для определенных поисковых систем и включать различные команды.

Ниже приведен пример часто используемых инструкций:

Чтобы разрешить всем паукам поисковых систем сканировать ваш сайт и индексировать все ВСЕ файлы, используйте эту команду:

Агент пользователя: * Disallow:

Приведенная выше команда означает, что все пауки могут сканировать ваш сайт и могут включать все файлы в свой индекс. Знак * означает «внимание ВСЕМ паукам», а оставление поля «Запретить» пустым означает, что вы сообщаете им, что они могут сканировать все файлы.

Чтобы проинструктировать ВСЕХ пауков поисковых систем держаться подальше от определенных файлов (например, вашей папки / images /, вы должны просто использовать следующую команду:

Агент пользователя: * Disallow: / images /

Это указывает ВСЕМ роботам, которые посещают ваш сайт, не «сканировать» и не включать все файлы в вашу папку / images / для включения.

Если вы хотите добавить больше папок, просто продолжайте добавлять больше команд Disallow:

Агент пользователя: * Disallow: / images / Disallow: / PDF /

Создание файла Robots.txt с помощью блокнота

Чтобы загрузить файл создания и загрузки роботов на свой сайт, откройте Блокнот Windows. Затем введите команду в Блокноте, которую вы хотите проинструктировать для роботов (используйте пример выше).

Затем сохраните документ как «robots» и убедитесь, что он имеет расширение.txt расширение файла Теперь перейдите на свой веб-сайт и импортируйте (или «загрузите») файл. Затем опубликуйте свой сайт. После публикации веб-сайта должен появиться файл robots.txt. Чтобы проверить, просто введите www.YOURSITE.com/robots.txt и посмотрите, появится ли он. Если это так, то это должно работать, и это не позволит роботам просматривать ваши файлы / папки, которые вы не хотите видеть.

Это отличный способ уберечь секретные файлы, электронные книги, личные документы, файлы PDF и т. Д. От индексации и размещения в поисковых системах.

Создание метатега роботов

Файлы

Robot.txt — отличный способ запретить поисковым системам просматривать целые файлы или папки, но как насчет того, чтобы держать их подальше от отдельных веб-страниц?

Решение состоит в том, чтобы использовать специальный метатег HTML, который предотвратит появление вашей веб-страницы в поисковых системах (таких как Google, Yahoo и т. Д.).

Чтобы использовать метатег HTML для предотвращения индексации вашей страницы, просто введите указанный ниже тег в свой HTML-код между тегами.

Это позволит вам предотвратить включение отдельных страниц в каталоги поисковых систем.

Редактирование файла robots.txt — Lightspeed eCommerce

Клиенты посещают ваш магазин eCom с помощью поисковой системы, такой как Google Search. Они выбирают ссылку вашего магазина из результатов поиска. Чтобы предоставить результаты, поисковые системы собирают информацию о вашем магазине eCom с помощью веб-сканеров.Ваш файл robots.txt управляет поисковыми роботами.

Редактировать файл Robots.txt не требуется. Разрешить индексирование всех страниц и со всех поисковых систем — это нормально. Редактируйте файл robots.txt только в том случае, если у вас есть опыт работы с поисковой оптимизацией. С его помощью вы можете:

  • Запретить поисковым системам индексировать ваш сайт. Например, при создании магазина eCom у вас может быть незавершенный контент, который не следует индексировать.
  • Запретить индексирование определенных страниц в вашем магазине eCom.Например, страницы, которые вы не хотите индексировать.
  • Заблокируйте индексирование вашего сайта определенными поисковыми системами. Например, если Китай находится за пределами вашего целевого рынка, вы можете заблокировать китайские поисковые системы от индексации вашего сайта.

Чтобы просмотреть текущий файл robots.txt, перейдите по адресу yourdomain.com/robots.txt. По умолчанию Lightspeed eCom предоставляет вашу карту сайта поисковым системам и блокирует:

  • Экран входа в бэк-офис — / admin
  • Страница корзины — / корзина
  • Сравнить страницы — / сравнить
  • Касса — / Касса

Измените своих роботов.txt в Lightspeed eCom:

  1. В левом меню Back Office нажмите Settings , а в Website Settings нажмите Web Extras .
  2. В разделе ROBOTS.TXT включите переключатель с надписью Status .
  3. Введите свой файл robots.txt в поле Robot .

Основной формат robots.txt:

 User-agent: [Название веб-сканера поисковой системы]
Запретить: [веб-адрес, который нельзя сканировать] 

Агент пользователя идентифицирует поискового робота.Например:

  • User-agent: Googlebot — Google Search
  • Пользовательский агент: Bingbot — Microsoft Bing и Yahoo
  • Агент пользователя: Baiduspider — Baidu, ведущая китайская поисковая система
  • User-agent: * — Нацелен на всех поисковых роботов.

Disallow указывает страницу, которую вы хотите заблокировать. Введите расположение файла вместо полного веб-адреса. Например:

  • Disallow: / Womens-apparel — Запрещает индексацию любого контента в yourdomain.com / Womens-apparel и любые дополнительные страницы.
  • Disallow: / Womens-apparel / — запрещает только контент в вашем domain.com/Womens-apparel . Все подстраницы по-прежнему будут проиндексированы.
  • Disallow: / — запрещает индексирование всех страниц.
  • Disallow: — разрешает индексацию для всех страниц.

Для получения дополнительной информации о файле robots.txt перейдите на страницу поддержки Google

Устранение неполадок и поддержка роботов.txt

  1. Внимательно проверьте свой код на наличие косой черты / символов.
  2. Убедитесь, что в файле robots.txt нет пробелов.
  3. Используйте robots.txt Tester в консоли поиска Google для проверки предупреждений или ошибок.

Для получения дополнительной информации по:

  • Настройка Google Search Console, прочтите нашу справочную статью здесь.
  • Чтобы получить доступ к тестеру robots.txt Google, прочтите справочную статью Google здесь.

Наша служба поддержки готова помочь вам с вашим магазином eCom.Редактирование robots.txt вашей темы может вызвать проблемы с рейтингом вашей поисковой системы. В этом случае наша команда поддержки может не обладать знаниями в области SEO, необходимыми для непосредственного решения проблемы в вашем файле robots.txt. В этих случаях они могут порекомендовать:

  • Обращение к стороннему специалисту по SEO для решения проблемы.
  • Удаление изменений в поле robots.txt для восстановления настроек по умолчанию.

Задержка сканирования 2

При просмотре ошибок в консоли поиска Google не обращайте внимания на уведомление Crawl-delay 2 .Это несерьезно и не влияет на работу вашего интернет-магазина. Crawl-Delay вовлекает роботов Google, посещающих интернет-магазины, и предотвращает перегрузку сервера, которая может вызвать задержку работы вашего интернет-магазина.

Онлайн-инструмент для создания и проверки Robots.txt

Создайте файл robots.txt мгновенно, просто заполнив форму ниже. Просто введите свою информацию в форму ниже и нажмите кнопку «Create Robots.txt» , чтобы сгенерировать собственный текст робота. Нажмите «Создать и сохранить как роботов».txt «, чтобы создать файл robots.txt.

Создавайте эффективные файлы robots.txt для своего веб-сайта. Это поможет Google и другим поисковым системам правильно сканировать и индексировать ваш сайт. Чтобы узнать больше о Генераторе Robots.txt , прочтите статью полностью.

Генератор Robots.txt — полезный инструмент для веб-мастеров, позволяющий создавать сайты, удобные для роботов Google. Это необходимый инструмент для всех владельцев сайтов. Бот поисковой системы каждый день посещает сайт, чтобы собрать новые страницы.Когда бот поисковой системы посещает веб-сайт для индексации контента, сначала зайдите в txt-файл robots, чтобы сгенерировать разрешение. Этот файл находится в корневом домене . Если вы разрешите файлу robots.txt посещать все поисковые системы, такие как Google и Yahoo. Поисковые системы получат разрешение на индексирование ссылок.

Если вы фрилансер или владелец веб-сайта, вам необходимо добавить файл robot.txt в корневой каталог вашего домена. Во-первых, запретите поисковой системе сканировать веб-сайт.После завершения разработка вашего или клиентского веб-сайта дает разрешение сканировать все ссылки.

Имейте в виду, что индексирование ссылок на веб-сайты зависит от файла robots.txt. Так что будьте осторожны при создании файла. Если вы сделаете ошибку при создании файла robot.txt, ваш сайт будет заблокирован индексируемыми поисковыми системами. Я предлагаю использовать Robots txt Generator для создания собственного файла robots.txt.

Если вы уже создали файл robots.txt и вам нужно создать его выше, вы можете использовать наше программное обеспечение для создания настраиваемого файла robots txt.Вы можете разрешить или запретить файлы robots.txt для соответствующих поисковых систем, выбрав их из раскрывающегося списка. Если вы добавляете файл robots.txt впервые, вам не следует включать нижеперечисленные элементы.

  • Страница входа.
  • Контактная страница.
  • Внутренняя структура.
  • Страница конфиденциальности.
  • Все медиафайлы, которые не нужно индексировать в результатах поиска.
  • Все папки изображений, которые не нужно индексировать для результатов поиска.

Зачем нужен генератор Robots.txt?

Создавайте эффективные файлы robots.txt, которые помогут обеспечить правильное сканирование и индексирование вашего сайта Google и всеми поисковыми системами.

Вы можете следовать ряду идей, упомянутых ниже, которые могут помочь вам в оптимизации файла robots.txt.

  • Как только поисковая система читает файл robotes.txt, она просматривает его сверху вниз.
  • Для команды с подстановочными знаками могут потребоваться все образцы, квадратные меры которых найдены в локаторе ресурсов.
  • Не используйте файл robots.txt , чтобы разрешить поисковой системе, которую вы хотите проиндексировать. Файл robots.txt предназначен для того, чтобы сообщить инструкцию, что вам не нужно вызывать индексацию в поисковых системах.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *