Файл роботс тхт создать онлайн: Генератор файла robots txt – проверка robots txt на ошибки

Содержание

Генератор robots.txt 🔧

Запрет индексации для следующих ботов:

 Для всех
 Яндекс
 Google
 Mail.ru
 Рабмлер
 Бинг
 Yahoo

Основной домен сайта:

Таймаут между переходами робота по страницам:
1 секунда5 секунд10 секунд60 секунд

Запрет индексации разделов, страниц:
   Пример:
   /contacts/
   /category1/
   /category2/
   /page.html
Пусть к карте сайте, sitemap.xml:

Готовый robots.txt:

Сохраните данные в файл «robots.txt» и скопируйте в конревую папку сайта.

Для чего предназначен инструмент «Генератор robots.txt»

С помощью «Генератор robots.txt» можно в режиме онлайн за несколько секунд создать файл robots.txt, а также установить запрет на индексацию страниц сайта определенными поисковыми системами.

Что такое robots.txt

Robots.txt – это файл, который расположен в корне сайта и в котором содержатся указания для поисковых ботов. Заходя на любой ресурс, роботы начинают с ним знакомство с файла robots.txt – своеобразной «инструкции по применению». Издатель указывает в данном файле, как роботу необходимо взаимодействовать с ресурсом. Например, здесь может содержаться запрет индексации некоторых страниц или рекомендация о соблюдении временного интервала между сохранением документов с веб-сервера.

Возможности инструмента

Веб-мастер может установить запрет на индексацию роботами поисковых систем Яндекс, Google, Mail.ru, Рамблер, Bing или Yahoo!, а также задать тайм-аут между переходами поискового робота по страницам ресурса и запретить индексацию избранных страниц сайта. Кроме этого, в специальной строке можно указать поисковым роботам путь к карте сайта (sitemap.xml).

После того, как вы заполните все поля инструмента и нажмете кнопку «Создать», система автоматически сгенерирует файл для поисковых ботов, который вы должны будете разместить в корневой зоне вашего сайта.

Обратите внимание, что файл robots.txt нельзя применять для скрытия страницы из результатов поиска, потому что на нее могут ссылаться иные ресурсы, и поисковые роботы так или иначе ее проиндексируют. Напоминаем, что для блокировки страницы в результатах поисковой выдачи используется специальный тег «noindex» или устанавливается пароль.

Стоит также отметить, что с помощью инструмента «Генератор robots.txt» вы создадите файл исключительно рекомендательного характера. Само собой, боты «прислушиваются» к указаниям, оставленным для них веб-мастерами в файле robots.txt, но иногда игнорируют их. Почему так происходит? Потому, что каждый поисковый робот имеет свои настройки, согласно которым он интерпретирует информацию, полученную из файла robots.txt.

Бесплатный сервис проверки файла Robots.txt [2021]

Что такое валидатор файла robots.txt?
Инструмент проверки Robots.txt создан для того, чтобы показать, правильно ли составлен ваш файл robots.txt, нет ли в нем ошибок. Robots.txt — этот файл, который является частью вашего веб-сайта и описывает правила индексации для роботов поисковых машин, чтобы веб-сайт индексировался правильно, и первыми на сайте индексировались самые важные данные.

Это очень простой инструмент, который создает отчет уже через несколько секунд сканирования: вам просто ввести в поле URL своего веб-сайта, через слэш /robots.txt (например, yourwebsite.com/robots.txt), а затем нажать на кнопку “проверить”. Наш инструмент для тестирования файлов robots.txt находит все ошибки (опечатки, синтаксические и “логические”) и выдает советы по оптимизации файла robots.txt.

Зачем нужно проверять файл robots.txt?
Проблемы с файлом robots.txt или его отсутствие могут негативно отразиться на SEO-оптимизации сайта: ваш сайт может не выдаваться на странице результатов выдачи поисковых машин (SERP). Это происходит из-за того, что нерелевантный контент может обходиться до или вместо важного контента.
Проверить свой файл перед тем, как обходить контент важно, чтобы вы смогли избежать проблем, когда весь контент на сайте индексируется, а не только самый релевантный. Например, вы хотите, чтобы доступ к основному контенту вашего веб-сайта пользователи получали только после того, как заполнят форму подписки или войдут в свою учетную запись, но вы не исключаете ее в правилах файла robot.txt, и поэтому она может проиндексироваться.

Что означают ошибки и предупреждения?
Есть определенный список ошибок, которые могут повлиять на эффективность файла robots.txt, а также вы можете увидеть при проверке файла список определенных рекомендаций. Это вещи, которые могут повлиять на SEO-оптимизацию сайта, и которые нужно исправить. Предупреждения менее критичны, и это просто советы о том, как улучшить ваш сайт robots.txt.
Ошибки, которые вы можете увидеть:
Invalid URL: эта ошибка сообщает о том, что файл robots.txt на сайте отсутствует.
Potential wildcard error: технически это больше предупреждение, чем сообщение об ошибке. Это сообщение обычно означает, что в вашем файле robots.txt содержится символ (*) в поле Disallow (например, Disallow: /*.rss). Это проблема приемлемого использования синтаксиса: Google не запрещает использование символов в поле Disallow, но это не рекомендуется.

Generic and specific user-agents in the same block of code: это синтаксическая ошибка в файле robots.txt, которую нужно исправить, чтобы избежать проблем с индексацией контента на вашем веб-сайте.
Предупреждения, которые вы можете увидеть:
Allow: / : порядок разрешения не повредит и не повлияет на ваш веб-сайт, но это не стандартная практика. Самые крупные поисковые машины, включая Google и Bing, примут эту директиву, но не все программы-кроулеры будут такими же неразборчивыми. Если говорить начистоту, то всегда лучше сделать файл robots.txt совместимым со всеми программами-индексаторами, а не только с самыми популярными.
Field name capitalization: несмотря на то, что имена полей не чувствительны к регистру, некоторые индексаторы могут требовать писать их заглавными буквами, так что хорошей идеей будет делать это по умолчанию — специально для самых привередливых программ.
Sitemap support: во многих файлах robots.txt содержатся данные о карте сайта, но это не считается хорошим решением. Однако, Google и Bing поддерживают эту возможность.

Как исправить ошибки в файле Robots.txt?
Насколько просто будет исправить ошибки в файле robots.txt? Зависит от платформы, которую вы используете. Если это WordPress, то лучше воспользоваться плагином типа WordPress Robots.txt Optimization или Robots.txt Editor. Если вы подключили свой веб-сайт к веб-службе Google Search Console, вы сможете редактировать свой файл robots.txt прямо в ней.
Некоторые конструкторы веб-сайтов типа Wix не дают возможности редактировать файл robots.txt напрямую, но позволяют добавлять неиндексируемые теги для определенных страниц.

Как создать файл robots.txt | Шнайдер блог

2068 Посещений

Что такое файл robots.txt. Файл robots.txt является одним из ключевых аспектов поисковой оптимизации. Robots.txt представляет собой текстовый файл, в котором содержатся инструкции относительно того, какие страницы нельзя индексировать поисковикам.

Где находится файл robots.txt

Файл robots.txt размещается в корневой директории, за счет чего поисковые роботы начинают “чтение” страниц сайта именно с него:

Как создать файл robots.txt

Поскольку robots.txt представляет собой обычные текстовый документ, вы можете создать его с помощью блокнота, назвав файл robots и выбрав расширение .txt. Если вы не хотите добавлять в него страницы, запрещенные для индексирования, пропишите в файле директивы и оставьте их пустыми:

User-agent определяет для какого поискового робота предназначена информация в файле, а Disallow указывает на страницу/папку, попавшую под запрет индексирования (каждый новый пункт прописывается с новой строки). Допускается несколько строк User-agent, например:

User – agent: Yandex

User – agent: Googlebot

Disallow: /administrator/

Disallow: /cache/

Disallow: /modules/

Обратите внимание на то, что каждый User – agent прописывается с новой строки. Чтобы “обратиться” ко всем поисковым роботам сразу, поставьте в поле User – agent символ “звездочка”  (*):

User-agent: *
Disallow: /administrator/

Disallow: /cache/

Disallow: /modules/

На что обратить внимание внимание

Создавая файл robots.txt, пишите название с маленькой буквы. Как мы уже писали, robots.txt должен быть размещен в корневом каталоге. User-agent и Disallow должны упоминаться  в файле хотя бы один раз.

Некоторые поисковики, например Яндекс, “требуют”,чтобы в файле robots.txt содержалось дополнительное поле Host, в котором должен быть прописан ваш домен:

User-agent: Yandex
Disallow: /administrator/

Host: http://ваш-домен.ru

Например:

Данный нюанс “беспокоит” лишь Яндекс, поэтому вы можете включить в файл два “обращения”:

User-agent: Yandex
Disallow: /administrator/

Host: http://ваш-домен.ru

 

User-agent: *
Disallow: /administrator/

Отметим также, что разработчики Google рекомендуют не делать файл robots.txt тяжелее 500 КБ, поскольку в противном случае могут произойти ошибки индексации.

Robots.txt — создать и настроить файл

На любом сайте есть не только контент для пользователей, но и различные системные файлы. Когда поисковый робот начинает сканировать сайт, для него нет разницы, системный перед ним файл или нет — он просканирует все. Но на посещение сайта у робота отведено ограниченное количество времени, поэтому важно, чтобы он проиндексировал именно те страницы, которые должны быть в поиске. Иначе робот посчитает сайт бесполезным и понизит его в поисковой выдаче. Именно поэтому обязательно нужно создавать файл robots.txt.

Файл robots.txt – это текстовый файл, который размещается в корневой папке сайта и содержит инструкции по индексации страниц для роботов поисковых систем. В нем есть своя структура, директивы, и в целом он в некотором роде выполняет функцию «фильтра». Говоря проще, именно при помощи robots.txt мы указываем, какие страницы сайта робот должен сканировать, а какие – нет. robots.txt является важным и нужным инструментом взаимодействия с поисковыми роботами и один из важнейших инструментов SEO. Он нужен в случае, когда вы хотите, чтобы индексация сайта проходила максимально качественно, то есть чтобы в поиск попали действительно полезные страницы.

Когда робот заходит на сайт, то в первую очередь он ищет именно этот файл. При этом поисковики в любом случае проиндексируют сайт — независимо от того, есть ли на нем robots.txt или нет. Просто если он есть, то роботы будут следовать правилам, прописанным в нем. А если он есть, но при этом неправильно настроен, то сайт и вовсе может выпасть из поиска или просто не будет проиндексирован.

При работе с файлом robots.txt важно понимать отличия между терминами «директива» и «директория»:

Директория — это папка, в которой находятся файлы вашей системы управления.

Директива — это список команд, инструкции в robots.txt для одного или нескольких поисковых роботов при помощи которых производится управление индексацией сайта.

Создание robots.txt

Чтобы самостоятельно создать файл robots.txt не потребуется никаких дополнительных программ. Достаточно будет любого текстового редактора, например, стандартного Блокнота.

Чтобы создать robots.txt просто сохраните файл под таким именем и с расширением .txt., и уже после этого вносите в него все необходимые инструкции в зависимости от стоящих перед вами задач.

Файл нужно разместить в корневой папке, то есть в той, которая называется так же, как и ваш движок и содержит в себе индексный файл index.html и файлы системы управления, на базе которой и сделан сайт.

Чтобы загрузить в эту папку файл robots.txt можно использовать панель управления сервером, админку в CMS, Total Commander или другие способы.

На некоторых движках уже есть встроенная функция, которая позволяет создать robots.txt. Если у вас ее нет, то можно использовать специальные модули или плагины. Но в целом, нет никакой разницы, каким именно способом вы создадите robots.txt.

В случае, когда у вас не один, а несколько сайтов, и создание файлов robots.txt будет занимать долгое время, можно воспользоваться онлайн-сервисами, которые генерируют robots.txt. автоматически. Но учтите, что такие файлы могут требовать ручной корректировки, поэтому все равно нужно понимать правила их составления и знать особенности синтаксиса.

В интернете также можно найти и готовые шаблоны robots.txt для разных CMS, но в них добавлены лишь стандартные директивы, а значит и эти файлы потребуют корректировки.

Общие правила составления robots.txt

Очень важно грамотно работать с файлом robots.txt, иначе можно собственноручно отправить на индексацию документы, которые индексировать не планировалось.

Внимание следует уделить следующим моментам:

  • наличие файла robots.txt на сайте;
  • в правильном ли месте он расположен;
  • грамотно ли он составлен;
  • насколько он работоспособен, т.е. доступны ли указанные в нем документы для индексации.

Файл robots.txt должен располагаться исключительно в корневой папке сайта, т.е. он должен быть доступен по адресу site.ru/robots.txt.

Не допускается наличие вложений, например, site.ru/page/robots.txt. Если файл robots.txt располагается не в корне сайта (и у него другой URL), то роботы поисковых систем его не увидят и будут индексировать все страницы сайта.

При этом важно помнить, что файл robots.txt привязан к адресу домена вплоть до протокола. То есть для http и https требуется 2 разных robots.txt, даже если затем адреса совпадают. Также один и тот же файл нельзя использовать для субдоменов (хостов) и других портов. Получается, что один robots.txt действителен для всех файлов во всех подкаталогах, которые относятся к одному хосту, протоколу и номеру порта.

Насколько грамотно составлен ваш robots.txt можно оценить, проанализировав его по следующим пунктам:

  1. Файл должен быть один для каждого сайта и называться он должен robots.txt. Заглавные буквы в названии не используются.
  2. Запрещено использовать кириллицу в директориях robots.txt. Чтобы указывать названия кириллических доменов, нужно использовать Punycode для их преображения. Адреса сайтов также указывают в кодировке UTF-8, включающей коды символов ASCII. Например:

    Неверно:

    User-agent: Yandex
    Disallow: /корзина /
    Sitemap: сайт123.рф/sitemap.xml

    Верно:

    User-agent: Yandex
    Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
    Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml

  3. Инструкции пишутся отдельно для каждого робота, т.е. в директиве User Agent не допускается никаких перечислений. Если хотите назначить правила для всех роботов, то необходимо использовать User-agent: *. В файле robots.txt знак «*» — это любое число любых символов.
  4. Каждая директива должна начинаться с новой строки.
  5. 1 директива = 1 параметр, т.е. например, Disallow: /admin, и никаких Disallow: /admin /manage и т.д. в одной строчке.
  6. В начало строки не ставится пробел.
  7. Параметр директивы должен быть прописан в одну строку.
  8. Для указания директории применяется слэш.
  9. Параметры директивы не нужно добавлять в кавычки, также они не требуют закрывающих точки с запятой.
  10. Комментарии допускаются после знака #.
  11. Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от большего к меньшему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает более длинный URL и далее идет к более коротким. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.
  12. Слишком большой (более 32Кб), недоступный по каким-либо причинам или пустой robots.txt будет трактоваться как полностью разрешающий.
  13. В robots.txt не допускается использование любых символов кроме спецсимволов.

Четкое соблюдение вышеописанных правил при создании и настройке файла robots.txt имеет огромное значение. Незамеченный или пропущенный слэш, звездочка или запятая могут привести к тому, что сайт закроется от индексации полностью. То есть даже незначительная разница в синтаксисе приводит к существенным отличиям в функционале.

Например, конструкция:

User-agent:*
Disallow: /

закрывает весь сайт от индексации.

Конструкция:

User-agent:*
Disallow: /calendar/
Disallow: /junk/

запрещает сканирование разделов calendar и junk.

В то время, как конструкция:

User-agent:*
Disallow:

открывает весь сайт для индексации.

Основные директивы в robots.txt

Директивы, используемые в robots.txt:

1. Правильный robots.txt начинается с директивы User-agent, которая указывает, к какому роботу обращены конкретные директивы.

Примеры User-agent в robots.txt:

# Указывает директивы для всех роботов одновременно
User-agent: *

# Указывает директивы для всех роботов Яндекса
User-agent: Yandex

# Указывает директивы для всех роботов Google
User-agent: Googlebot

Через robots.txt можно обратиться не только к главному роботу поисковой системы, но и к вспомогательным роботам, например, в Яндексе есть робот, который индексирует изображения: YandexImages или робот, который индексирует видео: YandexVideo.

Существует мнение, что роботы лучше индексируют сайт, если к ним обращаться напрямую, а не через общую инструкцию, но с точки зрения синтаксиса разницы нет никакой.

Кроме того, в robots.txt не имеет значения регистр символов. То есть одинаково правильно будет записать: User-agent: Googlebot или User-agent: googlebot.

Таким образом, директива User-agent указывает только на робота (или на всех сразу), а уже после нее должна идти команда или команды с непосредственным указанием команд для выбранного робота.

2. Disallow — запрещающая директива. Она запрещает индексацию каталогов, адресов или файлов сайта. Путь к тем файлам, каталогам или адресам, которые не нужно индексировать, прописываются после специального символа “/”:

Пример как в robots.txt запретить индексацию сайта:

User-agent: *
Disallow: /

Данный пример закрывает от индексации весь сайт для всех роботов.

Пример, как robots.txt запретить индексацию папки wp-includes для всех роботов:

User-agent: *
Disallow: /wp-includes

Данный пример закрывает для индексации все файлы, которые находятся в этом каталоге.

А вот если вам, например, нужно запретить индексирование всех страниц с результатами поиска только от робота Яндекс, то в файле robots.txt прописывается следующее правило:

User-agent: Yandex
Disallow: /search/

Запрет на индексацию в этом случае распространяется именно на страницы, у которых в URL есть «/search/» (именно с двумя знаками “/”).

3. Allow — разрешающая директива, логически противоположная директиве Disallow. То есть она принудительно открывает для индексирования указанные каталоги, файлы, адреса. Директива имеет синтаксис, сходный с Disallow.

Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:

User-agent: Yandex
Disallow: /
Allow: /blog

Запрещается индексировать весь сайт, кроме страниц, начинающихся с /blog.

Если же необходимо разрешить индексировать все страницы, в адресе которых присутствует вхождение /blog, то следует использовать конструкцию:

User-agent: Yandex
Disallow: /
Allow: */blog

Иногда директивы Allow и Disallow используются в паре. Это может понадобиться для того, чтобы открыть роботу доступ к подкаталогу, который расположен в каталоге с запрещенным доступом.

4. В директиве Sitemap указывают ссылку на карту сайта: sitemap.xml. Она нужна для ускорения индексации.

Пример robots.txt с указанием адреса карты сайта:

User-agent: Yandex
Disallow: /page
Sitemap: http://www.site.ru/sitemap.xml

5. Директиву Crawl-delay с 22 февраля 2018 года Яндекс перестал учитывать.

6. Директива Clean-param позволяет исключить из индексации страницы с динамическими get-параметрами. Такие страницы могут отдавать одинаковое содержимое, имея различные URL (например, UTM). Данная директива позволяет сэкономит крауленговый бюджет за счёт исключения из индексирования страниц дублей.

Примечания:

  • Иногда для закрытия таких страниц используется директива Disallow. Рекомендуем использовать Clean-param, так как эта директива позволяет передавать основному URL или сайту некоторые накопленные показатели, например ссылочные.
  • Директива Clean-Param может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.

Синтаксис директивы Clean-param:

Clean-param: parm1&parm2&parm3 [Путь]

#Через & указаны параметры, которые необходимо не учитывать,
#[Путь] — адрес, для которого применяется адрес.

Рассмотрим на примере страницы со следующим URL: www.site.ru/page.html?&parm1=1&parm2=2&parm3=3

Пример robots.txt с использованием Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # только для page.html

#или

Clean-param: parm1&parm2&parm3 / # для всех

Директива Clean-param применима только для Яндекса (Google выдаст ошибку), поэтому без особой надобности её использовать не рекомендуется.

Маски в robots.txt: для чего нужны и как правильно использовать

Маска в robots.txt — это условная запись, в которую входят названия целой группы папок или файлов. Маски используются для того, чтобы одновременно совершать операции над несколькими файлами (или папками) и обозначаются спецсимволом-звездочкой — “*”.

На самом деле, использование масок не только упрощает работу, оно зачастую просто необходимо. Предположим, у вас на сайте есть список файлов в папке /documents/. Среди этих файлов есть презентации в формате .pdf, и вы не хотите, чтобы их сканировал робот. Значит эти файлы нужно исключить из поиска.

Как это сделать? Можно перечислить все файлы формата .pdf вручную:

Disallow: /documents/admin.pdf
Disallow: /documents/town.pdf
Disallow: /documents/leto.pdf
Disallow: /documents/sity.pdf
Disallow: /documents/europe.pdf
Disallow: /documents/s-112.pdf

Но если таких файлов сотни, то указывать их придется очень долго, поэтому куда быстрее просто указать маску *.pdf, которая скроет все файлы в формате pdf в рамках одной директивы:

Disallow: /documents/*.pdf

Специальный символ “*”, который используется при создании масок, обозначает любую последовательность символов, в том числе и пробел.

Ошибки в файле robots.txt

В процессе проверки правильности составления файла robots.txt чаще всего встречаются следующие ошибки:

  1. robots.txt отсутствует или он закрыт от индексирования (Disallow: /).
  2. Несколько файлов robots.txt. Для одного сайта должен быть создан только один файл.
  3. Неверное расположение. Файл robots.txt должен располагаться в корневой папке сайта. Если он расположен в другом месте, то роботы его не увидят и будут индексировать весь сайт (включая файлы, которые индексировать не нужно).
  4. Правило начинается с неверных символов. В robots.txt правила должны начинаться только с * или /
  5. Есть несколько правил для одного агента, например, несколько правил “User-agent: Yandex”. В правильно составленном файле такое правило может быть только одно.
  6. Превышен допустимый размер. Максимальное количество правил — 2048. Максимальная длина одного правила — 1024 символа. Но такая ошибка встречается довольно редко.
  7. Перед правилом отсутствует директива User-agent. Любое правило в robots.txt всегда начинается с User-agent.
  8. Некорректные адреса. Например, путь к файлу Sitemap должен указываться полностью, включая протокол.
  9. Пустые строки между директивами. Правильная настройка robots.txt запрещает наличие пустых строк между директивами «User-agent», «Disallow» и директивами, следующими за «Disallow» в рамках текущего «User-agent».

    Пример правильного перевода строки в robots.txt:

    User-agent: Yandex
    Disallow: /*utm_
    Allow: /*id=

    User-agent: *
    Disallow: /*utm_
    Allow: /*id=

    Пример неправильного перевода строки в robots.txt:

    User-agent: Yandex

    Disallow: /*utm_

    Allow: /*id=

    User-agent: *

    Disallow: /*utm_

    Allow: /*id=

  10. Некорректный тип контента. Должен быть: text/plain.

    Ошибка, когда на уровне хостинга robots.txt имеет кодировку HTML:

    Проверить тип контента можно в инструменте Анализ документа https://tools.discript.ru/get-page/ или на сайте https://bertal.ru/.

Другие особенности работы с robots.txt

1. Страницы, закрытые с помощью файла robots.txt, могут быть проиндексированы в Google. Например, когда на них ведет много внутренних и внешних ссылок.

В таком случае в панели Google Search Console можно видеть такой отчет:

По этому вопросу в Google справочнике указано:

Файл robots.txt не предназначен для блокировки показа веб-страниц в результатах поиска. Если на других сайтах есть ссылки на вашу страницу, содержащие ее описание, то она все равно может быть проиндексирована, даже если роботу Googlebot запрещено ее посещать. Если файл robots.txt запрещает роботу Googlebot обрабатывать веб-страницу, она все равно может показываться в Google, но связанный с ней результат поиска может не содержать описания и выглядеть следующим образом:

Источник: https://support.google.com/webmasters/answer/6062608

Поэтому, чтобы закрыть от индексирования страницы, которые содержат конфиденциальную информацию, нужно использовать более надежные методы: не только robots.txt, но и html-теги.

Если нужно закрыть внутри зоны <head> </head> документ, то устанавливается следующий код:

<meta name=”robots” content=”noindex, nofollow”/> — запрещено индексировать содержимое и переходить по ссылкам на странице;

Или (полная альтернатива)

<meta name=»robots» content=»none»/>

Такие теги показывают роботам, что страницу не нужно показывать в результатах поиска, а также не нужно переходить по ссылкам на ней.

Однако при использовании только мета-тега краулинговый бюджет будет расходоваться намного быстрее, поэтому лучше всего применять комбинированный способ. Он, к тому же, с большим приоритетом выполняется поисковыми роботами.

2. Иногда robots.txt пишется с комментариями. Это упрощает работу и помогает быстрее сориентироваться в файле. В комментарии добавляют актуальную и полезную информацию, например, ссылку на партнерку:

Многие вебмастера добавляют в комментариях к robots.txt рекламные тексты.

По сути в robots.txt можно прописать все, что угодно, однако идеальный robots.txt — это тот, в котором мало строк, но много смысла.

3. Для изображений настройка robots.txt выглядит следующим образом:

Чтобы скрыть определенное изображение от робота Google Картинок User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Чтобы скрыть все изображения с вашего сайта от робота Картинок User-agent: Googlebot-Image
Disallow: /
Чтобы запретить сканирование всех файлов определенного типа (в данном случае GIF) User-agent: Googlebot
Disallow: /*.gif$

Файл robots.txt важен для продвижения, потому что дает поисковикам указания, которые напрямую влияют на результативность работы сайта. Например, в нем можно установить запрет на индексацию «мусорных» или некачественных страниц, закрыть страницу с доступом в административную панель, страницы с приватными данными, дублирующие документы и т.д.

4. Рекомендуется закрывать от индексации следующие страницы:

  • Страницы входа в CMS-систему вида «/bitrix», «/login», «/admin», «/administrator», «/wp-admin».
  • Служебные папки вида «cgi-bin», «wp-icnludes», «cache», «backup».
  • Страницы авторизации, смены пароля, оформления заказа: «basket&step=», «register=», «change_password=», «logout=».
  • Результаты поиска «search», «poisk».
  • Версию для печати вида: «_print», «version=print» и аналогичные.
  • Страницы совершения действия вида «?action=ADD2BASKET», «?action=BUY».
  • Разделы с дублированным и неуникальным контентом, скажем, RSS-фиды: «feed», «rss», «wp-feed».

Если на сайте есть ссылки на страницы, которые закрыты в файле robots.txt, то рекомендуется убрать эти ссылки, чтобы не передавать на них статический вес.

Наиболее часто дублями страниц, попавшими в индекс, являются документы с неопределенными в БД GET-параметрами. Примерами таких параметров являются UTM-метки (и прочие метки рекламных кампаний). Если на сайте не настроен rel=»canonical», то потенциальные данные дубли лучше закрывать от индексации.

Список наиболее частых параметров:

  • openstat
  • from
  • gclid
  • utm_source
  • utm_medium
  • utm_campaign
  • utm_прочие
  • yclid

Следует помнить, что GET параметры могут идти после знака «?», либо после знака «&» (если их более одного). Поэтому для закрытия GET параметров необходимо для каждого знака указывать отдельное правило:

Disallow: *?register=*
Disallow: *&register=*

Либо не указывать ни один из данных знаков (не самый лучший вариант для коротких GET параметров т.к. они могут быть частью более длинных вариантов. Например, GET параметр id входит в GET параметр page_id):

Disallow: *register=*

Пример закрытия таких страниц:

Disallow: *openstat=*
Disallow: *from=*
Disallow: *gclid=*
Disallow: *?utm_*
Disallow: *&utm_*
Disallow: *yclid=*

Пример закрытия всех GET параметров главной страницы:

Disallow: /?*

Также для закрытия страниц с неопределенными GET параметрами можно сделать следующее: закрыть на сайте все GET параметры, принудительно открыв при этом нужные GET параметры.

Но нужно осторожно использовать данный метод, чтобы случайно не закрыть важные страницы на сайте.

Пример использования:

Disallow: /*?* # закрываем все страницы с GET параметрами
Allow: /*?page=* # открываем для сканирования страницы пагинации
# дополнительно можно закрыть страницы пагинации, которые содержат два GET параметра
Disallow: /*?*&page=*
Disallow: /*?page=*&*

Используя сервис Screaming Frog Seo Spider можно также определить, какие еще страницы необходимо закрыть от индексации. Часто такие страницы можно найти с помощью дублей тегов и мета-тегов. Найти их помогут фильтры по дублям title/h2/description.

Также можно выгрузить проиндексированные страницы в Яндекс.Вебмастер и проверить, какие еще из них стоит исключить из индекса:

5. Одним из требований поисковиков Google и Yandex является открытие для индексации файлов JavaScript и CSS, так как они используются ими для анализа удобства сайта и его ранжирования.

Определить весь список ресурсов, которые нужно открыть для индексации, можно при помощи Google Search Console.

Для этого указываем URL для сканирования:

Далее нажимаем на ссылку «Изучить просканированную страницу»

Переходим на вкладку «Скриншот» и нажимаем на «Проверить страницу на сайте»:

Получаем результаты:

  1. Как видит страницу Google.
  2. Какие элементы JS/CSS и др. не подгрузились.

И ресурсы, требующие внимания

Как проверить robots.txt

Проверить, насколько правильно составлен robots.txt, можно при помощи:

1. Нашего инструмента https://tools.discript.ru/robots-check/.

С его помощью вы можете проверить свой файл и внести в него корректировки в режиме онлайн. Для этого укажите URL страницы в соответствующем поле. Инструмент покажет, допущены ли ошибки в обновленной версии. Также вы можете использовать подготовленные шаблоны файлов robots.txt для наиболее популярных CMS, в которых уже указаны все основные условия.

Инструмент позволяет скачать итоговый файл и сразу разместить его на сайте:

2. Проверкой файла robots.txt в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml

После начала проверки будет проанализирована каждая строка содержимого поля «текст robots.txt» и директивы, которые он содержит. Здесь же можно увидеть, какие страницы открыты для индексации, а какие — закрыты.

3. Проверкой файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru

Здесь можно проверить, содержится ли в файле запрет на сканирование роботом Googlebot определенных адресов на ресурсе.

В заключение

Таким образом при работе с robots.txt необходимо помнить:

  1. Правила составления и расположения файла.
  2. Функции отдельных директив и способы их применения.
  3. Рекомендации по закрытию определенных страниц.
  4. Инструменты для проверки robots.txt: tools.discript.ru/robots-check/, а также инструменты Яндекс и Google.

Важно помнить, что проверка robots.txt — один из первых этапов создания любого проекта, и от того, насколько точно она будет проведена, может зависеть конечный результат работы.

В следующей статье мы поговорим о терминологии, применяемой при работе над скоростью загрузки.

SEO-функционал InSales

InSales является оптимизированной для продаж CMS, содержит все необходимое для успешного продвижения и лучшего ранжирования интернет-магазина в поисковых системах.

В данной статье описаны основные настройки и SEO-примочки InSales, которые могут потребоваться SEO-специалисту.

  1. Файл robots.txt
  2. Файл sitemap.xml
  3. Редактир HTML, CSS и JS файлов
  4. Заголовок h2
  5. Мета-теги
  6. Человеко-понятный URL
  7. SEO-фильтры
  8. 301 редирект
  9. Раздел “Файлы” как альтернатива FTP
  10. Ошибка 404
  11. Установка кодов аналитики и скриптов
  12. Аналитика поисковых фраз
  13. Канонический URL и отсутствие дублей страниц
  14. Редирект с поддомена или старого домена
  15. SSL-сертификат

Файл robots.txt

При создании интернет-магазина файл robots.txt генерируется автоматически и по умолчанию содержит в себе все директории, которые необходимо скрыть от поисковых систем. Если вам необходимо редактировать robots.txt или добавить в него новые разделы, то это можно сделать в разделе Настройки → Robots.txt:

Подробнее о robots.txt

Файл sitemap.xml

Файл sitemap.xml также генерируется при создании магазина и содержит в себе все страницы вашего сайта. Автоматическое обновление sitemap.xml происходит при появлении новых страниц на сайте.

Если необходимо показывать поисковым системам неполный или кастомизированный sitemap.xml, то необходимо его создать отдельно, сохранить c необходим содержанием, но назвать его по-другому, например “sitemap-new.xml”.

Далее загрузите его в платформу через раздел Контент → Файлы:

После загрузки файла укажите путь к нему в robots.txt в виде: Sitemap:http://www.site.ru/sitemap-new.xml, где http://www.site.ru — заменить на название вашего домена:

Редактор HTML, CSS и JS файлов

Возможность редактирования всех шаблонов на уровне HTML, CSS и JS файлов предоставлена в разделе Дизайн:

Если вы или ваш специалист обладаете навыками верстки, то вы можете внедрить то, что вам требудется, не только в дизайне, но и доработки по SEO. Если знаний недостаточно или вы сомневаетесь, то лучше обратитесь с описанием задачи в техническую поддержку.

Заголовок h2

Важно, чтобы все заголовки на сайте были прописаны в теге h2 и в InSales во всех предустановленных шаблонах и шаблонах из каталога тем заголовки уже заключены в <h2>, а содержание заголовка подтягивается и редактируется в бэк-офисе из названия товара, категории или страницы.

Если вы верстаете шаблон самостоятельно, то в шаблоне каждого типа страницы в h2 необходимо вставить соответствующую Liquid переменную. Делайте это по аналогии с предустановленным шаблоном или воспользуйтесь документацией по Liquid-переменным.

Для всех страниц желательно прописывать мета-теги. Сделать это можно, в случае карточек товара в SEO-параметрах редактируемой страницы:

В случае страниц категорий нужно в разделе Товары → На сайте выбрать категорию, в которой необходимо прописать мета-теги, нажать на шестеренку и выбрать «Настроить категорию». На открывшейся странице внизу находятся «SEO параметры»:

При незаполненных мета-тегах они автоматически заполняются согласно шаблону. Подробнее по шаблонах автозаполнения читайте здесь.

Человеко-понятный URL

Для лучшего ранжирования всем создаваемым страницам по умолчанию присваивается ЧПУ (Человеко-понятный УРЛ) ссылка, которая транслитерируется из названия страницы. При необходимости можно изменить созданный URL. Для карточек товара изменение происходит в SEO-параметрах, для остальных типов страниц — в строке «Адрес»:

SEO-фильтры

Функциональность доступна для тарифов Продвигающий и выше

В InSales заложен функционал SEO-фильтров, который при фильтрации внутри категорий по характеристикам и параметрам позволяет для любого фильтра задать ЧПУ URL, прописать мета-теги и написать описание для страницы фильтра, что существенно улучшает SEO показатели по низкочастотным запросам.

Для настройки SEO-фильтров перейдите в раздел Товары → На сайте, далее выберите необходимую категорию и в её настройках — «SEO-фильтры»:

Подробнее о SEO-фильтрах читайте здесь.

301 редирект

Если созданная ранее страница уже проиндексирована поисковиками, то если вы измените у нее URL, то старый URL будет отдавать 404 ошибку. Для того, чтобы трафик приходящий на эту страницу не потерялся, необходимо настроить 301 редирект со старого URL на новый, сделать это можно в разделе Настройки → Редиректы. Подробнее о создании редиректов читайте здесь.

Также «Редиректы» необходимо использовать если вы переезжаете на InSales с другой CMS, чтобы сохранить имеющиеся позиции и трафик после переезда. Для этого перед переездом используйте “Загрузку редиректов из файла”. Укажите в таблице в первом столбце — старые URL (c прежней CMS) без домена, во втором столбце — новые URL (на InSales) без домена и загрузите в разделе Настройки → Редиректы. После этого можете спокойно переезжать — все старые страницы будут переадресовываться на новые.

Важно: при создании редиректа для категории необходимо создавать редиректы и для товаров из данной категории.

Раздел “Файлы” как альтернатива FTP

При необходимости загрузить в корень сайта проверочный файл от вебмастера Яндекса и Google или других сервисов, необходимо использовать раздел Контент → Файлы.

Ошибка 404

Для всех удаленных страниц или страниц, у которых был изменен URL отображается 404 ошибка — страница не найдена. Для изменения и стилизации этой страницы необходимо в разделе бэк-офиса Дизайн:

Изменения нужно вносить в шаблоне 404:

Установка кодов аналитики и скриптов

После создания магазина необходимо установить счетчики статистики и аналитики, для этого, чтобы не погружаться в код сайта, перейдите в раздел Настройки → Счетчики и коды.

Там же можно установить коды ремаркетинга (ретаргетинга) или любые скрипты, которые необходимо установить на всех страницах сайта.

Подробнее о разделе Настройки → Счетчики и коды и добавлении счетчиков читайте здесь. 

Аналитика поисковых фраз

Ввиду того, что Google Analytics и Яндекс Метрика убрали функционал посковых фраз, в Insales реализован раздел Отчеты → Поисковые фразы. В нем можно авторизовать обе системы аналитики и в одном месте видеть и оценивать эффективность поисковых фраз сразу из обеих систем.

Подробнее о функционале поисковый фраз читайте здесь. 

Канонический URL и отсутствие дублей страниц

Для избежания ситуации, в которой один товар при нахождении в разных категориях имеет разные URL и у карточек товара не прописаны rel=»canonical», для указания поисковым системам основного URL по умолчанию применяется схема «Не учитывать канонический URL заданный в карточке товара». В этом случае происходит склейка и для карточек товара формируется короткий URL вида site.ru/product/tovar — в таком виде, из скольки бы категорий система ни ссылалась на товар, он всегда будет иметь один URL.

Подробнее о правилах склейки URL

Подробнее о каноническом URL

Редирект с поддомена или старого домена

Так как изначально магазин создается на поддомене, вида myshop-123*.myinsales.ru, то важно после добавления собственного домена включить редирект с домена *.myinsales.ru на основной домен:

Также в разделе Настройки → Домены при необходимости можно изменить домен в рамках одного аккаунта и при этом сохранить всю структуру, можно добавить второй домен и указать его в качестве основного, тогда все страницы со старого домена будут автоматически редиректиться на новый.

Данная статья ориентирована на SEO-специалистов, которые знают, как применять и для чего служат все описанные SEO-функции, поэтому если для вас все написанное выше выглядит непонятным, но при этом вы желаете продвинуть интернет-магазин в поисковых системах, вы можете обратиться в отдел Маркетинговых услуг.

SSL-сертификат

Функционал Insales позволяет настраивать SSL-сертификат для домена, за счет чего сайт будет выше ранжироваться поисковыми системами. 

Можно как заказать стандартный сертификат через Insales, так и заказать сертификат у стороннего регистратора и загрузить его в бэк-офисе в разделе Настройки → Домены.

Подробнее о настройке SSL-сертификата

Файл robots.txt – правила индексации, как создать, закрыть и проверить на ошибки

У вас больше контроля над поисковыми системами, чем вы думаете. Это правда! Вы можете манипулировать тем, кто сканирует и индексирует ваш сайт, вплоть до отдельных страниц. Чтобы управлять этим, вам нужно будет использовать файл robots.txt.

Robots.txt — это простой текстовый файл, который находится в корневом каталоге вашего сайта. Он сообщает роботам поисковых систем о страницах, которые нужно сканировать, и которые не нужно посещать.

Хотя это не совсем то, что вам нужно. Вы наверняка поняли, что это довольно мощный инструмент, и позволит вам представить свой сайт поисковикам как вы хотите. Поисковые системы – это судьи с суровым характером, поэтому важно произвести на них большое впечатление. Robots.txt при правильном использовании может улучшить частоту сканирования, что может повлиять на ваши усилия в SEO.

Итак, как его создать? Как им пользоваться? Чего нужно избегать? Прочтите эту статью, чтобы найти ответы на все эти вопросы.

Что такое файл Robots.txt?

Раньше, когда интернет был просто ребенком, способным делать великие вещи, разработчики придумали способ ползать и индексировать свежие страницы в интернете. Они назвали это «роботами» или «пауками».

Иногда эти маленькие ребята блуждали по сайтам, которые не предназначались для обхода и индексирования, например, сайты, которые проходят техническое обслуживание. Создатель первой в мире поисковой системы, Aliweb, рекомендовал решение – всевозможный ориентир, которому должны следовать все роботы.

Это решение было окончательно доработано в июне 1994 года группой интернет-специалистов по технике безопасности и названо «Протокол исключения роботов».

Файл robots.txt — это реализация этого протокола. Протокол определяет правила, которыми должен следовать каждый настоящий робот. Включая ботов Яндекс и Google. Некоторые незаконные роботы, например, вредоносное ПО, шпионские программы и т.п., по определению, действуют вне этих правил. Вы можете заглянуть за завесу любого веб-сайта, введя любой URL-адрес и добавив: /robots.txt в конце.

Пример файла:

User-agent: *
Disallow: /index.php

Где найти файл Robots.txt

Ваш файл robots.txt будет храниться в корневом каталоге вашего сайта. Чтобы найти его, зайдите на FTP, и вы сможете найти файл в своем каталоге public_html.

В нем нет ничего такого, чтобы он много весил, вероятно, всего несколько сотен байт. После того как вы откроете файл в текстовом редакторе, вы увидите что-то вроде этого:

Если вы не можете найти файл в корневом каталоге вашего сайта, тогда вам придется создавать свой собственный.

Как создать файл Robots.txt

Robots.txt — это базовый текстовый файл, поэтому его просто создать. Все, что вам понадобится, это простой текстовый редактор, например, «Блокнот». Откройте лист и сохраните пустую страницу как «robots.txt».

Теперь войдите на хостинг и найдите папку public_html для доступа к корневому каталогу сайта. Как только она будет открыта, перетащите файл в неё.

Наконец, необходимо убедиться, что установлены правильные разрешения для файла. В принципе, как владелец, вы должны иметь права на запись, чтение и редактирование файла, но никто другой не должен иметь таких прав. Файл должен отображать код разрешения «0644».

Если права отличаются от «0644», вам нужно будет изменить их, поэтому нажмите на файл и выберите «свойства». Вуаля! У вас есть файл Robots.txt.

Синтаксис Robots.txt

Файл robots.txt состоит из нескольких разделов «директив», каждый из которых начинается с указания User-agent. User-agent — это имя конкретного робота, к которому обращается код.

Доступны два варианта:

  1. Вы можете использовать звездочку (*) для одновременного обращения ко всем поисковым системам.
  2. Вы можете обращаться к конкретным поисковым системам по отдельности.

Когда бот готов для обхода веб-сайта, он будет обращаться к блокам, которые вызывают его.

Вот пример:

User-agent: Yandex
Disallow: /index.php

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Директива User-Agent

Первая строка в каждом блоке — это «user-agent», в котором указывается конкретный бот. «User-agent» будет соответствовать определенному имени бота, например:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Итак, если вы хотите сказать роботу Google что делать, например, начните с:

User-agent: Googlebot

Поисковые системы всегда стараются точно определить конкретные директивы, которые наиболее тесно связаны с ними. Так, например, если у вас есть две директивы, одна для Googlebot и одна для Yandex. Бот, который приходит вместе с user-agent «Yandex», будет следовать его инструкциям, тогда как бот «Googlebot» пройдет через это и отправится на поиски более конкретной директивы. В большинстве поисковых систем есть несколько разных ботов, вот списки ботов Яндекса и Google.

Директива Host

Директива host до недавнего времени поддерживалась только Яндексом (было объявлено о прекращении поддержки), хотя существуют некоторые предположения, что Google поддерживал или поддерживает её. Эта директива позволяет вебмастеру решить показывать www перед URL-адресом. Для этого используется этот блок:

Host: site.ru

Так как официально обе поисковые системы отказались от использования директивы Host, то для указания главного зеркала рекомендуется использовать 301 редирект.

Директива Disallow

Более конкретно рассмотрим эту директиву чуть позже. Вторая строка в блоке директив — Disallow. Вы можете использовать её, чтобы указать, какие разделы сайта не должны быть доступны ботами. Пустое значение Disallow означает, что сайт является доступным для всех, и боты могут ходить где угодно.

Директива Sitemap

Используя директиву sitemap, вы указываете поисковым системам, где можно найти файл Sitemap в формате XML. Однако, наиболее правильным было бы отправить каждый файл в формате XML в поисковые системы через специальные инструменты в панели веб-мастеров поисковых систем. Это связано с тем, что в панели вы можете узнать много ценной информации о вашем веб-сайте.

Однако, если у вас мало времени, директива sitemap является жизнеспособной альтернативой.

Директива Crawl-Delay

Google, Yahoo, Bing и Яндекс могут немного нагрузить ваш сайт, когда дело доходит до обхода, но они действительно реагируют на директиву crawl-delay, которая сдерживает их некоторое время. Допишите эту строку к вашему блоку:

Crawl-delay: 10

Это означает, что вы можете заставить поисковые системы ждать десять секунд, прежде чем снова обходить сайт, т.е. поисковый робот делает паузу между обходами вашего сайта.

Зачем использовать Robots.txt

Теперь вы знаете об основных принципах и о том, как использовать несколько директив, вы можете собрать свой файл. Robots.txt не является существенным элементом успешного веб-сайта, на самом деле ваш сайт все еще может правильно функционировать и занимать хорошие позиции без него.

Однако есть несколько ключевых преимуществ, о которых вы должны знать:

  • Приватная информация: запрещайте ботам посещать ваши личные данные, это значительно усложнит их индексирование и появление в открытом доступе в поисковой выдаче.
  • Держите ресурсы под контролем: каждый раз, когда бот сканирует ваш сайт, он тратит пропускную способность и другие ресурсы сервера. Например, сайты с тоннами контента и большим количеством страниц, например, на сайтах электронной коммерции могут иметь тысячи страниц, и эти ресурсы могут быть быстро истощены. Вы можете использовать robots.txt, чтобы затруднить доступ ботов к отдельным скриптам и изображениям; это сохранит ценные ресурсы сервера для реальных посетителей.

Вы, конечно, хотите, чтобы поисковые системы находили путь к наиболее важным страницам вашего сайта. Вы можете контролировать, какие страницы дать в приоритет поисковикам, но не забудьте полностью блокировать от них определенные страницы.

Например, если мы посмотрим на файл robots, мы увидим, что URL-адрес www.alkosto.ru/manager/ не разрешен к индексации.

Поскольку эта страница сделана только для того, чтобы мы вошли в панель управления системой, нет смысла позволять ботам тратить свое время и энергию на её сканирование.

Noindex

Итак, мы говорили о директиве Disallow, как будто это ответ на все наши проблемы. Тем не менее, это не всегда препятствует индексированию страницы. Вы можете потенциально запретить страницу к обходу, и она все равно может оказаться где-то в результатах поисковой выдачи. Нам поможет тэг noindex. Он работает в тандеме с командой disallow, чтобы боты не обошли определенные страницы и не проиндексировали их.

Вот пример того, как это делается:

Disallow: /page/
Noindex: /page/

После того, как вы указали эти инструкции, выбранная страница не окажется в результатах поиска … или, мы просто так думаем. Экспериментальные результаты разнятся на этот счет, каким-то сайтам это помогало, а каким-то нет.

Что следует избегать

Мы немного поговорили о том, что вы можете сделать, и о том, как вы можете управлять своим robots.txt, но мы немного углубимся в каждый пункт этого раздела и объясним, как каждый параметр может превратиться в катастрофу для вашего SEO, если не используется должным образом.

Чрезмерное использование Crawl-Delay

Мы уже объяснили, что делает директива Crawl-Delay с задержкой, но вы должны избегать слишком частого ее использования, так как вы ограничиваете роботов сканировать страницы вашего сайта. Для некоторых сайтов это неплохо, но, если у вас есть огромный веб-сайт, вы можете тем самым выстрелить себе в ногу и препятствовать хорошему ранжированию и постоянному обновлению вашего сайта поисковыми системами.

Использование для предотвращения индексирования

Мы уже немного рассмотрели этот момент. Как уже было сказано, Disallow для страницы — лучший способ попытаться не допустить, чтобы боты сканировали ее напрямую. Но это не сработает в следующих случаях:

  • Если страница была связана с внешним источником (например, ссылки на сторонних ресурсах), боты все равно будут попадать на страницу и индексировать ее.
  • Нелегальные боты будут игнорировать robots.txt и индексировать контент.

Использование для защиты приватной информации

Некоторые личные материалы, такие как PDF-файлы или страницы с благодарностью, могут индексироваться, даже если вы запретили ботам это делать. Один из лучших методов, которому следует придерживаться помимо директивы disallow, заключается в том, чтобы поместить всю вашу личную информацию за регистрацию.

Конечно, это добавляет трудностей для ваших посетителей (регистрация), но ваш контент останется в безопасности.

Использование для скрытия повторяющегося содержимого

Дублируемый контент иногда является необходимым злом — например, страницы для печати. Однако поисковые системы достаточно умны и знают, когда вы пытаетесь скрыть что-то. Вот три способа решения такого рода проблемы:

  • Переписывайте контент. Создание захватывающего и полезного контента побудит поисковые системы просматривать ваш сайт в качестве надежного источника информации.
  • 301 редирект — сообщает поисковым системам, что страница перенесена в другое место. Добавьте 301 на страницу с дублирующимся контентом и переадресуйте посетителей на исходный контент на сайте.
  • Rel = «canonical» — это тег, который сообщает о первоначальном местоположении дублированного контента. Это особенно важно для веб-сайта электронной коммерции, где CMS часто генерирует повторяющиеся версии одного и того же URL-адреса.

Момент истины: проверка файла Robots.txt

Настало время проверить ваш файл, чтобы убедиться, что все работает так, как вы этого хотите. В Инструментах для веб-мастеров Яндекс и Google есть раздел проверки robots.txt.

Если проверка дала положительный результат, то вы получили полностью работоспособный файл robots.txt. Создание правильного файла robots.txt, означает, что вы улучшаете своё SEO и не позволяете поисковым системам показывать в результатах выдачи ненужные страницы.

Если у вас возникли трудности в оптимизации или необходимо продвижение сайта, то наши специалисты обязательно вам помогут. Звоните!

Что такое robots.txt и как правильно его настроить: самая полная инструкция

Автор Prodvigaem Team На чтение 12 мин. Просмотров 305 Опубликовано

Поисковые системы, такие как Google, Yandex, Yahoo! и все прочие, управляются не вручную, а при помощи разнообразных программ-скриптов.

Как волонтеры во время переписи населения ходят по домам и считают жителей, так и поисковые программы-краулеры непрерывно блуждают по сети, проверяя старые ресурсы, разыскивая новые, — обновляют и пополняют базу данных поисковиков. От работы этих программ-ботов зависит, в том числе, популярность интернет-контента.

Для чего нужен robots.txt?

Для более удачной работы по взаимодействию с поисковыми системами необходимо создавать некие наборы правил. В соответствии с этими правилами поисковые виртуальные машины-роботы будут получать доступ к разрешенным разделам сайта (файлам и директориям), а к тем разделам, которые не предназначены для ботов, доступ будет «не рекомендован».

Инструкции из файла robots.txt являются рекомендациями. То есть, поисковые системы могут и не исполнять их. Это имеет значение, если среди прочих данных есть конфиденциальная информация.

Причем неважно, есть ли на сайте файл robots.txt, или его нет, для поисковиков это не имеет значения. Но при отсутствии файла программы-боты станут хозяйничать на сайте, как у себя дома, загружая большие объемы информации и несколько тормозя работу сайта.

Таким образом, присутствие файла весьма желательно не только для оптимизации взаимодействия с поисковиками, но и для уменьшения нагрузки на сайт.

Что такое robots.txt и как его читают боты

По сути, robots.txt – это простой текстовый файл, который размещают в корневой директории сайта. Когда поисковый бот попадает на ресурс, он в первую очередь пытается обнаружить этот файл, после чего считывает его и при дальнейшей работе руководствуется описанными инструкциями.

Если файл не будет найден, то это не смутит робота, он будет скачивать и проверять все данные сайта.

Если масштаб проекта не слишком велик, — маленький и легкий сайт без сложной структуры, — то, возможно, и не следует создавать файл роботс.

Как создать файл robots.txt

Создать файл robots.txt можно в текстовом редакторе, после формирования сохранить с расширением *.txt. При желании можно использовать готовые шаблоны файлов, они есть в сети; есть также специальные онлайн-сервисы, позволяющие сгенерировать robots.txt автоматически.

Однако стоит заметить, что роботс, созданный онлайн-программами, нужно очень тщательно проверять. От этого будет зависеть правильная работа сайта, иначе могут быть серьезные трудности в будущей работе ресурса.

При написании команд, нужно учесть, что хотя не имеет значения, какими буквами написана директива, строчными или заглавными (user=USER), однако лучше писать так, чтобы потом не было проблем с прочтением и разбором файла. Разработчики ПО называют это культурой написания кода.

Дополнительные операторы

Помимо основных директив при создании роботса используются дополнительные символьные операторы:

  • Символ «*» — показывает, что количество символов может быть любым, либо символы отсутствуют;
  • символ «$» — значит, что предыдущий символ является последним;
  • символ «#» — предупреждает, что за ним следует комментарий к коду, не читаемый ботом.

Директива User-agent

Это основная директива файла, которая сообщает, какие боты должны выполнять все остальные команды.

Например, имена основных поисковых программ:

  • Google – googlebot;
  • яндекс – Yandex;
  • рамблер – StackRambler;
  • yahoo – Slurp;
  • msn – msnbot.

Это лишь наименование ключевых ботов, есть еще и другие, например, — Googlebot-Image – это поисковый робот Гугла, работающий с картинками, а YandexNews – проводит индексацию новостных данных. При разработке структуры роботс-файла нужно четко понимать, для каких данных следует допускать того или иного бота. Также можно обращаться ко всем поисковым программам определенного поисковика.

Команда для конкретного поисковика будет смотреться так:

User-agent: <наименование поисковой программы>

Или обращаемся ко всем ботам Яндекса:

User-agent: Yandex

Если перечень директив адресуется всем поисковикам, то вместо имени ставится звездочка:

User-agent: *

За этой командой должна идти следующая, то есть, обращаясь к конкретному боту, мы должны определить – что он должен делать, или не делать.

Директивы Disallow и Allow

Эти команды запрещают или разрешают ботам, указанным командой User-agent, читать определенные данные. Поскольку структура файла – блоковая, то пример будет выглядеть так:

User-agent: Googlebot # для Гугл-бота:

Disallow: /file_1.html # запрещено читать файл file_1.html

Можно прописать запрет на индексацию и файлов, и директорий:

User-agent: Googlebot

Disallow: /Foto # для Гугл-бота действует запрет на две директории

Disallow: /Docs

Disallow: /file_1.html # и один файл

На примере видно, как использовать команды Allow/Disallow для фалов и расширений файлов:

Allow: *.txt # разрешение действует на все файлы формата *txt

Disallow: /Temp # запрет для папки Temp

Если же необходимо разрешить доступ к файлам *txt , входящим в папку Temp, придется это делать так:

Allow: *.txt # Здесь разрешена индексация всех файлов *txt

Allow: Temp/*.txt # в том числе *txt из папки Temp

Disallow: /Temp # для остальных файлов Temp – доступ закрыт

Порядок очередности команд не имеет значения.

Директива Host

Необходима для объявления главного зеркала сайта. Объявляется только один раз. Основное назначение – если доступ к сайту возможен с нескольких доменов-зеркал(поддоменов), определить это, а при необходимости — отметить главный зекральный ресурс.

Пример использования:

User-Agent: Yandex

Disallow: /Docs

Host: www.site.ru # основное зеркало сайта

Cейчас вместо директивы Host используется перенаправление 301 редирект.

Директиву Host можно смело удалять изо всех файлов роботс, как «мертвую» команду.

Директива Sitemap

Сообщает роботам, где находится карта сайта в виде XML файла, в котором перечислены адреса всех страниц ресурса для сканирования. Поможет боту определить, как изменилась структура ресурса, для дальнейшей индексации и обновления базы данных поисковика.

Расположение команды – не имеет значения.

Написание команды:

Sitemap: http://site.ru/sitemap.xml

Директива Crawl-delay

Еще один вспомогательный оператор, актуальный только для Yandex. Сообщает поисковой программе, сколько времени в секундах будут загружаться страницы. Нужен, если ресурс расположен на слабом сервере или — если страниц слишком много и они много «весят», а индексация происходит очень часто. В этом случае боты могут сильно загружать систему.

При помещении строки:

Crawl-delay: 4

Теперь Яндекс-программы будут оповещены, что не следует скачивать данные более одного раза в 4 секунды. Можно указывать не только целые, но и дробные числа.

Директива Clean-param

Команда обращается к боту с требованием не индексировать адреса страниц с указанными параметрами. Это более всего касается динамических ссылок, которые постоянно генерируются в процессе работы сайта и могут дублировать друг друга. Одна и та же страница может быть доступна одновременно по нескольким адресам:

www.site.ru/catalog/get_phone.ru?ref=page_1&phone_id=1

www.site.ru/catalog/get_phone.ru?ref=page_2&phone_id=1

www.site.ru/catalog/get_phone.ru?ref=page_3&phone_id=1

Решить проблему можно просто:

User-agent: Yandex

Disallow:

Clean-param: ref /catalog/get_phone.ru

Ref – атрибут, который сообщает источник ссылки.

Настройка файла конфигурации и проверка

Одной из основ настройки конфигурационного файла роботс является четкое понимание, каких целей нужно добиться. Для этого следует сделать анализ, на основании лог-файлов, использовать специальные программы и сервисы, выяснить к каким отделам сайта краулеры проявляют наибольший интерес и какую нагрузку на систему они при этом создают. Если происходит постоянное торможение ресурса вследствие частой индексации, то есть резон запретить ботам качать большие фрагменты с сайта, ограничить доступ к соответствующим директориям.

Файл «robot.txt» размещают в корневом каталоге, например:

Адрес_сайта.рф/robots.txt

Отправить роботс на его законное место можно при помощи либо FTP клиента, либо через файловый менеджер портала, предоставляющего хостинг.

Есть различные платные/бесплатные онлайн-сервисы для тестирования готовых проектов. При их участии можно получить реальные рекомендации о способах оптимизации ресурса. На аналогичных порталах следует проверять отредактированный вручную файл «роботс», его тестирование укажет на ошибки, допущенные при составлении; после исправления которых можно будет снова поместить robots.txt в корневой каталог сайта.

Для заливки на ресурс можно использовать Total Commander. Ищем параметры хостинга на панели управления сайтом. Потребуются: логин FTP, пароль и хост. В Total Commander ищем – «Сеть» — «Соединиться с FTP», жмем на кнопку «Добавить» с правой стороны. Вводим данные хостинга, ставим галку в клетку «Пассивный режим обмена».

Если все введено правильно, то после нажатия кнопки «Ок», произойдет соединение и появится возможность загружать файла на сервер.

Особенности настройки файла для Yandex и Google

Считается, что настраивать конфиг-файл роботс следует для Яндекса, Гугла и остальных поисковиков тремя блоками команд-операторов, то есть — отдельно для каждого.

Тогда в файле будет такого рода скелет:

User-agent: *

User-agent: Yandex

User-agent: Googlebot

Между блоками директив для разных ПС нужно оставлять пустую строчку.

Не забываем указать адрес карты сайта в каталоге:

Sitemap: http://site.ru/sitemap.xml

Если проект крупный, состоящий из нескольких десятков тысяч страниц, то рекомендуется его разбить на части, тогда карт будет несколько. Каждую придется вписать в роботс.

При создании записей для Яндекса, учитываем, что сейчас директива Host больше им не поддерживается, поэтому используем 301 редирект.

Проверить правильность записей в файле конфигурации можно на Яндекс Вебмастер. Используя соответствующие диалоговые окна, вводим содержимое роботса, ссылку на реальный сайт, нажимаем кнопку «проверить».

При редактировании блока для Гугла, отметим, что разработчики ПС советуют разрешать доступ к JS скриптам и CSS таблицам. С одной стороны, лишние страницы не должны появиться в выдаче ПС, с другой – краулеры будут более корректно обрабатывать сайт и заполнять базу данных ПС.

User-agent: Googlebot

Allow: *.css # разрешаем обработку таблиц

Allow: *.js # разрешаем индексирования скриптов

Robots.txt предназначенный для Гугла проверяем на сайте сервиса Google Webmaster Tools.

Тонкая настройка, что закрывать

Опытные вебмастера часто запрещают индексацию:

  1. Для ресурсов, связанных с интернет-торговлей, лучше ограничить доступ ботов к файлам корзины товаров и оформления покупок. Сюда же относятся различные фильтры для сравнения товаров.
  2. Запрет на индексацию конфиденциальной информации. Это то, что имеет отношение к регистрационным данным пользователей (посетителей) сайта. Базы данных логинов, паролей и так далее.
  3. Системные каталоги, – их перебор – лишняя трата времени для поисковой программы.
  4. Страницы поиска по сайту – в некоторых случаях, при их индексации, возможно появление множества дублей-ссылок.
  5. Временные страницы – например, если разрабатывается новый дизайн проекта, тоже лишние для краулеров.

В качестве дополнения: если нет возможности сделать ЧПУ (человеко-понятные URL адреса для ссылок), то лучше скрывать их от ботов.

Robot.txt и типичные ошибки

При написании команд, следует быть внимательными.

  • Очень часто начинающие веб дизайнеры путают синтаксис команд:

User-agent: / # нет такого поискового робота

Disallow: Yandexbot # нет такой директории

Реакции на эти команды не последует. Правильно так:

User-agent: Yandexbot

Disallow: /

  • К оператору Disallow пристраивают одновременно несколько папок или директорий:

Disallow: /Temp /home /Video

Следует определять для каждой команды Allow/Disallow – одну папку.

  • Неправильное название файла. Если в тексте конфига можно использовать строчные и заглавные буквы, то название «robots.txt» — должно состоять только из маленьких.
  • Оператор User-agent должен иметь параметр: или имя бота, или символ «*».
  • Посторонние символы, нарушающие структуру роботс-файла.
  • Нельзя писать полные адреса запрещаемых страниц:

Полный адрес документа: http://site.super/pupkin.html , но для запрета доступа к документу pupkin.html указываем:

Disallow: /pupkin.html

Бывают менее распространенные ошибки: путь к карте сайта указан не тот, или сайт полностью закрыт от индексирования; либо не запрещен доступ к страницам с идентификаторами сессий, метками UTM.

Даже если файл составлен правильно и максимально оптимизирован, не стоит ждать мгновенных изменений в базах поисковиков. Обновление данных произойдет через 1-2 недели.

Использование robots.txt в WordPress

WP – это комплекс ПО (CMS – система управления содержимым) — для поддержки данных сайта, распространено в соответствии с лицензией GPL.

Создание файла ничем не отличается от всех прочих способов: открываем текстовый файл, редактируем по правилам, сохраняем в виде robots.txt и льем в корень ресурса.

Для создания роботс можно использовать плагин.

Плагин для редактирования All in One SEO Pack

All in One SEO Pack – плагин WordPress, позволяющий создавать и редактировать роботс. Этот файл является динамическим, то есть он формируется и показывается только при обращении краулера к сайту. XML карту сайта лучше приготовить заранее и поместить в корневой каталог проекта.

Хорош еще тем, что имеет множество настроек, помогающих оптимизировать проект.

Советы по настройке robots в CMS

  1. Modx – возможны трудности с ссылками-дублями. Соответственно решается запретами – Disallow:

Disallow: /index.php # дубль основной страницы ресурса

Disallow: *? # убираем все дублирующие ссылки

  1. Opencart — популярный движок онлайн-магазина. Стандартного шаблона в настройках нет, но никаких особых изменений тоже нет, создаем robots.txt, алгоритм запретов: база паролей, административные каталоги и прочее.
  1. Bitrix – используем штатные средства на сайте CMS: перейдя по пунктам меню: «Маркетинг» — «Настройка robot.txt». Главное не позволять достуформе регистрации во избежание появления дублей:

Disallow: /*register=

Disallow: /*forgot_password=

Disallow: /*change_password=

Disallow: /*login=

Disallow: /*logout=

Disallow: /*auth=

  1. Django, yii2, cs cart и webasyst – особых отличий по установке и настройке нет.

Оригинальные способы применения robots.txt

  • Некоторые фирмы размещают в роботсе вакансии для дизайнеров и оптимизаторов Сео;
  • мастера-оптимизаторы публикуют в файле контакты для продвижения своих услуг;
  • иногда разработчики шутят или оставляют на robots.txt целые картины из букв, цифр и символов;
  • пишут советы по оптимизации конфигов;

Итог

Создание и редактирование файла robots.txt – это своего рода искусство. Заключается оно в таком создании правил индексации, — чтобы с одной стороны не ухудшить рейтинг ресурса, его доступность в общей базе конкретного поисковика — для пользователей, а с другой стороны – ограничить бессмысленные шатания поисковых ботов по директориям проекта.

Генератор Robots.txt

Инструменты SEO

Инструменты, которые помогут вам создать и продвигать свой веб-сайт.

Расширения Firefox
Веб-инструменты Если вам нужна обратная связь или у вас есть какие-либо животрепещущие вопросы, задавайте их на форуме сообщества, чтобы мы могли их решить.

Обзор

Обзор содержания сайта.Включает карту сайта, глоссарий и контрольный список для быстрого старта.

SEO

Содержит информацию о ключевых словах, SEO на странице, построении ссылок и социальном взаимодействии.

КПП

Советы по покупке трафика в поисковых системах.

Отслеживание

Узнайте, как отслеживать свой успех с помощью обычных объявлений SEO и PPC. Включает информацию о веб-аналитике.

Доверие

Создание заслуживающего доверия веб-сайта — это основа того, чтобы быть достойным ссылок и продавать клиентам.

Монетизация

Узнайте, как зарабатывать деньги на своих веб-сайтах.

Аудио и видео

Ссылки на полезную аудио и видео информацию. Мы будем создавать новые SEO-видео каждый месяц.

Интервью

Эксклюзивные интервью только для участников.

Скидки

купонов и предложений, которые помогут вам сэкономить деньги на продвижении ваших сайтов.

Карта сайта

Просмотрите все наши учебные модули, на которые есть ссылки на одной странице.

Хотите проверить свой файл robots.txt?

Получите конкурентное преимущество сегодня

Ваши ведущие конкуренты годами инвестируют в свою маркетинговую стратегию.

Теперь вы можете точно знать, где они ранжируются, выбирать лучшие ключевые слова и отслеживать новые возможности по мере их появления.

Изучите рейтинг своих конкурентов в Google и Bing сегодня с помощью SEMrush.

Введите конкурирующий URL-адрес ниже, чтобы быстро получить доступ к их истории эффективности обычного и платного поиска — бесплатно.

Посмотрите, где они занимают место, и побейте их!

  • Исчерпывающие данные о конкурентах: исследований эффективности в обычном поиске, AdWords, объявлениях Bing, видео, медийных объявлениях и многом другом.
  • Сравните по каналам: воспользуйтесь чьей-либо стратегией AdWords, чтобы стимулировать рост вашего SEO, или используйте их стратегию SEO, чтобы инвестировать в платный поиск.
  • Глобальный охват: Отслеживает результаты Google по более чем 120 миллионам ключевых слов на многих языках на 28 рынках.
  • Исторические данные о производительности: восходит к прошлому десятилетию, до того, как существовали Panda и Penguin, поэтому вы можете искать исторические штрафы и другие потенциальные проблемы с рейтингом.
  • Без риска: Бесплатная пробная версия и низкая ежемесячная плата.

Ваши конкуренты, исследуют ваш сайт

Найдите новые возможности сегодня

Инструмент для создания текста роботов

Сравнить функциональные возможности

Как вы используете robots.txt, чтобы увидеть параллельное сравнение того, как ваш сайт в настоящее время обрабатывает поисковых роботов и как будет работать предлагаемый новый файл robots.txt, введите или вставьте URL-адрес домена вашего сайта или страницу вашего сайта в текстовое поле, а затем щелкните Сравнить .

Когда поисковые системы сканируют сайт, они сначала ищут файл robots.txt в корне домена. В случае обнаружения они читают список директив файла, чтобы увидеть, какие каталоги и файлы, если таковые имеются, заблокированы для сканирования.Этот файл можно создать с помощью генератора файлов robots.txt. Когда вы используете генератор robots.txt, Google и другие поисковые системы могут определить, какие страницы вашего сайта следует исключить. Другими словами, файл, созданный генератором robots.txt, похож на противоположность карты сайта, которая указывает, какие страницы нужно включить.

Генератор robots.txt

Вы можете легко создать новый или отредактировать существующий файл robots.txt для своего сайта с помощью генератора robots.txt.Чтобы загрузить существующий файл и предварительно заполнить инструмент генератора файлов robots.txt, введите или вставьте URL-адрес корневого домена в верхнее текстовое поле и нажмите Загрузить . Используйте инструмент генератора robots.txt для создания директив с директивами Allow или Disallow ( Разрешить по умолчанию, нажмите, чтобы изменить) для пользовательских агентов (используйте * для всех или нажмите, чтобы выбрать только один) для указанного контента на вашем сайте. Щелкните Добавить директиву , чтобы добавить новую директиву в список. Чтобы отредактировать существующую директиву, щелкните Удалить директиву , а затем создайте новую.

Создание настраиваемых директив пользовательского агента

В нашем генераторе robots.txt можно указать Google и несколько других поисковых систем в соответствии с вашими критериями. Чтобы указать альтернативные директивы для одного сканера, щелкните поле списка User Agent (по умолчанию отображается *), чтобы выбрать бота. Когда вы нажимаете Добавить директиву , настраиваемый раздел добавляется в список со всеми универсальными директивами, включенными в новую настраиваемую директиву. Чтобы изменить общую директиву Disallow на директиву Allow для настраиваемого пользовательского агента, создайте новую директиву Allow для конкретного пользовательского агента для содержимого.Соответствующая директива Disallow удалена для настраиваемого пользовательского агента.

Чтобы узнать больше о директивах robots.txt, см. Полное руководство по блокировке вашего контента в поиске.

Вы также можете добавить ссылку на свой XML-файл Sitemap. Введите или вставьте полный URL-адрес XML-файла Sitemap в текстовое поле XML Sitemap . Нажмите Обновить , чтобы добавить эту команду в список файлов robots.txt.

Когда закончите, нажмите Export , чтобы сохранить ваши новые robots.txt файл. Используйте FTP для загрузки файла в корневой домен вашего сайта. С помощью этого файла, загруженного из нашего генератора robots.txt, Google или другие указанные сайты будут знать, какие страницы или каталоги вашего сайта не должны отображаться при поиске пользователей.

Перезапустите этот инструмент
Если вам нравится этот инструмент, пожалуйста, добавьте его, поставьте лайк, напишите в Твиттере или еще лучше, дайте ссылку на него — Джим

Бесплатный генератор Robots.txt — Создайте файл robots.txt в Интернете

Robots.txt

Файл robots.txt — это текстовый файл, который содержит команды для роботов (или сканеров) индексации поисковой системы, чтобы указать, какие страницы можно или нельзя индексировать. Это файл ASCII, расположенный в корне веб-сайта, и должен быть написан в нижнем регистре и во множественном числе. Мета-тег «роботы» (в заголовке страниц) также может использоваться для запрета индексации страницы.

Этот файл позволяет вам оставлять инструкции индексирующим роботам:

  • Чтобы указать расположение файлов карты сайта
  • Запретить индексацию вашего сайта для определенных роботов
  • Запретить индексацию определенных страниц / каталогов

Он может содержать следующие директивы:

  • Sitemap : он определяет файлы Sitemap или индексные файлы Sitemap
  • User-Agent : он определяет робота, на который влияют следующие директивы.
    Например, агент пользователя Google — это робот Google.
    *: это означает, что директивы относятся ко всем индексирующим роботам.
  • Disallow : Позволяет запретить доступ к определенным страницам / каталогам вашего веб-сайта.
    Должен начинаться с /
    / означает весь сайт.
    Некоторые поисковые системы (Google и Bing) позволяют использовать символы $ и *:
    * : Он представляет любую последовательность символов.
    $ : соответствует концу URL-адреса.
  • Разрешить : это противоположность директиве Disallow.Он указывает, какие страницы / каталоги включить из индексации. По умолчанию каждая страница может быть проиндексирована.

Будьте осторожны: файл robots.txt не обрабатывается одинаково во всех поисковых системах.

Для одних роботов преобладает первая директива, для других — наиболее конкретные директивы, которые берут верх.

Примеры:
Исключение всех страниц для всех поисковых систем / сканеров:

User-Agent: *
Disallow: /

Весь веб-сайт индексируется:

User-Agent: *
Allow: /

Исключение робота Gigabot:

User-Agent: Gigabot
Disallow: /
User-Agent: *
Allow: /

Исключение каталога:

User-Agent: *
Disallow: / directory /

Excluding все страницы, начинающиеся с «car» (страница «car-low-cost» запрещена для сканирования):

User-Agent: *
Disallow: / car

Исключая страницу «car» («car-low» -cost «страница разрешена для сканирования):

User-Agent: *
Disallow: / car $

Создать собственный файл robots.txt мгновенно!

Обзор нашего онлайн-генератора Robots.txt

Наш генератор Robots.txt разработан, чтобы помочь веб-мастерам, специалистам по поисковой оптимизации и маркетологам создавать файлы robots.txt без особых технических знаний. Однако будьте осторожны, поскольку создание файла robots.txt может существенно повлиять на возможность доступа Google к вашему веб-сайту, независимо от того, создан ли он на WordPress или другой CMS.

Хотя наш инструмент прост в использовании, мы рекомендуем вам ознакомиться с инструкциями Google перед его использованием.Это связано с тем, что неправильная реализация может привести к тому, что поисковые системы, такие как Google, не смогут сканировать важные страницы вашего сайта или даже всего вашего домена, что может очень негативно повлиять на ваше SEO.

Давайте углубимся в некоторые функции, которые предоставляет наш онлайн-генератор Robots.txt.

Как создать файл robots.txt

Как создать свой первый файл robots.txt?

Первый вариант, который вам будет предложен, — разрешить или запретить всем поисковым роботам доступ к вашему сайту.Это меню позволяет вам решить, нужно ли сканировать ваш сайт; однако могут быть причины, по которым вы можете отказаться от индексации своего веб-сайта в Google.

Второй вариант, который вы увидите, — добавлять ли файл карты сайта в формате xml. Просто введите его местоположение в это поле. (Если вам нужно создать карту сайта в формате XML, вы можете использовать наш бесплатный инструмент.)

Наконец, вам предоставляется возможность заблокировать определенные страницы или каталоги от индексации поисковыми системами. Обычно это делается для страниц, которые не предоставляют никакой полезной информации для Google и пользователей, например страниц входа, корзины и параметров.

Когда это будет сделано, вы можете скачать текстовый файл.

После создания файла robots.txt обязательно загрузите его в корневой каталог своего домена. Например, ваш файл robots.txt должен появиться по адресу: www.yourdomain.com/robots.txt

Полезно? Мы надеемся на это!

Создайте свой первый файл robots.txt с помощью нашего инструмента и сообщите нам, как он работает для вас.

Что такое файл Robots.txt?

Файл robots.txt — это действительно простой файл в текстовом формате.Его основная функция заключается в предотвращении сканирования и индексации контента на веб-сайте определенными сканерами поисковых систем, такими как Google, в целях SEO.

Если вы не уверены, есть ли на вашем веб-сайте или на веб-сайте вашего клиента файл robots.txt, это легко проверить:

Просто введите yourdomain.com/robots.txt. Вы найдете либо страницу с ошибкой, либо страницу простого формата. Если вы используете WordPress и у вас установлен Yoast, то Yoast также может создать для вас текстовый файл.

Подробнее о роботах.txt Файлы

Некоторые расширенные фразы, которые вы можете найти в своем файле robots.txt, включают:

User-agent:

Поскольку каждая поисковая система имеет свой собственный сканер (наиболее распространенным является Googlebot), «user-agent» позволяет вам чтобы уведомить определенные поисковые системы о том, что для них предназначен следующий набор инструкций.

Обычно после слова «user-agent» следует *, также известный как подстановочный знак. Это означает, что все поисковые системы должны принять к сведению следующий набор инструкций.Обычно после подстановочного символа есть фраза по умолчанию, которая говорит всем поисковым системам не индексировать никакую веб-страницу на вашем сайте.

Фраза по умолчанию — запретить индексирование символа «/», что, по сути, запрещает роботам все внутренние страницы, кроме вашего основного URL. Очень важно проверить эту фразу и немедленно удалить ее со страницы robots.txt.

Это будет выглядеть примерно так:

User-agent: *
Disallow: /

Disallow:

Термин «Disallow», за которым следует URL любого вида, дает строгие инструкции для вышеупомянутого пользователя. -agent, который должен появиться в строке выше.

Например, вы можете заблокировать определенные страницы от поисковых систем, которые, по вашему мнению, бесполезны для пользователей. Обычно это страницы входа в WordPress или страницы корзины, поэтому в файлах robots.txt на сайтах WordPress вы видите следующие строки текста:

User-agent: *
Disallow: / wp-admin /

XML Sitemap:

Другая фраза, которую вы можете увидеть, — это ссылка на расположение вашего XML-файла карты сайта. Обычно это последняя строка вашего файла robots.txt, и он указывает поисковым системам, где находится ваша карта сайта. Включение этого упрощает сканирование и индексацию.

Вы можете оптимизировать свой собственный веб-сайт, введя следующую простую функцию:

Sitemap: yourdomain.com/sitemap.xml (или точный URL-адрес вашего xml-файла карты сайта).

Онлайн-инструмент для создания и проверки Robots.txt

Сведения об инструменте и инструкции по эксплуатации

Создайте файл robots.txt для своего веб-сайта с помощью наших лучших роботов.txt генератор. Этот валидатор robots.txt также дает вам возможность проверять сгенерированный код или URL-адрес robots.txt. Инструмент разделен на две части:

— Создайте файл роботов и проверьте его.
— Получить robots.txt по URL и проверить.

Протокол исключения роботов (robots.txt) используется веб-роботами для связи с веб-сайтом. Файл сообщает роботу, какой раздел веб-сайта сканировать, а какой — нет. Сканеры или роботы, участвующие в рассылке спама, могут не уважать роботов.txt файл.

В этом файле используется протокол Robots Exclusion Standard. Протокол следует за набором команд, которые могут читать боты, посещающие ваш сайт. Следует помнить о некоторых моментах:

— Если вы запретили каталог, боты не будут индексировать или сканировать данные, если они не найдут данные из другого источника в Интернете.
— Боты интерпретируют синтаксис по-разному, например, если вы устанавливаете пользовательские агенты в начале, например:

 Агент пользователя: *
Disallow: / 

Тогда нет необходимости снова блокировать роботов по отдельности.
— Файл является только директивным. Некоторые боты могут не учитывать файл.

Как создать robots.txt?

— Файл действует как карта сайта, сообщая роботам, какую часть сканировать, а какую нет.

Воспользуйтесь нашим инструментом, чтобы сгенерировать код robots.txt для вашего веб-сайта и загрузить файл в корневой каталог вашего веб-сайта. Файл robots.txt должен быть доступен по адресу «http://www.yourdomain.com/robots.txt».

Как выглядит обычный файл роботов?

Обычный или, можно сказать, «дефолтный» робот.текст такой:

User-agent: *
Disallow:

Но вы можете создать предварительный файл с помощью нашего генератора robots.txt.

Преимущества Robots.txt?

1. Низкое использование полосы пропускания, поскольку вы ограничиваете пауков только сканированием определенных разделов веб-сайта.
2. Люди не смогут увидеть информацию при посещении вашего сайта через поисковые системы.
3. Предотвращение спама.

Как добавить файл robots.txt на свой сайт?

1.Выберите параметры выше
2. Создайте текстовый файл с именем «robots».
3. Скопируйте содержимое текстовой области и вставьте в текстовый файл
4. Не забудьте проверить код робота
5. Добавьте файл в корневой каталог, например, https://www.visiospark.com/ robots.txt

Когда и зачем использовать файлы robots.txt

Подробнее о том, как разместить файлы robots.txt на вашем веб-сайте.

Если вы читаете этот пост, вы, вероятно, человек или робот.Если вы человек, вы можете свободно просматривать Интернет и посещать любые веб-сайты, которые вас интересуют. Если вы робот, как вы определяете, куда идти? Есть какие-нибудь указания? Есть ли ограничения? Кроме того, что такое робот?

Определенный робот


Перво-наперво: робот — это автоматизированная программа, которая путешествует по Интернету для сбора информации. Например, у Google есть Googlebot, который сканирует Интернет, творит чудеса с найденной информацией, а затем предоставляет нам полезные результаты, когда мы ищем что-то в Интернете.В других поисковых системах также есть боты, например, Bing и Yahoo. И не все роботы являются хорошими интернет-гражданами — у спамеров могут быть роботы, которые сканируют Интернет в поисках адресов электронной почты, которые позже могут быть использованы для рассылки электронных писем.

Чтобы дать хорошо управляемым роботам представление о том, что сканировать, а что , а не , для этих роботов был создан протокол (или набор правил). Этот стандарт, называемый «Стандартом исключения роботов», представляет собой набор инструкций, которые сообщают роботам, какие веб-сайты следует сканировать, а какие — нет.

Легко понять, как это работает, если углубиться в подробности. Чтобы реализовать этот протокол на веб-сайте, включите файл robots.txt в корневой каталог вашего сайта. Когда этот файл существует, он будет найден и использован роботами, поддерживающими протокол, в Интернете. Когда у вас есть этот файл, вы можете добавить текст, который выглядит следующим образом:

User-agent: googlebot
Disallow: / secret

Ваш файл robots.txt дает указание роботу-сканированию Google (и только его роботу) игнорировать каталог / secret на вашем веб-сайте.В результате содержимое этого каталога не будет отображаться в результатах поиска Google.

Если вы хотите запретить всем поисковым роботам (которые соответствуют этому протоколу) сканировать весь ваш веб-сайт, вы можете сделать это:

Агент пользователя: *
Disallow: /

Вышеупомянутое правило нередко используется, когда вы хотите разместить веб-сайт в Интернете для целей разработки, при этом скрывая его от широкой публики.

Следующий протокол является гибким, так как вы можете обращаться к нескольким сканерам, если хотите:

User-agent: googlebot
Disallow: /

User-agent: bingbot
Disallow: / secret
Disallow: / images
Disallow: / audio

Это укажет Google не сканировать весь ваш сайт, а только скажет Bing не сканировать ваши каталоги / secret, / images и / audio.

Важно подчеркнуть, что этот протокол всего лишь советует роботам, что делать — нет никаких гарантий относительно того, будут ли ваши предложения соблюдены или нет. Если вы заинтересованы в сохранении секретности и безопасности веб-страницы, есть другие, гораздо более эффективные способы сделать это, чем просто полагаться на файл robots.txt.

Таким образом, если вы хотите посоветовать определенным веб-роботам избегать использования некоторых или всех разделов вашего сайта, рекомендуется создать файл robots.txt файл.


Что такое файл Robots.txt? И как его создать? (Руководство для начинающих)

Знаете ли вы, что у вас есть полный контроль над тем, кто сканирует и индексирует ваш сайт, вплоть до отдельных страниц?

Это делается с помощью файла Robots.txt.

Robots.txt — это простой текстовый файл, который размещается в корневом каталоге вашего сайта. Он сообщает «роботам» (например, паукам поисковых систем), какие страницы сканировать на вашем сайте, а какие игнорировать.

Хотя это и не обязательно, файл Robots.txt дает вам полный контроль над тем, как Google и другие поисковые системы видят ваш сайт.

При правильном использовании это может улучшить сканирование и даже повлиять на SEO.

Но как именно создать эффективный файл Robots.txt? После создания, как вы его используете? И каких ошибок следует избегать при его использовании?

В этом посте я поделюсь всем, что вам нужно знать о файле Robots.txt и о том, как использовать его в своем блоге.

Давайте нырнем:

Что такое файл Robots.txt?

Еще на заре Интернета программисты и инженеры создали «роботов» или «пауков» для сканирования и индексации страниц в сети. Этих роботов также называют «пользовательскими агентами».

Иногда эти роботы пробирались на страницы, которые владельцы сайтов не хотели индексировать. Например, строящийся сайт или частный сайт.

Для решения этой проблемы голландский инженер Мартин Костер, создавший первую в мире поисковую систему (Aliweb), предложил набор стандартов, которых должен придерживаться каждый робот.Эти стандарты были впервые предложены в феврале 1994 года.

30 июня 1994 г. ряд авторов роботов и пионеров Интернета пришли к консенсусу по поводу стандартов.

Эти стандарты были приняты как «Протокол исключения роботов» (REP).

Файл Robots.txt является реализацией этого протокола.

REP определяет набор правил, которым должен следовать каждый законный поисковый робот или паук. Если Robots.txt предписывает роботам не индексировать веб-страницу, каждый законный робот — от Googlebot до MSNbot — должен следовать инструкциям.

Примечание: Список легальных поисковых роботов можно найти здесь.

Имейте в виду, что некоторые роботы-мошенники — вредоносные программы, шпионское ПО, сборщики электронной почты и т. Д. — могут не следовать этим протоколам. Вот почему вы можете видеть трафик ботов на страницах, заблокированных через файл Robots.txt.

Есть также роботы, не соблюдающие стандарты REP, которые не используются ни для чего сомнительного.

Вы можете просмотреть robots.txt любого веб-сайта, перейдя по этому адресу:

http: // [website_domain] / robots.txt

Например, вот файл Robots.txt Facebook:

А вот файл Google Robots.txt:

.

Использование Robots.txt

Robots.txt не является важным документом для веб-сайта. Ваш сайт может отлично ранжироваться и расти без этого файла.

Однако использование Robots.txt дает некоторые преимущества:

  • Запретить ботам сканировать личные папки — Хотя это и не идеально, запрет ботам сканировать личные папки значительно затруднит их индексирование — по крайней мере, законными ботами (такими как пауки поисковых систем).
  • Контроль использования ресурсов — Каждый раз, когда бот просматривает ваш сайт, он истощает вашу полосу пропускания и ресурсы сервера — ресурсы, которые лучше потратить на реальных посетителей. Для сайтов с большим количеством контента это может привести к увеличению затрат и ухудшить впечатление реальных посетителей. Вы можете использовать Robots.txt, чтобы заблокировать доступ к скриптам, неважным изображениям и т. Д. Для экономии ресурсов.
  • Расставьте приоритеты для важных страниц — Вы хотите, чтобы пауки поисковых систем сканировали важные страницы вашего сайта (например, контентные страницы), а не тратили впустую ресурсы на бесполезные страницы (например, результаты поисковых запросов).Блокируя такие бесполезные страницы, вы можете определить приоритеты, на которых боты сосредоточены.

Как найти файл Robots.txt

Как следует из названия, Robots.txt — это простой текстовый файл.

Этот файл хранится в корневом каталоге вашего веб-сайта. Чтобы найти его, просто откройте свой инструмент FTP и перейдите в каталог своего веб-сайта в public_html.

Это крошечный текстовый файл — у меня чуть больше 100 байт.

Чтобы открыть его, используйте любой текстовый редактор, например Блокнот.Вы можете увидеть что-то вроде этого:

Есть вероятность, что вы не увидите ни одного файла Robots.txt в корневом каталоге вашего сайта. В этом случае вам придется создать файл Robots.txt самостоятельно.

Вот как:

Как создать файл Robot.txt

Поскольку Robots.txt — это простой текстовый файл, создать его ОЧЕНЬ просто — просто откройте текстовый редактор и сохраните пустой файл под именем robots.txt .

Чтобы загрузить этот файл на свой сервер, используйте свой любимый FTP-инструмент (я рекомендую использовать WinSCP) для входа на ваш веб-сервер.Затем откройте папку public_html и откройте корневой каталог вашего сайта.

В зависимости от того, как настроен ваш веб-хостинг, корневой каталог вашего сайта может находиться непосредственно в папке public_html. Или это может быть папка внутри него.

После того, как вы откроете корневой каталог вашего сайта, просто перетащите в него файл Robots.txt.

Вы также можете создать файл Robots.txt прямо из редактора FTP.

Для этого откройте корневой каталог вашего сайта и щелкните правой кнопкой мыши -> Создать новый файл.

В диалоговом окне введите «robots.txt» (без кавычек) и нажмите «ОК».

Внутри вы должны увидеть новый файл robots.txt:

Наконец, убедитесь, что вы установили правильные права доступа для файла Robots.txt. Вы хотите, чтобы владелец — вы сами — читал и записывал файл, но не для других или общественности.

В вашем файле Robots.txt должно быть указано «0644» в качестве кода доступа.

Если это не так, щелкните правой кнопкой мыши файл Robots.txt и выберите «Права доступа к файлу…».

Вот и все — полнофункциональные роботы.txt файл!

Но что на самом деле можно сделать с этим файлом?

Далее я покажу вам несколько общих инструкций, которые вы можете использовать для управления доступом к своему сайту.

Как использовать Robots.txt

Помните, что Robots.txt по сути определяет, как роботы взаимодействуют с вашим сайтом.

Хотите заблокировать доступ поисковых систем к вашему сайту? Просто измените разрешения в Robots.txt.

Хотите заблокировать Bing от индексации вашей страницы контактов? Вы тоже можете это сделать.

Сам по себе файл Robots.txt не улучшит ваше SEO, но вы можете использовать его для управления поведением роботов на вашем сайте.

Чтобы добавить или изменить файл, просто откройте его в редакторе FTP и добавьте текст напрямую. Как только вы сохраните файл, изменения будут немедленно отражены.

Вот несколько команд, которые можно использовать в файле Robots.txt:

1. Заблокируйте доступ всех ботов на свой сайт

Хотите запретить всем роботам сканировать ваш сайт?

Добавьте этот код в свой Robots.txt файл:

  Агент пользователя:  * 
Запрещение: /

Вот как это будет выглядеть в фактическом файле:

Проще говоря, эта команда сообщает каждому пользовательскому агенту (*) не обращаться ни к каким файлам или папкам на вашем сайте.

Вот полное объяснение того, что именно здесь происходит:

  • User-agent: * — Звездочка (*) — это «подстановочный знак», который применяется к для каждого объекта (например, имени файла или, в данном случае, бота).Если вы выполните поиск «* .txt» на своем компьютере, он будет отображать все файлы с расширением .txt. Здесь звездочка означает, что ваша команда применяется к через каждый пользовательский агент .
  • Disallow: / — «Disallow» — это команда robots.txt, запрещающая ботам сканировать папку. Одинарная косая черта (/) означает, что вы применяете эту команду к корневому каталогу.

Примечание: Это идеально, если у вас есть какой-либо частный веб-сайт, например сайт членства.Но имейте в виду, что это остановит сканирование вашего сайта всеми законными ботами, такими как Google. Используйте с осторожностью.

2. Запретить всем ботам доступ к определенной папке

Что делать, если вы хотите запретить ботам сканировать и индексировать определенную папку?

Например, папка / images?

Используйте эту команду:

  User-agent: * 
Disallow: / [имя_папки] /

Если вы хотите запретить ботам доступ к папке / images, команда должна выглядеть следующим образом:

Эта команда полезна, если у вас есть папка ресурсов, которую вы не хотите перегружать запросами роботов-роботов.Это может быть папка с неважными скриптами, устаревшими изображениями и т. Д.

Примечание: Папка / images является исключительно примером. Я не говорю, что вы должны запретить ботам сканировать эту папку. Это зависит от того, чего вы пытаетесь достичь.

Поисковые системы обычно недовольны тем, что веб-мастера блокируют своим ботам сканирование папок без изображений, поэтому будьте осторожны при использовании этой команды. Ниже я перечислил несколько альтернатив Robots.txt, которые не позволяют поисковым системам индексировать определенные страницы.

3. Заблокируйте доступ определенных ботов на свой сайт

Что делать, если вы хотите заблокировать доступ к вашему сайту определенному роботу, например роботу Googlebot?

Вот команда для этого:

  User-agent: [имя робота] 
Disallow: /

Например, если вы хотите заблокировать доступ робота Googlebot к своему сайту, вы должны использовать следующее:

У каждого легитимного бота или пользовательского агента есть определенное имя. Например, паук Google просто называется «робот Googlebot».Microsoft использует как «msnbot», так и «bingbot». Бот Yahoo называется Yahoo! Хлебать ».

Чтобы найти точные имена различных пользовательских агентов (таких как Googlebot, bingbot и т. Д.), Используйте эту страницу.

Примечание: Приведенная выше команда блокирует доступ определенного бота ко всему вашему сайту. Робот Googlebot используется исключительно в качестве примера. В большинстве случаев вы никогда не захотите, чтобы Google сканировал ваш сайт. Одним из конкретных вариантов использования блокировки определенных ботов является удержание ботов, которые приносят вам пользу, приходящие на ваш сайт, и остановку тех, которые не приносят пользу вашему сайту.

4. Запретить сканирование определенного файла

Протокол исключения роботов дает вам точный контроль над тем, какие файлы и папки вы хотите заблокировать для роботов.

Вот команда, которую вы можете использовать, чтобы запретить сканирование файла любым роботом:

  Пользовательский агент: * 
Запретить: / [имя_папки] / [имя_файла.расширение]

Итак, если вы хотите заблокировать файл с именем «img_0001.png» из папки «images», вы должны использовать эту команду:

5.Блокировать доступ к папке, но разрешить индексирование файла

Команда «Запретить» запрещает ботам доступ к папке или файлу.

Команда «Разрешить» делает обратное.

Команда «Разрешить» заменяет команду «Запретить», если первая нацелена на отдельный файл.

Это означает, что вы можете заблокировать доступ к папке, но разрешить пользовательским агентам по-прежнему получать доступ к отдельному файлу в папке.

Вот используемый формат:

  Агент пользователя: * 
Запретить: / [имя_папки] /
Разрешить: / [имя_папки] / [имя_файла.extension] /

Например, если вы хотите запретить Google сканирование папки «изображения», но все же хотите предоставить ему доступ к файлу «img_0001.png», хранящемуся в ней, вы должны использовать следующий формат:

В приведенном выше примере это будет выглядеть так:

Это остановит индексирование всех страниц в каталоге / search /.

Что, если вы хотите, чтобы все страницы, соответствующие определенному расширению (например, «.php» или «.png»), не индексировались?

Используйте это:

  User-agent: * 
Disallow: / *.расширение $

Знак ($) здесь означает конец URL-адреса, то есть расширение — это последняя строка в URL-адресе.

Если вы хотите заблокировать все страницы с расширением «.js» (для Javascript), вы бы использовали следующее:

Эта команда особенно эффективна, если вы хотите запретить ботам сканировать скрипты.

6. Не позволяйте ботам слишком часто сканировать ваш сайт

В приведенных выше примерах вы могли видеть эту команду:

  Агент пользователя: * 
Задержка сканирования: 20

Эта команда предписывает всем ботам ждать не менее 20 секунд между запросами сканирования.

Команда Crawl-Delay часто используется на крупных сайтах с часто обновляемым содержанием (например, в Twitter). Эта команда указывает ботам подождать минимальное время между последующими запросами.

Это гарантирует, что сервер не будет перегружен слишком большим количеством запросов одновременно от разных ботов.

Например, это файл Robots.txt Твиттера, в котором ботам предписывается ждать минимум 1 секунду между запросами:

Вы даже можете контролировать задержку сканирования для отдельных ботов.Это гарантирует, что слишком много ботов не будут сканировать ваш сайт одновременно.

Например, у вас может быть такой набор команд:

Примечание: Вам действительно не нужно использовать эту команду, если только вы не используете большой сайт с тысячами новых страниц, создаваемых каждую минуту (например, Twitter).

Распространенные ошибки, которых следует избегать при использовании Robots.txt

Файл Robots.txt — это мощный инструмент для управления поведением ботов на вашем сайте.

Однако это также может привести к катастрофе SEO, если не используется правильно.Не помогает и то, что в Интернете существует ряд неправильных представлений о Robots.txt.

Вот некоторые ошибки, которых следует избегать при использовании Robots.txt:

Ошибка №1 — Использование Robots.txt для предотвращения индексации контента

Если вы «Запретите» папку в файле Robots.txt, легальные боты не будут сканировать ее.

Но это по-прежнему означает две вещи:

  • Боты БУДУТ сканировать содержимое папки, на которую есть ссылки из внешних источников.Скажем, если другой сайт ссылается на файл в вашей заблокированной папке, боты будут его проиндексировать.
  • Боты-мошенники — спамеры, шпионское ПО, вредоносное ПО и т. Д. — обычно игнорируют инструкции Robots.txt и независимо от этого индексируют ваш контент.

Это делает Robots.txt плохим инструментом для предотвращения индексации контента.

Вот что вам следует использовать вместо этого: используйте тег meta noindex.

Добавьте следующий тег на страницы, которые не нужно индексировать:

    

Это рекомендуемый, оптимизированный для SEO метод предотвращения индексации страницы (хотя он по-прежнему не блокирует спамеров).

Примечание: Если вы используете плагин WordPress, такой как Yoast SEO или All in One SEO; вы можете сделать это без редактирования кода. Например, в плагине Yoast SEO вы можете добавить тег noindex для каждой публикации / страницы следующим образом:

Просто откройте и разместите / страницу и щелкните шестеренку внутри поля Yoast SEO. Затем щелкните раскрывающееся меню рядом с «Индексом мета-роботов».

Кроме того, с 1 сентября Google перестанет поддерживать использование «noindex» в файлах robots.txt.В этой статье SearchEngineLand есть дополнительная информация.

Ошибка № 2 — Использование Robots.txt для защиты личного содержания

Если у вас есть частный контент, например PDF-файлы для курса электронной почты, блокировка каталога с помощью файла Robots.txt поможет, но этого недостаточно.

Вот почему:

Ваш контент может быть проиндексирован, если на него есть ссылки из внешних источников. Кроме того, его все равно будут сканировать боты-мошенники.

Лучший способ — сохранить весь личный контент за логином.Это гарантирует, что никто — законные или мошеннические боты — не получит доступа к вашему контенту.

Обратной стороной является то, что у ваших посетителей есть дополнительный обруч, через который можно прыгнуть. Но ваш контент будет более безопасным.

Ошибка № 3 — Использование Robots.txt для предотвращения индексации дублированного контента

Дублированный контент — большой запрет, когда дело доходит до SEO.

Однако использование Robots.txt для предотвращения индексации этого контента не является решением.Опять же, нет никакой гарантии, что пауки поисковых систем не найдут этот контент через внешние источники.

Вот еще 3 способа передать дублированный контент:

  • Удалить повторяющееся содержимое — Это полностью избавит от содержимого. Однако это означает, что вы ведете поисковые системы к 404 страницам — не идеально. По этой причине удаление не рекомендуется .
  • Использовать перенаправление 301 — перенаправление 301 сообщает поисковым системам (и посетителям), что страница переместилась в новое место.Просто добавьте 301 редирект на дублированный контент, чтобы посетители переходили к вашему исходному контенту.
  • Добавить тег rel = «canonical» — этот тег является «мета» версией перенаправления 301. Тег rel = canonical сообщает Google, какой является исходный URL для конкретной страницы. Например, этот код:
    http://example.com/original-page.html ” rel = ”canonical” />
    Сообщает Google, что страница — original-page.html — это «оригинальная» версия дублирующей страницы.Если вы используете WordPress, этот тег легко добавить с помощью Yoast SEO или All in One SEO.

Если вы хотите, чтобы посетители могли получить доступ к повторяющемуся контенту, используйте тег rel = «canonical» . Если вы не хотите, чтобы посетители или боты получали доступ к контенту, используйте 301 редирект.

Будьте осторожны при реализации любого из них, потому что они повлияют на ваше SEO.

Перед вами

Файл Robots.txt является полезным союзником в формировании способа взаимодействия пауков поисковых систем и других ботов с вашим сайтом.При правильном использовании они могут положительно повлиять на ваш рейтинг и облегчить сканирование вашего сайта.

Используйте это руководство, чтобы понять, как работает Robots.txt, как он устанавливается и некоторые общие способы его использования. И избегайте любых ошибок, о которых мы говорили выше.

Ссылки по теме:

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *