Сгенерировать robots txt: Создать robots.txt онлайн, закрыть страницу от индексации

Содержание

Как создать файл Robots.txt: настройка, проверка, индексация

В SEO мелочей не бывает. Иногда на продвижение сайта может оказать влияние всего лишь один небольшой файл — Robots.txt. Если вы хотите, чтобы ваш сайт зашел в индекс, чтобы поисковые роботы обошли нужные вам страницы, нужно прописать для них рекомендации.

«Разве это возможно?», —  спросите вы. Возможно. Для этого на вашем сайте должен быть файл robots.txt. Как правильно составить файл роботс, настроить и добавить на сайт – разбираемся в этой статье.

Получайте до 18% от расходов на контекстную и таргетированную рекламу!

Рекомендуем: Click.ru – маркетплейс рекламных платформ:

  • Более 2000 рекламных агентств и фрилансеров уже работают с сервисом.
  • Подключиться можно самому за 1 день.
  • Зарабатывайте с первого потраченного рубля, без начальных ограничений, без входного барьера.
  • Выплаты на WebMoney, на карту физическому лицу, реинвестирование в рекламу.
  • У вас остаются прямые доступы в рекламные кабинеты, рай для бухгалтерии по документообороту и оплатам.
Начать зарабатывать >> Реклама

Читайте также: Как проиндексировать сайт в Яндексе и Google

Что такое robots.txt и для чего нужен

Robots.txt – это обычный текстовый файл, который содержит в себе рекомендации для поисковых роботов: какие страницы нужно сканировать, а какие нет.

Важно: файл должен быть в кодировке UTF-8, иначе  поисковые роботы могут его не воспринять.

Зайдет ли в индекс сайт, на котором не будет этого файла? Зайдет, но роботы могут «выхватить» те страницы, наличие которых в результатах поиска нежелательно: например, страницы входа, админпанель, личные страницы пользователей, сайты-зеркала и т.п. Все это считается «поисковым мусором»:

Если в результаты поиска попадёт личная информация, можете пострадать и вы, и сайт. Ещё один момент – без этого файла индексация сайта будет проходить дольше.

В файле Robots.txt можно задать три типа команд для поисковых пауков:

  • сканирование запрещено;
  • сканирование разрешено;
  • сканирование разрешено частично.

Все это прописывается с помощью директив.

Как создать правильный файл Robots.txt для сайта

Файл Robots.txt можно создать просто в программе «Блокнот», которая по умолчанию есть на любом компьютере. Прописывание файла займет даже у новичка максимум полчаса времени (если знать команды).

Также можно использовать другие программы – Notepad, например. Есть и онлайн сервисы, которые могут сгенерировать файл автоматически. Например, такие как CY-PR.com или Mediasova.

Вам просто нужно указать адрес своего сайта, для каких поисковых систем нужно задать правила, главное зеркало (с www или без). Дальше сервис всё сделает сам.

Лично я предпочитаю старый «дедовский» способ – прописать файл вручную в блокноте. Есть ещё и «ленивый способ» — озадачить этим своего разработчика 🙂 Но даже в таком случае вы должны проверить, правильно ли там всё прописано. Поэтому давайте разберемся, как составить этот самый файл, и где он должен находиться.

Это интересно: Как увеличить посещаемость сайта

Где должен находиться файл Robots

Готовый файл Robots.txt должен находиться в корневой папке сайта. Просто файл, без папки:

Хотите проверить, есть ли он на вашем сайте? Вбейте в адресную строку адрес: site.ru/robots.txt. Вам откроется вот такая страничка (если файл есть):

Файл состоит из нескольких блоков, отделённых отступом. В каждом блоке – рекомендации для поисковых роботов разных поисковых систем (плюс блок с общими правилами для всех), и отдельный блок со ссылками на карту сайта – Sitemap.

Внутри блока с правилами для одного поискового робота отступы делать не нужно.

Каждый блок начинается директивой User-agent.

После каждой директивы ставится знак «:» (двоеточие), пробел, после которого указывается значение (например, какую страницу закрыть от индексации).

Нужно указывать относительные адреса страниц, а не абсолютные. Относительные – это без «www.site.ru». Например, вам нужно запретить к индексации страницу www.site.ru/shop. Значит после двоеточия ставим пробел, слэш и «shop»:

Disallow: /shop.

Звездочка (*) обозначает любой набор символов.

Знак доллара ($) – конец строки.

Вы можете решить – зачем писать файл с нуля, если его можно открыть на любом сайте и просто скопировать себе?

Для каждого сайта нужно прописывать уникальные правила. Нужно учесть особенности CMS. Например, та же админпанель находится по адресу /wp-admin на движке WordPress, на другом адрес будет отличаться. То же самое с адресами отдельных страниц, с картой сайта и прочим.

Читайте также: Как найти и удалить дубли страниц на сайте

Настройка файла Robots.txt: индексация, главное зеркало, диррективы

Как вы уже видели на скриншоте, первой идет директива User-agent. Она указывает, для какого поискового робота будут идти правила ниже.

User-agent: * — правила для всех поисковых роботов, то есть любой поисковой системы (Google, Yandex, Bing, Рамблер и т.п.).

User-agent: Googlebot – указывает на правила для поискового паука Google.

User-agent: Yandex – правила для поискового робота Яндекс.

Для какого поискового робота прописывать правила первым, нет никакой разницы. Но обычно сначала пишут рекомендации для всех роботов.

Рекомендации для каждого робота, как я уже писала, отделяются отступом.

Disallow: Запрет на индексацию

Чтобы запретить индексацию сайта в целом или отдельных страниц, используется директива Disallow.

Например, вы можете полностью закрыть сайт от индексации (если ресурс находится на доработке, и вы не хотите, чтобы он попал в выдачу в таком состоянии). Для этого нужно прописать следующее:

User-agent: *

Disallow: /

Таким образом всем поисковым роботам запрещено индексировать контент на сайте.

А вот так можно открыть сайт для индексации:

User-agent: *

Disallow:

Потому проверьте, стоит ли слеш после директивы Disallow, если хотите закрыть сайт. Если хотите потом его открыть – не забудьте снять правило (а такое часто случается).

Чтобы закрыть от индексации отдельные страницы, нужно указать их адрес. Я уже писала, как это делается:

User-agent: *

Disallow: /wp-admin

Таким образом на сайте закрыли от сторонних взглядов админпанель.

Что нужно закрывать от индексации в обязательном порядке:

  • административную панель;
  • личные страницы пользователей;
  • корзины;
  • результаты поиска по сайту;
  • страницы входа, регистрации, авторизации.

Можно закрыть от индексации и отдельные типы файлов. Допустим, у вас на сайте есть некоторые .pdf-файлы, индексация которых нежелательна. А поисковые роботы очень легко сканируют залитые на сайт файлы. Закрыть их от индексации можно следующим образом:

User-agent: *

Disallow: /*. pdf$

Как отрыть сайт для индексации

Даже при полностью закрытом от индексации сайте можно открыть роботам путь к определённым файлам или страницам. Допустим, вы переделываете сайт, но каталог с услугами остается нетронутым. Вы можете направить поисковых роботов туда, чтобы они продолжали индексировать раздел. Для этого используется директива Allow:

User-agent: *

Allow: /uslugi

Disallow: /

Главное зеркало сайта

До 20 марта 2018 года в файле robots.txt для поискового робота Яндекс нужно было указывать главное зеркало сайта через директиву Host. Сейчас этого делать не нужно – достаточно настроить постраничный 301-редирект.

Что такое главное зеркало? Это какой адрес вашего сайта является главным – с www или без. Если не настроить редирект, то оба сайта будут проиндексированы, то есть, будут дубли всех страниц.

Карта сайта: robots.txt sitemap

После того, как прописаны все директивы для роботов, необходимо указать путь к Sitemap. Карта сайта показывает роботам, что все URL, которые нужно проиндексировать, находятся по определённому адресу. Например:

Sitemap: site.ru/sitemap.xml

Когда робот будет обходить сайт, он будет видеть, какие изменения вносились в этот файл.  В итоге новые страницы будут индексироваться быстрее.

Читайте по теме: Как сделать карту сайта

Директива Clean-param

В 2009 году Яндекс ввел новую директиву – Clean-param. С ее помощью можно описать динамические параметры, которые не влияют на содержание страниц. Чаще всего данная директива используется на форумах. Тут возникает много мусора, например id сессии, параметры сортировки. Если прописать данную директиву, поисковый робот Яндекса не будет многократно загружать информацию, которая дублируется.

Прописать эту директиву можно в любом месте файла robots.txt.

Параметры, которые роботу не нужно учитывать, перечисляются в первой части значения через знак &:

Clean-param: sid&sort /forum/viewforum.php

Эта директива позволяет избежать дублей страниц с динамическими адресами (которые содержат знак вопроса).

Директива Crawl-delay

Эта директива придёт на помощь тем, у кого слабый сервер.

Приход поискового робота – это дополнительная нагрузка на сервер. Если у вас высокая посещаемость сайта, то ресурс может попросту не выдержать и «лечь». В итоге робот получит сообщение об ошибке 5хх. Если такая ситуация будет повторяться постоянно, сайт может быть признан поисковой системой нерабочим.

Представьте, что вы работаете, и параллельно вам приходится постоянно отвечать на звонки. Ваша продуктивность в таком случае падает.

Так же и с сервером.

Вернемся к директиве. Crawl-delay позволяет задать задержку сканирования страниц сайта с целью снизить нагрузку на сервер. Другими словами, вы задаете период, через который будут загружаться страницы сайта. Указывается данный параметр в секундах, целым числом:

Crawl-delay: 2

Комментарии в robots.txt

Бывают случаи, когда вам нужно оставить в файле комментарий для других вебмастеров. Например, если ресурс передаётся в работу другой команде или если над сайтом работает целая команда.

В этом файле, как и во всех других, можно оставлять комментарии для других разработчиков.

Делается это просто – перед сообщением нужно поставить знак решетки: «#». Дальше вы можете писать свое примечание, робот не будет учитывать написанное:

User-agent: *

Disallow: /*. xls$

#закрыл прайсы от индексации

Как проверить файл robots.txt

После того, как файл написан, нужно узнать, правильно ли. Для этого вы можете использовать инструменты от Яндекс и Google.

Через Яндекс.Вебмастер robots.txt можно проверить на вкладке «Инструменты – Анализ robots.txt»:

На открывшейся странице указываем адрес проверяемого сайта, а в поле снизу вставляем содержимое своего файла. Затем нажимаем «Проверить». Сервис проверит ваш файл и укажет на возможные ошибки:

Также можно проверить файл robots.txt через Google Search Console, если у вас подтверждены права на сайт.

Для этого в панели инструментов выбираем «Сканирование – Инструмент проверки файла robots.txt».

На странице проверки вам тоже нужно будет скопировать и вставить содержимое файла, затем указать адрес сайта:

Потом нажимаете «Проверить» — и все. Система укажет ошибки или выдаст предупреждения.

Останется только внести необходимые правки.

Если в файле присутствуют какие-то ошибки, или появятся со временем (например, после какого-то очередного изменения), инструменты для вебмастеров будут присылать вам уведомления об этом. Извещение вы увидите сразу, как войдете в консоль.

Это интересно: 20 самых распространённых ошибок, которые убивают ваш сайт

Частые ошибки в заполнении файла robots.txt

Какие же ошибки чаще всего допускают вебмастера или владельцы ресурсов?

1. Файла вообще нет. Это встречается чаще всего, и выявляется при SEO-аудите ресурса. Как правило, на тот момент уже заметно, что сайт индексируется не так быстро, как хотелось бы, или в индекс попали мусорные страницы.

2. Перечисление нескольких папок или директорий в одной инструкции. То есть вот так:

Allow: /catalog /uslugi /shop

Называется «зачем писать больше…». В таком случае робот вообще не знает, что ему можно индексировать. Каждая инструкция должна иди с новой строки, запрет или разрешение на индексацию каждой папки или страницы – это отдельная рекомендация.

3. Разные регистры. Название файла должно быть с маленькой буквы и написано маленькими буквами – никакого капса. То же самое касается и инструкций: каждая с большой буквы, все остальное – маленькими. Если вы напишете капсом, это будет считаться уже совсем другой директивой.

4. Пустой User-agent. Нужно обязательно указать, для какой поисковой системы идет набор правил. Если для всех – ставим звездочку, но никак нельзя оставлять пустое место.

5. Забыли открыть ресурс для индексации после всех работ – просто не убрали слеш после Disallow.

6. Лишние звездочки, пробелы, другие знаки. Это просто невнимательность.

Регулярно заглядывайте в инструменты для вебмастеров и вовремя исправляйте возможные ошибки в своем файле robots.txt.

Удачного вам продвижения!

Как создать правильный Robots txt для WordPress

👍 Научим создавать сайты на WordPress бесплатно за 11 уроков. Подробнее →

Чтобы помочь поисковым системам правильно индексировать ваш блог, нужно сделать правильный файл Robots txt для WordPress. Посмотрим как его создать и чем наполнить.

Что дает Robots.txt?

Он нужен для поисковых систем, для правильной индексации ими веб-ресурса. Содержимое файла “говорит” поисковому роботу, какие страницы нужно показывать в поиске, а какие скрыть. Это позволяет управлять контентом в поисковой выдаче.

Наполнять robots.txt нужно уже на этапе разработки сайта. Его изменения вступают в силу не сразу. Может пройти неделя или несколько месяцев.

Где находится Robots?

Этот обычный тестовый файл лежит в корневом каталоге сайта. Его можно получить по адресу

https://site.ru/robots.txt

Движок изначально Роботс не создает. Это нужно делать вручную или пользоваться инструментами, которые создают его автоматически.

Не могу найти этот файл

Если по указанному адресу содержимое файл отображается, но на сервере его нет, то значит он создан виртуально. Поисковику все равно. Главное, чтобы он был доступен.

Из чего состоит

Из 4 основных директив:

  • User-agent — правила поисковым роботам.
  • Disalow — запрещает доступ.
  • Allow — разрешает.
  • Sitemap — полный URL-адрес карты XML.

Правильный robots.txt для ВордПресс

Вариантов много. Инструкции на каждом сайте отличаются.

Вот пример правильного Роботс, в котором учтены все разделы сайта. Коротко разберем директивы.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /license.txt
Disallow: /readme.html
Disallow: /trackback/
Disallow: /comments/feed/
Disallow: /*?replytocom
Disallow: */feed
Disallow: */rss
Disallow: /author/
Disallow: /?
Disallow: /*?
Disallow: /?s=
Disallow: *&s=
Disallow: /search
Disallow: *?attachment_id=
Allow: /*.css
Allow: /*.js
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Sitemap: https://site.ru/sitemap_index.xml

В первой строке указывается, что ресурс доступен для всех поисковых роботов (краулеров).

Директивы Disallow запрещают выдавать в поиске служебные каталоги и файлы, закэшированные страницы, разделы авторизации и регистрации, ленты RSS (Feed), страницы авторов, поиска и вложений.

Allow разрешают добавлять в индекс скрипты, стили, файлы загрузок, тем и плагинов.

Последняя – это адрес XML-карты.

Как создать robots.txt для сайта

Рассмотрим несколько методов.

Вручную

Это можно сделать например, в Блокноте (если локальный сервер) или через FTP-клиент (на хостинге).

Также этого можно добиться ВП-плагинами. Разберем лучшие из них.

Clearfy Pro

Clearfy Pro создает виртуальный файл. Для этого:

  1. Перейдите в админ-меню Clearfy Pro.
  2. На вкладке SEO задействуйте опцию Создать правильный robots.txt.
  3. Заполните содержимое файла.
  4. Сохраните изменения.

Всегда можно отредактировать содержимое Robots. Просто измените/дополните его нужным содержимым и сохраните изменения.

Активировать промокод на 15%

Yoast SEO

Этот мощный СЕО-модуль для WP также решит задачу.

  1. Перейдите SEO > Инструменты.
  2. Нажмите Редактор файлов.
  3. Если в корневом каталоге этого файла нет, кликните Создать файл robots.txt.
    Если есть, то откроется редактор для внесения изменений.
  4. Нажмите Сохранить изменения в robots.txt.

All in One SEO Pack

Это решение тоже “умеет” работать с Robots. Для этого:

  1. Откройте All in One SEO > Модули.
  2. Выберите одноименное название модуля и нажмите Activate.
  3. Перейдите All in One SEO > Robots.txt.
  4. В полях добавьте директивы.

Настройка для интернет-магазинов (WooCommerce)

Для WordPress-ресурсов с использованием этого расширения просто добавьте эти правила:

Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Disallow: /my-account/

Нажмите, пожалуйста, на одну из кнопок, чтобы узнать понравилась статья или нет.

Мне нравится20Не нравится

Если Вам понравилась статья — поделитесь с друзьями

Как правильно создать robots.txt для сайта – полное руководство

От автора: поисковые роботы могут стать вашими друзьями, либо врагами. Все зависит от того, какие вы им дадите команды. Сегодня разберемся, как правильно создать robots.txt для сайта.

Создание самого файла

Robots.txt – это файл с инструкциями для поисковых роботов. Он создается в корне сайта. Вы можете прямо сейчас создать его на своем рабочем столе при помощи блокнота, как создается любой текстовый файл.

Для этого жмем правой кнопкой мыши по пустому пространству, выбираем Создать – Текстовый документ (не Word). Он откроется с помощью обычного блокнота. Назовите его robots, расширение у него и так уже правильное – txt. Это все, что касается создания самого файла.

Как составить robots.txt

Теперь остается заполнить файл нужными инструкциями. Собственно, у команд для роботов простейший синтаксис, намного проще, чем в любом языке программирования. Вообще заполнить файл можно двумя способами:

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Посмотреть у другого сайта, скопировать и изменить под структуру своего проекта.

Написать самому

О первом способе я уже писал в предыдущей статье. Он подходит, если у сайтов одинаковые движки и нет существенной разницы в функционале. Например, все сайты на wordpress имеют одинаковую структуру, однако могут быть различные расширения, вроде форума, интернет-магазина и множества дополнительных каталогов. Если вы хотите знать, как изменить robots.txt читайте эту статью, можно также ознакомиться с предыдущей, но и в этой будет сказано достаточно много.

Например, у вас на сайте есть каталог /source, где хранятся исходники к тем статьям, что вы пишите на блог, а у другого веб-мастера нет такой директории. И вы, к примеру, хотите закрыть папку source от индексации. Если вы скопируете robots.txt у другого ресурса, то там такой команды не будет. Вам придется дописывать свои инструкции, удалять ненужное и т.д.

Так что в любом случае полезно знать основы синтаксиса инструкций для роботов, который вы сейчас и разберем.

Как писать свои инструкции роботам?

Первое, с чего начинается файл, это с указания того, к каким именно поисковым машинам обращены инструкции. Это делается так:

User-agent: Yandex Или User-agent: Googlebot

User-agent: Yandex

Или

User-agent: Googlebot

Никаких точек с запятой в конце строчки ставить не нужно, это вам не программирование). В общем, тут понятно, что в первом случае инструкции будет читать только бот Яндекса, во втором – только Гугла. Если команды должны быть выполнены всеми роботами, пишут так: User-agent:

Команды

Отлично. С обращением к роботам мы разобрались. Это несложно. Вы можете представить это на простом примере. У вас есть трое младших братьев, Вася, Дима и Петя, а вы главный. Родители ушли и сказали вам, чтобы вы следили за ними.

Все трое чего-то просят у вас. Представь, что нужно дать им ответ так, как будто пишешь инструкции поисковым роботам. Это будет выглядеть примерно так:

User-agent: Vasya Allow: пойти на футбол User-agent: Dima Disallow: пойти на футбол (Дима в прошлый раз разбил стекло соседям, он наказан) User-agent: Petya Allow: сходить в кино (Пете уже 16 и он вообще в шоке, что должен у тебя еще и разрешения спрашивать, ну да ладно, пусть идет).

User-agent: Vasya

Allow: пойти на футбол

User-agent: Dima

Disallow: пойти на футбол (Дима в прошлый раз разбил стекло соседям, он наказан)

User-agent: Petya

Allow: сходить в кино (Пете уже 16 и он вообще в шоке, что должен у тебя еще и разрешения спрашивать, ну да ладно, пусть идет).

Таким образом, Вася радостно зашнуровывает кроссовки, Дима с опущенной головой смотрит в окно на брата, который уже думает, сколько голов забьет сегодня (Дима получил команду disallow, то есть запрет). Ну а Петя отправляется в свое кино.

Из этого примера несложно понять, что Allow – это разрешение, а Disallow – запрет. Но в robots.txt мы не людям раздаем команды, а роботам, поэтому вместо конкретных дел там прописываются адреса страниц и каталогов, которые нужно разрешить или запретить индексировать.

Например, у меня есть сайт site.ru. Он на движке wordpress. Начинаю писать инструкции:

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ Ну и т.д.

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Allow: /wp-content/uploads/

Disallow: /source/

Ну и т.д.

Во-первых, я обратился ко всем роботам. Во-вторых, поставил запрет на индексацию папок самого движка, но при этом открыл роботу доступ к папке с загрузками. Там обычно хранятся все картинки, а их обычно не закрывают от индексации, если планируется получать трафик с поиска по картинкам.

Ну и помните, я ранее в статье говорил о том, что у вас могут быть дополнительные каталоги? Вы можете их создать самостоятельно для различных целей. Например, на одном из моих сайтов есть папка flash, куда я кидаю флэш-игры, чтобы потом их запустить на сайте. Либо source – в этой папке могут хранится файлы, доступные пользователям для загрузки.

В общем, абсолютно неважно, как называется папка. Если ее нужно закрыть, указываем путь к ней и команду Disallow.

Команда Allow нужна как раз для того, чтобы уже в закрытых разделах открыть какие-то части. Ведь по умолчанию, если у вас не будет файла robots.txt, весь сайт будет доступен к индексированию. Это и хорошо (уж точно что-то важное не закроете по ошибке), и в то же время плохо (будут открыты файлы и папки, которых не должно быть в выдаче).

Чтобы лучше понять этот момент, предлагаю еще раз просмотреть этот кусок:

Disallow: /wp-content/ Allow: /wp-content/uploads/

Disallow: /wp-content/

Allow: /wp-content/uploads/

Как видите, сначала мы ставим запрет на индексацию всего каталога wp-content. В нем хранятся все ваши шаблоны, плагины, но там же есть и картинки. Очевидно, что их то можно и открыть. Для этого нам и нужна команда Allow.

Дополнительные параметры

Перечисленные команды – не единственное, что можно указать в файле. Также есть такие: Host – указывает главное зеркало сайта. Кто не знал, у любого сайта по умолчанию есть два варианта написания его доменного имени: domain.com и www.domain.com.

Чтобы не возникло проблем, необходимо указать в качестве главного зеркала какой-то один вариант. Это можно сделать как в инструментах для веб-мастеров, как и в файле Robots.txt. Для этого пишем: Host: domain.com

Что это дает? Если кто-то попытается попасть на ваш сайт так: www.domain.com – его автоматически перекинет на вариант без www, потому что он будет признан главным зеркалом.

Вторая директива – sitemap. Я думаю вы уже поняли, что в ней задается путь к карте сайта в xml-формате. Пример: //domain.com/sitemap.xml

Опять же, загрузить карту вы можете и в Яндекс.Вебмастере, также ее можно указать в robots.txt, чтобы робот прочитал эту строчку и четко понял, где ему искать карту сайта. Для робота карта сайта так же важна, как для Васи – мяч, с которым он пойдет на футбол. Это все равно, что он спрашивает у тебя (как у старшего брата) где мяч. А ты ему:

User-agent: Vasya Sitemap: посмотри в зале за диваном

User-agent: Vasya

Sitemap: посмотри в зале за диваном

Теперь вы знаете, как правильно настроить и изменить robots.txt для яндекса и вообще любого другого поисковика под свои нужды.

Что дает настройка файла?

Об этом я также уже говорил ранее, но скажу еще раз. Благодаря четко настроенному файлу с командами для роботов вы сможете спать спокойнее зная, что робот не залезет в ненужный раздел и не возьмет в индекс ненужные страницы.

Я также говорил, что настройка robots.txt не спасает от всего. В частности, она не спасает от дублей, которые возникает из-за того, что движки несовершенны. Прям как люди. Вы то разрешили Васе идти на футбол, но не факт, что он там не натворит того же, что и Дима. Вот так и с дублями: команду дать можно, но точно нельзя быть уверенным, что что-то лишнее не пролезет в индекс, испортив позиции.

Дублей тоже не нужно бояться, как огня. Например, тот же Яндекс более менее нормально относится к сайтам, у которых серьезные технические косяки. Другое дело, что если запустить дело, то и вправду можно лишиться серьезного процента трафика к себе. Впрочем, скоро в нашем разделе, посвященном SEO, будет статья о дублях, тогда и будем с ними воевать.

Как мне получить нормальный robots.txt, если я сам ничего не понимаю?

В конце концов, создание robots.txt — это не создание сайта. Как-то попроще, поэтому вы вполне можете банально скопировать содержимое файла у любого более менее успешного блоггера. Конечно, если у вас сайт на WordPress. Если он на другом движке, то вам и сайты нужно искать на этих же cms. Как посмотреть содержимое файла на чужом сайте я уже говорил: Domain.com/robots.txt

Итог

Я думаю, тут больше не о чем говорить, потому что не надо делать составление инструкций для роботов вашей целью на год. Это та задача, которую под силу выполнить даже новичку за 30-60 минут, а профессионалу вообще всего-то за пару минут. Все у вас получиться и можете в этом не сомневаться.

А чтобы узнать другие полезные и важные фишки для продвижения и раскрутки блога, можете посмотреть наш уникальный курс по раскрутке и монетизации сайта. Если вы примените оттуда 50-100% рекомендаций, то сможете в будущем успешно продвигать любые сайты.

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть

Полное руководство по файлу robots.txt для WordPress

Чтобы быть уверенным, что ваш сайт хорошо ранжируется в результатах поисковых систем (Search Engine Result Pages – SERPs), вам нужно сделать его наиболее важные страницы удобным для поиска и индексирования «роботоми» («ботами») поисковых движков. Хорошо структурированный файл robots.txt поможет направить этих ботов на страницы, которые вы хотите проиндексировать (и пропустить другие).

В этой статье мы собираемся раскрыть такие вопросы:

  1. Что такое файл robots.txt и почему он важен
  2. Где находится robots.txt для WordPress
  3. Как создать файл robots.txt
  4. Какие правила должны быть в файле robots.txt для WordPress
  5. Как проверить файл robots.txt и отправить его в консоль Google Search.

К концу нашего обсуждения у вас будет всё необходимое для настройки отличного файла robots.txt для вашего сайт на WordPress. Начнём!

Что такое файл 

robots.txt для WordPress и зачем он нужен

Когда вы создаёте новый сайт, поисковые движки будут отправлять своих миньонов (или роботов) для сканирования и создания карты всех его страниц. Таким образом, они будут знать, какие страницы показывать как результат, когда кто-либо ищет по относящимся ключевым словам. На базовом уровне это достаточно просто.

Проблема состоит в том, что современные сайты содержат множество других элементом, кроме страниц. WordPress позволяет вам устанавливать, например, плагины, которые часто имеют свои каталоги. Вы не хотите показывать это в результатах поисковой выдачи, поскольку они не соответствуют содержимому.

Что делает файл robots.txt, так это обеспечивает ряд указаний для поисковых роботов. Он говорит им: «Посмотрите здесь, но не заходите в эти области!». Этот файл может настолько подробным, на сколько вы захотите и его очень просто создавать, даже если вы не технический волшебник.

На практике, поисковые движки всё равно будут сканировать ваш сайт, даже если вы не создадите файл robots.txt. Однако, не создавать его является весьма нерациональным шагом. Без этого файла вы оставите роботам для индексации весь контент вашего сайта и они решать, что можно показывать все части вашего сайта, даже те, которые бы вы хотели скрыть от общего доступа.

Более важный момент, без файла robots.txt, у вас будет очень много обращений для сканирования ботами вашего сайта. Это негативно скажется на его производительности. Даже если посещаемость вашего сайта ещё невелика, скорость загрузки страницы – это то, что всегда должно быть в приоритете и на высшем уровне. В конце концов, есть всего несколько моментов, которые люди не любят больше, чем медленная загрузка сайтов.

Где находится файл robots.txt для WordPress

Когда вы создаёте сайт на WordPress, файл robots.txt создаётся автоматически и располагается в вашем главном каталоге на сервере. Например, если ваш сайт расположен здесь: yourfakewebsite.com, вы сможете найти его по адресу yourfakewebsite.com/robots.txt и увидеть примерно такой файл:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Это пример самого простого базового файла robots.txt. Переводя на понятный человеку язык, правая часть после User-agent: объявляет, для каких роботов предназначены правила ниже. Звёздочка означает, что правило универсальное и применяется для всех ботов. В данном случае файл говорит ботам, что им нельзя сканировать каталоги wp-admin и wp-includes. Смыл этих правил заключается в том, что данные каталоги содержат очень много файлов, требующих защиты от общего доступа.

Конечно же, вы можете добавить больше правил в свой файл. Прежде чем вы это сделаете, вам нужно понять, что это виртуальный файл.  Обычно, WordPress robots.txt находится в корневом(root) каталоге, который часто называется public_html или www (или по названию имени вашего сайта):

Надо отметить, что файл robots.txt для WordPress, устанавливаемый по умолчанию, не доступен для вас ни из какого каталога. Он работает, но если вы захотите внести изменения, вам нужно создать ваш собственный файл и загрузить его в корневой каталог в качестве замены.

Мы рассмотрим несколько способов создания файла robots.txt для WordPress за минуту. А сейчас давайте обсудим, как определить, какие правила нужно включить в файл.

Какие правила нужно включить в файл robots.txt для WordPress

В предыдущем разделе мы видели пример генерируемого WordPress файла robots.txt. Он включает в себя только два коротких правила, но для большинства сайтов их достаточно. Давайте взглянем на два разных файла robots.txt и рассмотрим, что каждый из них делает.

Вот наш первый пример файла robots.txt WordPress:

User-agent: *
Allow: /
# Disallowed Sub-Directories
Disallow: /checkout/
Disallow: /images/
Disallow: /forum/

Этот файл robots.txt создан для форума. Поисковые системы обычно индексируют каждое обсуждение на форуме. В зависимости от того, какая тематика вашего форума, вы можете захотеть запретить индексацию. Так, например, Google не будет индексировать сотни коротких обсуждения пользователей. Вы также можете установить правила, указывающие на конкретную ветвь форума, чтобы исключить её, и позволить поисковым системам обходить остальные.

Вы также заметили строку, которая начинается с Allow: / вверху файла. Эта строка говорит ботам, что они могут сканировать все страницы вашего сайта, кроме установленных ниже ограничений. Также вы заметили, что мы установили эти правила как универсальные (со звёздочкой), как было в виртуальном файле WordPress robots.txt.

Давайте проверим другой пример файла WordPress robots.txt:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
User-agent: Bingbot
Disallow: /

В этом файле мы устанавливаем те же правила, что идут в WordPress по умолчанию. Хотя мы также добавляем новый набор правил, которые блокируют поисковых роботов Bing от сканирования нашего сайта. Bingbot, как можно понять, это имя робота.

Вы можете совершенно конкретно задавать поисковых роботов отдельного движка для ограничения/разрешения их доступа. На практике, конечно, Bingbot очень хороший (даже если не такой хороший, как Googlebot). Однако, есть и много вредоносных роботов.

Плохой новостью является то, что они далеко не всегда следуют инструкциям из файла robots.txt (они же всё же работают как террористы). Следует иметь в виду, что, хотя большинство роботов будут использовать указания, представленные в этом файле, но вы не можете принудить их это делать. Мы просто хорошо просим.

Если глубже вникнуть в тему, вы найдёте много предложений того, что разрешать и что блокировать на своём сайте WordPress. Хотя, из нашего опыта, меньше правил часто лучше. Вот пример рекомендованного вида вашего первого файла robots.txt:

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/

Традиционно WordPress любит закрывать каталоги wp-admin и wp-includes. Однако, это уже не является лучшим решением. Плюс, если вы добавляете мета тэги для своих изображений с целью продвижения (SEO), нету смысла указывать ботам не отслеживать содержимое этих каталогов. Вместо этого, два правила выше обеспечивают основные потребности большинства сайтов.

Что содержится в вашем файле robots.txt будет зависеть от особенностей и потребностей вашего сайта. Поэтому смело проводите больше исследований!

Как создать файл robots.txt для WordPress (3 способа)

Как только вы решили сделать свой файл robots.txt, всё что осталось – это найти способ его создать. Вы можете редактировать robots.txt в WordPress, используя плагин или вручную. В этом разделе мы обучим вас применению двух наиболее популярных плагинов для выполнения этой задачи и обсудим, как создать и загрузить файл вручную. Поехали!

1. Использование плагина Yoast SEO

Yoast SEO вряд ли требует представления. Это наиболее известный SEO-плагин для WordPress, он позволяет вам улучшать ваши записи и страницы для лучшего использования ключевых слов. Кроме этого, он также оценит ваш контент с точки зрения удобности чтения, а это повысит аудиторию поклонников.

Наша команда является почитателями плагина Yoast SEO благодаря его простоте и удобству. Это относится и к вопросу создания файла robots.txt. Как только вы установите и активируете свой плагин, перейдите во вкладку SEO › Инструменты в своей консоли и найдите настройку Редактор файлов:

Нажав на эту ссылку, вы можете редактировать файл .htaccess не покидая админ консоль. Здесь же есть кнопка Создать файл robots.txt:

После нажатия на кнопку во вкладке будет отображён новый редактор, где вы можете напрямую редактировать ваш файл robots.txt. Обратите внимание, что Yoast SEO устанавливает свои правила по умолчанию, которые перекрывают правила существующего виртуального файла robots.txt.

После удаления или добавления правил нажимайте кнопку Сохранить изменения в robots.txt для вступления их в силу:

Это всё! Давайте теперь посмотрим на другой популярный плагин, который позволит нам выполнить эту же задачу.

2. Применение плагина All in One SEO Pack

Плагин All in One SEO Pack – ещё один прекрасный плагин WordPress для настройки SEO. Он включает в себя большинство функций плагина Yoast SEO, но некоторые предпочитают его потому что он более легковесный. Что касается файла robots.txt, его создать в этом плагине также просто.

После установки плагина, перейдите на страницу All in One SEO > Управление модулями в консоли. Внутри вы найдёте опцию Robots.txt с хорошо заметной кнопкой Activate внизу справа. Нажмите на неё:

Теперь в меню All in One SEO будет отображаться новая вкладка Robots.txt. Если вы нажмёте на этот пункт меню, вы увидите настройки для добавления новых правил в ваш файл, сохраните внесённые изменения или удалите всё:

Обратите внимание, что вы не можете напрямую изменять файл robots.txt при помощи этого плагина. Содержимое файла будет неактивным, что видно по серому фону поля, в отличие от Yoast SEO, который позволяет вам вводить всё, что вы хотите:

Но, так как добавление новых правил очень простая процедура, то этот факт не должен расстроить вас. Более важный момент, что All in One SEO Pack также включает функцию, которая поможет вам блокировать «плохих» ботов, её вы можете найти во вкладке All in One SEO:

Это всё, что вам нужно сделать, если вы выбрали этот способ. Теперь давайте поговорим о том, как вручную создать файл robots.txt, если вы не хотите устанавливать дополнительный плагин только для этой задачи.

3. Создание и загрузка файла 

robots.txt для WordPress по FTP

Что может быть проще, чем создание текстового файла txt. Всё, что вам нужно сделать, открыть свой любимый редактор (как, например, Notepad или TextEdit) и ввести несколько строк. Потом вы сохраняете файл, используя любое имя и расширение txt. Это буквально займёт несколько секунд, поэтому вы вполне можете захотеть создать robots.txt для WordPress без использования плагина.

Вот быстрый пример такого файла:

Мы сохранили этот файл локально на компьютере. Как только вы сделали свой собственный файл вам нужно подключиться к своему сайту по FTP. Если вы не совсем понимаете, как это сделать, у нас есть руководство, посвящённое этому – использование удобного для новичков клиента FileZilla.

После подключения к своему сайту перейдите в каталог public_html. Теперь, всё что вам нужно сделать это загрузить файл robots.txt со своего компьютера на сервер. Вы можете это сделать либо нажав правой кнопкой мыши на файле в локальной FTP навигаторе или простым перетаскиванием мышью:

Это займёт всего несколько секунд. Как вы видите, этот способ не сложнее использования плагина.

Как проверит WordPress robots.txt и отправить его в Консоль Google Search

Теперь, когда ваш файл WordPress robots.txt создан и загружен на сайт, вы можете проверить его на ошибки в Консоли Google Search. Search Console – это набор инструментов Google, призванных помочь вам отслеживать то, как ваш контент появляется в результатах поиска. Один из таких инструментов проверяет robots.txt, его вы можете использовать перейдя в своей консоли в раздел Инструмент проверки файла robots.txt:

Здесь вы найдёте поле редактора, где вы можете добавить код своего файла WordPress robots.txt, и нажать Отправить в правом нижнем углу. Консоль Google Search спросит вас, хотите ли вы использовать новый код или загрузить файл с вашего сайта. Выберите опцию, которая говорит Ask Google to Update для публикации вручную:

Теперь платформа проверит ваш файл на ошибки. Если будет найдена ошибка, информация об этом будет показана вам.
Вы ознакомились с несколькими примерами файл robots.txt WordPress, и теперь у вас есть ещё больше шансов создать свой идеальный!

Заключение

Чтобы быть уверенным, что ваш сайт представлен наилучшим образом для поисковых роботов стоит позаботиться о том, чтобы для них был открыт необходимый контент. Как мы увидели, хорошо настроенный файл robots.txt WordPress поможет показать роботам, каким образом лучше взаимодействовать с вашим сайтом. Таким образом, они помогут тем, кто ищет получить более релевантный и полезный контент.

У вас остались вопросы о том, как редактировать robots.txt в WordPress? Напишите нам в разделе комментариев ниже!

Елена имеет профессиональное техническое образование в области информационных технологий и опыт программирования на разных языках под разные платформы и системы. Более 10 лет посвятила сфере веб, работая с разными CMS, такими как: Drupal, Joomla, Magento и конечно же наиболее популярной в наши дни системой управления контентом – WordPress. Её статьи всегда технически выверены и точны, будь то обзор для WordPress или инструкции по настройке вашего VPS сервера.

Как создать файл robots.txt для WordPress. 4 способа

Всем, привет! Сегодня небольшой пост — как автоматически создать файл robots.txt для WordPress? Друзья, вы можете создать правильный robots.txt для WordPress в пару кликов, прочитав данное руководство. Создание правильного файла robots.txt для WordPress очень важно. Благодаря ему поисковые системы будут знать, какие страницы индексировать и показывать в поиске. То есть, результаты поиска будут именно такими, как вам нужно, без дублирования страниц WordPress.

robots.txt для сайта WordPress

Читайте, дамы и господа — WordPress robots.txt: лучшие примеры для SEO.

Файл robots.txt для WordPress

WordPress robots.txt где лежит/находится? По умолчанию WordPress автоматически создает виртуальный файл robots.txt для вашего сайта. Таким образом, даже если вы ни чего не делали, на вашем сайте ВордПресс уже должен быть файл robots.txt. Вы можете проверить, так ли это, добавив /robots.txt в конец вашего доменного имени. Например, так https://ваш сайт/robots.txt

Виртуальный файл robots.txt в WordPress

Поскольку этот файл является виртуальным, вы не можете его редактировать. Однако, если вы хотите отредактировать свой файл robots.txt WordPress как надо, вам необходимо создать физический файл на вашем хостинге. Создайте свой правильный robots.txt для WordPress, который вы сможете легко редактировать по мере необходимости.

Как создать файл robots.txt для WordPress

Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

Файл robots.txt сообщает поисковым роботам, какие страницы или файлы на вашем сайте можно или нельзя обрабатывать. 

Яндекс и Google

Для начала напомню вам, создать (и редактировать) файл robots.txt для WordPress можно вручную и с помощью плагина Yoast SEO

Создать файл robots.txt

Друзья, имейте ввиду, что Yoast SEO устанавливает свои правила по умолчанию, которые перекрывают правила существующего виртуального файла robots.txt ВордПресс:

Редактирование robots.txt в плагине Yoast SEO

Что должно быть в правильно составленного robots.txt? Идеального файла не существует. Например, сайт Yoast SEO использует такой robots.txt для WordPress:

User-agent: *

И всё. Для большинства сайтов WordPress лучший пример. Вот даже скриншот сделал у Yoast SEO:

Правильный robots.txt на сайте yoast.com

Что это значит? Директива говорит что, все поисковые роботы могут свободно сканировать этот сайт без ограничений. Этого хватит для правильной индексации сайта WP. А наша SEO специалисты рекомендуют почти тоже самое. Пример, правильно составленного robots.txt для WordPress сайта:

User-agent: *
Disallow:
Sitemap: https://mysite.ru/sitemap.xml

Данная запись в файле роботс делает доступным для индексирования полностью сайт для роботов всех известных поисковиков. Здесь, также прописан путь к карте сайта XML.

Создать и редактировать файл также можно при помощи All in One SEO Pack прямо из интерфейса SEO плагина. Модуль robots.txt в SEO-пакете Все в одном позволяет вам настроить файл robots.txt для вашего сайта, который переопределит файл robots.txt по умолчанию, который создает WordPress:

Применение плагина All in One SEO Pack

Вы сможете управлять своим файлом Robots.txt, в разделе All in One SEO Pack — Robots.txt. Сам официальный сайт плагина использует вот такой роботс:

Пример файла Robots

Правила по умолчанию, которые отображаются в поле Создать файл Robots.txt (показано на снимке экрана выше), требуют, чтобы роботы не сканировали ваши основные файлы WordPress. Для поисковых систем нет необходимости обращаться к этим файлам напрямую, потому что они не содержат какого-либо релевантного контента сайта.

А если вы не используете данные SEO модули, то предлагаю вам воспользоваться специальным плагином — Robots.txt Editor.

Плагин Robots.txt Editor

Плагин Robots.txt для WordPress — создание и редактирование файла robots.txt для сайта ВордПресс. Очень простой, лёгкий и эффективный плагин.

WordPress плагин Robots.txt Editor

Плагин Robots.txt Editor (редактор) позволяет создать и редактировать файл robots.txt на вашем сайте WordPress.

Плагин Robots.txt возможности
  • Работает в сети сайтов Multisite на поддоменах;
  • Пример правильного файла robots.txt для WordPress;
  • Не требует дополнительных настроек;
  • Абсолютно бесплатный.

Как использовать? Установите плагин robots.txt стандартным способом. То есть, из админки. Плагины — Добавить новый. Введите в окно поиска его название — Robots.txt Editor:

Добавить плагин Robots.txt Editor

Установили и сразу активировали. Всё, готово. Теперь смотрим, что получилось. Заходим, Настройки — Чтение и видим результат. Автоматически созданный правильный файл robots.txt для WordPress со ссылкой на ваш файл Sitemap. Пример, правильный robots.txt для сайта ВордПресс:

Созданный файл robots.txt WordPress

Естественно, вы можете его легко отредактировать под свои нужды. А также просмотреть, нажав соответствующею ссылку — Просмотр robots.txt.

Как создать robots.txt вручную

Если вы не захотите использовать плагины, которые предлагают функцию robots.txt, вы все равно можете создать и управлять своим файлом robots.txt на своём хостинге. Как создать файл robots.txt самостоятельно?

В текстовом редакторе создайте файл с именем robots в формате txt и заполните его:

Создать файл с именем robots.txt

Файл должен иметь имя robots.txt и никакое другое больше. Сохраните данный файл локально на компьютере. А затем, загрузите созданный файл в корневую директорию вашего сайта.

Корневая папка (корневая директория/корневой каталог/корень документа) — это основная папка, в которой хранятся все файлы сайта. Обычно, это папка public_html (там где находятся файлы — .htaccess, wp-config.php и другие). Именно в эту папку загружается файл robots.txt:

Загрузите файл в корневую папку вашего сайта 

Чтобы проверить, получилось ли у вас положить файл в нужное место, перейдите по адресу: https://ваш_сайт.ru/robots.txt

Теперь, когда ваш файл robots.txt создан и загружен на сайт, вы можете проверить его на ошибки.

Проверка вашего файла robots.txt

Вы можете проверить файл robots.txt WordPress в Google Search Console и Яндекс.Вебмастер, чтобы убедиться, что он правильно составлен.

Например, проверка файла robots.txt WordPress в Яндекса.Вебмастер. В блоке Результаты анализа robots.txt перечислены директивы, которые будет учитывать робот при индексировании сайта.

Анализ robots.txt в Яндекс.Вебмастер

Если будет найдена ошибка, информация об этом будет показана вам.

В заключение

Для некоторых сайтов WordPress нет необходимости срочно изменять стандартный виртуальный файл robots.txt (по умолчанию). Но, если вам нужен физический файл robots.txt, то используйте плагины Robots.txt Editor, All in One SEO Pack или Yoast SEO. С ними можно легко редактировать файл прямо из панели инструментов WordPress, чтобы добавить свои собственные правила.

До новых встреч, друзья и я надеюсь, что вам понравилось это маленькое руководство. И не стесняйтесь, обязательно оставьте комментарий, если у вас возникнут дополнительные вопросы по использованию файла robots.txt на сайте WordPress.

Правильный файл robots.txt для WordPress 2020: настройка

Автор Анита Арико На чтение 15 мин. Просмотров 2.3k. Опубликовано

Чтобы нужные страницы сайта попадали в индекс поисковых систем, важно правильно настроить файл robots.txt. Этот документ дает рекомендации поисковым роботам, какие страницы обрабатывать, а какие — нет: например, от индексации можно закрыть панель управления сайтом или страницы, которые находятся в разработке. Рассказываем, как правильно настроить robots.txt, если ваш сайт сделан на WordPress. 

Что такое robots.txt и для чего он нужен?

Чтобы понять, какие страницы есть на сайте, поисковики «напускают» на него роботов: они сканируют сайт и передают перечень страниц в поисковую систему. robots.txt — это текстовый файл, в котором содержатся указания о том, какие страницы можно, а какие нельзя сканировать роботам. 

Обычно на сайте есть страницы, которые не должны попадать в выдачу: например, это может быть административная панель, личные страницы пользователей или временные страницы сайта. Кроме этого, у поисковых роботов есть определенный лимит сканирования страниц (кроулинговый бюджет) — за раз они могут обработать только ограниченное их количество.

Проведем аналогию: представим сайт в виде города, а страницы в виде домов. По дорогам между домов ездят роботы и записывают информацию о каждом доме (индексируют страницы и добавляют в базу). Роботы получают ограниченное количество топлива в день — например, 10 литров на объезд города в день. Это топливо — кроулинговый бюджет, который выделяют поисковые системы на обработку сайта.

На маленьких проектах, 500-1000 страниц, кроулинговый бюджет не сказывается критично, но на интернет-магазинах, маркетплейсах, больших сервисах могут возникнут проблемы. Если они спроектированы неверно, то робот может месяцами ездить по одному кварталу (сканировать одни и те же страницы), но не заезжать в отдаленные районы. Чем больше проект, тем больший кроулинговый бюджет выделяют поисковики, но это не поможет, если дороги сделаны неудобно и вместо прямой дороги в 1 км нужно делать крюк в 15 км.

Правильный robots.txt помогает решить часть этих проблем.

Разные поисковые системы по-разному обрабатывают robots.txt: например, Google может включить в индекс даже ту страницу, которая запрещена в этом файле, если найдет ссылку на такую страницу на страницах сайта. Яндекс же относится к robots.txt как к руководству к действию — если страница запрещена для индексации в файле, она не будет включена в результаты поиска, но с момента запрета может пройти до двух недель до исключения из индекса. Таким образом, правильная настройка robots.txt в 99% случаев помогает сделать так, чтобы в индекс попадали только те страницы, которые вы хотите видеть в результатах поиска.

Кроме этого, robots.txt может содержать технические сведения о сайте: например, главное зеркало, местоположение sitemap.xml или параметры URL-адресов, передача которых не влияет на содержимое страницы.

Файл robots.txt рекомендует роботам поисковых систем, как правильно обрабатывать страницы сайта, чтобы они попали в выдачу.

Где находится файл robots.txt?

По умолчанию в WordPress нет файла robots.txt. При установке WordPress создает виртуальный файл robots.txt с таким содержимым:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Такая настройка говорит поисковым роботам следующее:

User-agent: * — для любых поисковых роботов

Disallow: /wp-admin/ — запретить обрабатывать /wp-admin/

Allow: /wp-admin/admin-ajax.php — разрешить обрабатывать элементы сайта, которые загружаются через AJAX

Этот файл не получится найти в папках WordPress — он работает, но физически его не существует. Поэтому, чтобы настроить robots.txt, сначала нужно его создать. 

Robots.txt должен находиться в корневой папке (mysite.ru/robots.txt), чтобы роботы любых поисковых систем могли его найти. 

Как редактировать и загружать robots.txt 

Есть несколько способов создать файл robots.txt — либо сделать его вручную в текстовом редакторе и разместить в корневом каталоге (папка самого верхнего уровня на сервере), либо воспользоваться специальными плагинами для настройки файла.

Как создать robots.txt в Блокноте

Самый простой способ создать файл robots.txt — написать его в блокноте и загрузить на сервер в корневой каталог. 

Лучше не использовать стандартное приложение — воспользуйтесь специальными редакторы текста, например, Notepad++ или Sublime Text, которые поддерживают сохранение файла в конкретной кодировке. Дело в том, что поисковые роботы, например, Яндекс и Google, читают только файлы в UTF-8 с определенными переносами строк — стандартный Блокнот Windows может добавлять ненужные символы или использовать неподдерживаемые переносы. 

Говорят, что это давно не так, но чтобы быть уверенным на 100%, используйте специализированные приложения.

Рассмотрим создание robots.txt на примере Sublime Text. Откройте редактор и создайте новый файл. Внесите туда нужные настройки, например:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://mysite.ru/sitemap.xml

Где mysite.ru — домен вашего сайта.

После того, как вы записали настройки, выберите в меню File ⟶ Save with Encoding… ⟶ UTF-8 (или Файл ⟶ Сохранить с кодировкой… ⟶ UTF-8). 

Назовите файл “robots.txt” (обязательно с маленькой буквы). 

Файл готов к загрузке.

Загрузить robots.txt через FTP

Для того, чтобы загрузить созданный robots.txt на сервер через FTP, нужно для начала включить доступ через FTP в настройках хостинга.

После этого скопируйте настройки доступа по FTP: сервер, порт, IP-адрес, логин и пароль (не совпадают с логином и паролем для доступа на хостинг, будьте внимательны!). 

Чтобы загрузить файл robots.txt вы можете воспользоваться специальным файловым менеджером, например, FileZilla или WinSCP, или же сделать это просто в стандартном Проводнике Windows. Введите в поле поиска “ftp://адрес_FTP_сервера”.

После этого Проводник попросит вас ввести логин и пароль.

Введите данные, которые вы получили от хостинг-провайдера на странице настроек доступа FTP. После этого в Проводнике откроются файлы и папки, расположенные на сервере. Скопируйте файл robots.txt в корневую папку. Готово.

Загрузить или создать robots.txt на хостинге

Если у вас уже есть готовый файл robots.txt, вы можете просто загрузить его на хостинг. Зайдите в файловый менеджер панели управления вашим хостингом, нажмите на кнопку «Загрузить» и следуйте инструкциям (подробности можно узнать в поддержке у вашего хостера.

Многие хостинги позволяют создавать текстовые файлы прямо в панели управления хостингом. Для этого нажмите на кнопку «Создать файл» и назовите его “robots.txt” (с маленькой буквы). 

После этого откройте его во встроенном текстовом редакторе хостера. Если вам предложит выбрать кодировку для открытия файла — выбирайте UTF-8.

Добавьте нужные директивы и сохраните изменения.

Плагины для редактирования robots.txt

Гораздо проще внести нужные директивы в robots.txt с помощью специальных плагинов для редактирования прямо из панели управления WordPress. Самые популярные из них — ClearfyPro, Yoast SEO и All in One SEO Pack. 

Clearfy Pro

Этот плагин отлично подходит для начинающих: даже если вы ничего не понимаете в SEO, Clearfy сам создаст правильный и валидный файл robots.txt. Кроме этого, плагин предлагает пошаговую настройку самых важных для поисковой оптимизации функций, так что на первых этапах развития сайта этого будет достаточно.

Чтобы настроить robots.txt, в панели управления WordPress перейдите в пункт Настройки ⟶ Clearfy ⟶ SEO. 

Переключите «Создайте правильный robots.txt» в положение «Вкл». Clearfy отобразит правильные настройки файла robots.txt. Вы можете дополнить эти настройки, например, запретив поисковым роботам индексировать папку /wp-admin/.

После внесения настроек нажмите на кнопку «Сохранить» в верхнем правом углу.

Yoast SEO

Плагин Yoast SEO хорош тем, что в нем есть много настроек для поисковой оптимизации: он напоминает использовать ключевые слова на странице, помогает настроить шаблоны мета-тегов и предлагает использовать мета-теги Open Graph для социальных сетей.

С его помощью можно отредактировать и robots.txt. 

Для этого зайдите в раздел Yoast SEO ⟶ Инструменты ⟶ Редактор файлов. 

Здесь вы сможете отредактировать robots.txt и сохранить его, не заходя на хостинг. По умолчанию Yoast SEO не предлагает никаких настроек для файла, так что его придется прописать вручную.

После изменений нажмите на кнопку «Сохранить изменения в robots.txt».

All in One SEO Pack

Еще один мощный плагин для управления SEO на WordPress. Чтобы отредактировать robots.txt через All in One SEO Pack, сначала придется активировать специальный модуль. Для этого перейдите на страницу плагина в раздел «Модули» и нажмите «Активировать» на модуле «robots.txt».

После подключения модуля перейдите на его страницу. С помощью него можно разрешать или запрещать для обработки конкретные страницы и группы страниц для разных поисковых роботов, не прописывая директивы вручную.

Правильный и актуальный robots.txt в 2020 году

Для того, чтобы создать правильный файл robots.txt, нужно знать, что означает каждая из директив в файле, записать их в правильном порядке и проверить файл на валидность. 

Что означают указания в файле robots.txt?
User-agent — поисковой робот

В строке User-agent указывается, для каких роботов написаны следующие за этой строкой указания. Например, если вы хотите запретить индексацию сайта для поисковых роботов Bing, но разрешить для Google и Яндекс, это будет выглядеть примерно так:

User-agent: Googlebot
Disallow:

User-agent: Yandex
Disallow:

User-agent: Bingbot
Disallow: *

Для робота Google
Запретить: ничего

Для робота Яндекс
Запретить: ничего

Для робота Bing
Запретить: все страницы

На практике необходимость разграничивать указания для разных поисковых роботов встречается довольно редко. Гораздо чаще robots.txt пишут для всех роботов сразу. Это указывается через звездочку:

User-agent: *

У поисковых систем есть и специальные роботы — например, бот YandexImages обходит изображения, чтобы выдавать их в поиске Яндекса по картинкам, а Googlebot-News собирает информацию для выдаче в Google Новостях. Полные списки ботов можно найти в справке поисковых систем — введите в поиск «поисковые роботы [название ПС]».

Disallow

Эта директива сообщает поисковым роботам, что страница или целый список страниц запрещены для обхода. Важно понимать, что указание в robots.txt не гарантирует, что страница не попадет в выдачу — если ссылка на запрещенную в файле страницу встречается на разрешенных страницах сайта, поисковик все равно может включить его в индекс.

Если вы хотите разрешить поисковым роботам обрабатывать все страницы сайта, оставьте это указание пустым.

User-agent: *
Disallow:

Если вам нужно запретить для индексации несколько страниц или директорий, указывайте каждую из них отдельно:

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Disallow: /index2.html
Allow

Это указание разрешает ботам поисковиков сканировать определенные страницы. Обычно это используют, когда нужно закрыть целую директорию, но разрешить обрабатывать часть страниц. 

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Allow: /dev/index.php

Большинство поисковых систем обрабатывают в первую очередь более точные правила (например, с указанием конкретных страниц), а затем — более широкие. Например:

User-agent: *
Disallow: /wp-admin/
Disallow: /dev/
Allow: /dev/index.php

Такой файл robots.txt укажет роботам, что не нужно сканировать все страницы из папки «catalog», кроме «best-offers.html».

Host

Указание host говорит поисковым роботам, какое из зеркал сайта является главным. Например, если сайт работает через защищенный протокол https, в robots.txt стоит это указать:

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru

Эта директива уже устарела, и сегодня ее использовать не нужно. Если она есть в вашем файле сейчас, лучше ее удалить — есть мнение, что она может негативно сказываться на продвижении.

Sitemap

Этот атрибут — еще один способ указать поисковым роботам, где находится карта сайта. Она нужна для того, чтобы поисковик смог добраться до любой страницы сайта в один клик вне зависимости от сложности его структуры.

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Crawl-delay

Такой параметр помогает установить задержку для обработки сайта поисковыми роботами. Это может быть полезно, если сайт расположен на слабом сервере и вы не хотите, чтобы боты перегружали его запросами: передайте в crawl-delay время, которое должно проходить между запросами роботов. Время передается в секундах. 

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Crawl-delay: 10

На самом деле современные поисковые роботы и так делают небольшую задержку между запросами, так что прописывать это явно стоит только в том случае, если сервер очень слабый.

Clean-param

Эта настройка пригодится, чтобы скрыть из поиска страницы, в адресе которых есть параметры, не влияющие на ее содержание. Звучит сложно, так что объясняем на примере.

Допустим, на сайте есть категория «Смартфоны» и она расположена по адресу mysite.ru/catalog/smartphones.

У категории есть фильтры, которые передаются с помощью GET-запроса. Предположим, пользователь отметил в фильтре «Производитель: Apple, Samsung». Адрес страницы поменялся на

mysite.ru/catalog/smartphones/?manufacturer=apple&manufacturer=samsung,

где ?manufacturer=apple&manufacturer=samsung — параметры, которые влияют на содержимое страницы. Логично, что такие страницы можно и нужно выводить в поиске — эту страницу со включенным фильтром можно продвигать по запросу вроде «смартфоны эппл и самсунг».

А теперь представим, что пользователь перешел в категорию «Смартфоны» по ссылке, которую вы оставили во ВКонтакте, добавив к ней UTM-метки, чтобы отследить, эффективно ли работает ваша группа. 

mysite.ru/catalog/smartphones/?utm_source=vk&utm_medium=post&utm_campaign=sale

В такой ссылке параметры ?utm_source=vk&utm_medium=post&utm_campaign=sale не влияют на содержимое страницы — mysite.ru/catalog/smartphones/ и mysite.ru/catalog/smartphones/?utm_source=vk&utm_medium=post&utm_campaign=sale будут выглядеть одинаково.

Чтобы помочь поисковым роботам понять, на основании каких параметров содержимое меняется, а какие не влияют на контент страницы, и используется настройка Clean-param. 

User-agent: *
Disallow: /wp-admin/
Host: https://mysite.ru
Sitemap: https://mysite.ru/sitemap.xml
Clean-param: utm_campaign /
Clean-param: utm_medium /
Clean-param: utm_source /

С помощью такой директивы вы укажете поисковым роботам, что при обработке страниц для поисковой выдачи нужно удалять из ссылок такие параметры, как utm_campaign, utm_medium и utm_source. 

Как проверить robots.txt

Для того, чтобы проверить валидность robots.txt, можно использовать инструменты вебмастера поисковых систем. Инструмент проверки robots.txt есть у Google в Search Console — для его использования понадобится авторизация в Google и подтверждение прав на сайт, для которого проверяется файл.

Похожий инструмент для проверки robots.txt есть и у Яндекса, и он даже удобнее, потому что не требует авторизации.

Эти приложения помогают понять, как поисковый робот видит файл: если какие-то из директив прописаны в нем неверно, инструмент проверки их проигнорирует либо предупредит о них.

Чего стоит избегать при настройке robots.txt?

Будьте внимательны: хоть robots.txt непосредственно и не влияет на то, окажется ли ваш сайт в выдаче, этот файл помогает избежать попадания в индекс тех страниц, которые должны быть скрыты от пользователей. Все, что робот не сможет интерпретировать, он проигнорирует.

Вот несколько частых ошибок, которые можно допустить при настройке.

Не указан User-Agent

Или указан после директивы, например: 

Disallow: /wp-admin/
User-agent: *

Такую директиву робот прочитает так:

Disallow: /wp-admin/— так, это не мне, не читаю

User-agent: * — а это мне… Дальше ничего? Отлично, обработаю все страницы!

Любые указания к поисковым роботам должны начинаться с директивы User-agent: название_бота.

User-agent: GoogleBot
Disallow: /wp-admin/
User-agent: Yandex
Disallow: /wp-admin/

Или для всех сразу:

User-agent: *
Disallow: /wp-admin/

Несколько папок в Disallow

Если вы укажете в директиве Disallow сразу несколько директорий, неизвестно, как робот это прочтет.

User-agent: *
Disallow: /wp-admin/ /catalog/ /temp/ /user/ — “/wp-admin/catalog/temp/user/”? “/catalog/ /user”? “??????”?

По своему разумению он может обработать такую конструкцию как угодно. Чтобы этого не случилось, каждую новую директиву начинайте с нового Disallow:

User-agent: *
Disallow: /wp-admin/
Disallow: /catalog/
Disallow: /temp/
Disallow: /user/

Регистр в названии файла robots.txt

Поисковые роботы смогут прочитать только файл с названием “robots.txt”. “Robots.txt”, “ROBOTS.TXT” или “R0b0t.txt” они просто проигнорируют.

Резюме
  1. robots.txt — файл с рекомендациями, как обрабатывать страницы сайта, для поисковых роботов.
  2. В WordPress по умолчанию нет robots.txt, но есть виртуальный файл, который запрещает ботам сканировать страницы панели управления.
  3. Создать robots.txt можно в блокноте и загрузить его на хостинг в корневой каталог.
  4. Файл robots.txt должен быть создан в кодировке UTF-8.
  5. Проще создать robots.txt с помощью плагинов для WordPress — Clearfy Pro, Yoast SEO, All in One SEO Pack или других SEO-плагинов.
  6. С помощью robots.txt можно создать директивы для разных поисковых роботов, сообщить о главном зеркале сайта, передать адрес sitemap.xml или указать параметры URL-адресов, которые не влияют на содержимое страницы.
  7. Проверить валидность robots.txt можно с помощью инструментов от Google и Яндекс.
  8. Все директивы файла robots.txt, которые робот не сможет интерпретировать, он проигнорирует.

Robots.txt: что это такое?

Файл robots.txt — документ с инструкцией для поисковых роботов. Там прописываются правила (директивы): какие страницы нужно просканировать (проиндексировать), чтобы они попали в поисковую выдачу. Особенно полезно, если нужно:

  • запретить показ сайта или его страниц, содержащих неуникальный или бесполезный контент, конфиденциальную информацию;
  • открыть одну часть страниц Google, а другую — Яндексу;
  • указать приоритетный для индексации адрес сайта.

Robots.txt — это текстовый документ в кодировке UTF-8. Работает для протоколов http, https. Файл размещают в корневом каталоге сайта. Роботс должен быть доступен по адресу: https://site.ru/robots.txt.

Как robots.txt влияет на индексацию сайта

Поисковой робот заходит на сайт, если на нем есть файл robots.txt, то он вначале он обращается к нему. Если там четко указано, что нужно индексировать, а что нет, то он следует правилам документа.

Но иногда поисковики все равно индексируют страницы, хотя их обработка запрещена директивами robots.txt. Это происходит, когда на эти материалы есть прямые ссылки на вашем или любых других сайтах.

Как создать robots.txt

Разберемся, как это сделать вручную.

Если этот вариант не для вас, то можно воспользоваться специальными сервисами, например, htmlweb.ru или sitespy.ru.

Для сайтов на WordPress роботс можно сгенерировать с помощью плагина Yoast SEO.

Итак, заходим в любой текстовый редактор, например, Notepad и прописываем нужные директивы (правила). Далее расскажем подробнее о каждой.

User-agent

User-agent — правило о том, какие роботы должны следовать вашей инструкции.

Основные роботы
  1. User-agent: * — используем эту запись, если хотим, чтобы все работы следовали правилам robots.txt.
  2. User-agent: Googlebot — если правило только для бота Гугла.
  3. User-agent: Yandex — для Яндекса.
Другие роботы
  1. Mediapartners-Google — для сервиса AdSense;
  2. AdsBot-Google — это гугл-робот проверяет качество целевой страницы;
  3. YandexImages — индексирует изображения, чтобы они попали в Яндекс.Картинки;
  4. Googlebot-Image — для изображений Гугла;
  5. YandexMetrika — робот Яндекс.Метрики;
  6. YandexMedia — для видео и аудио Яндекса;
  7. YaDirectFetcher — робот Яндекс.Директа;
  8. Googlebot-Video — для видео;
  9. Googlebot-Mobile — для мобильной версии;
  10. YandexDirectDyn — робот генерации динамических баннеров;
  11. YandexBlogs — работает с блогами. Индексирует посты и комментарии;
  12. YandexMarket— робот Яндекс.Маркета;
  13. YandexNews — робот Яндекс.Новостей;
  14. YandexDirect — сканирует сайты, которые участвуют в РСЯ. Анализирует контент этих сайтов, уточняет тематику для подбора релевантной рекламы;
  15. YandexPagechecker — валидатор микроразметки;
  16. YandexCalendar — робот Яндекс.Календаря.

В идеальном robots.txt (в сказочном мире с розовыми единорогами) после User-agent надо обращаться к каждому роботу. Так можно повысить вероятность того, что поисковики будут соблюдать рекомендации из файла.

Disallow

Disallow — команда, закрывающая от индексации ресурс или отдельные его страницы.

  1. Disallow: / — чтобы скрыть портал от всех поисковиков. Пригодится, если сайт еще в разработке и вы пока не готовы представить его всему миру.
  2. Disallow: /papka/ — если нужно скрыть какую-то папку. Только вместо papka нужно вписать имя нужной папки.
  3. Disallow: /sekretno-info.html — для закрытия одной страницы после директивы указываем ссылку на нее.

Например:

User-agent: *
Disallow: /sekretno-info.html

Allow

Allow, наоборот, разрешает индексировать данные. Допустим, мы хотим, чтобы роботы индексировали только одну страницу сайта.

User-agent: *
Disallow: /
Allow: /sekretno-info.html

Тут нужно соблюдать логический порядок правил при одновременном применении Allow и Disallow. Сначала указываем команда, которая распространяет на весь сайт, затем — команда для раздела, подраздела или страницы.

Sitemap

Эта функция указывает адрес карты сайта. При каждом заходе робот переходит по указанному урлу и видит ссылки, которые нужно обязательно проиндексировать.

Команда прописывается в robots.txt так:

Sitemap: https://puzat.ru/sitemap.xml

Clean-param

Эта команда помогает избавиться от дублей страниц — это, когда одна страница доступна по разным адресам. Такие адреса появляются, если на сайте есть различные сортировки, id сессии и так далее. Например, страница доступна по адресам:

Тогда правило в robots.txt будет выглядеть так:

User-agent: *
...
Clean-param: sorts&order/catalog/category/

Host: уже не применяется

Директива применялась для указания главного зеркала сайта в Яндексе — копии ресурса, доступной по другому адресу.

В 2018 г. функцию перестали использовать. Теперь достаточно установить в файле .htaccess 301-й постраничный редирект на всех зеркалах портала, кроме основного. Так же желательно подтвердить главное зеркало в webmaster.yandex.ru.

Crawl-delay: уже не применяется

Команда crawl-delay была введена, чтобы указывать время ожидания робота между обработкой запросов. Эта функция помогала защитить серверы от перегрузки.

С 22 февраля 2018 г. она не распознается поисковиками. Современные серверы динамичны и способны пропускать много трафика, поэтому нет смысла настраивать время ожидания до обработки запроса.

Спецсимволы в robots.txt

Основные символы — «/, *, $, #».

Слэш «/»

Эти символом мы показываем, что мы хотим закрыть от роботов.

  1. Если ставим один слеш в правиле Disallow, то запрещаем индексацию всего сайта.
  2. Если ставим два слеша, то запрещаем сканирование какой-то одной части сайта. Например: /catalog/ — тут запрет на сканирование всей папки catalog.
  3. А если напишем так: /catalog, это будет означать, что мы не хотим, чтобы робот сканировал ссылки, которые начинаются на /catalog.

Звездочка «*»

Ставится после каждого правила. Означает любую последовательность символов в файле. Например, такая запись означает, что все роботы НЕ должны индексировать файлы с расширением .gif в папке /catalog/

User-agent: *
Disallow: /catalog/*.gif$

Знак доллара «$»

Ограничивает действия знака звездочки. Например, мы хотим закрыть все содержимое папки catalog. Но при этом нужно, чтобы урлы, которые начинаются на /catalog, были рабочими:

User-agent: *
Disallow: /catalog$

Решетка «#»

Роботы не учитывают этот знак. Он используется для комментариев.

Основные правила robots.txt

  1. Имя файла и его расширение пишем строчными буквами;
  2. Каждую новую директиву прописываем с новой строки;
  3. Нельзя ставить пробел перед командой;
  4. После блока правил ставим пустую строку;
  5. Название директивы пишем с большой буквы, остальные буквы в слове должны быть строчными;
  6. Не забываем ставить слеш / перед названием параметра, содержащим текст;
  7. Нельзя размещать более одного запрета в строке;
  8. В директивах Allow и Disallow можно указать только один параметр;
  9. В коде нельзя использовать символы из национальных алфавитов.

Внимание! Роботы будут игнорировать ваш файл: если он по каким-то причинам недоступен или весит больше 32 Кб.

Как выглядит минимальный robots.txt

Сайт открыт для индексирования и указана карта сайта:

User-agent: *
Disallow:
Sitemap: http://site.ru/sitemap.xml

Как проверить robots.txt

Проверить свой файл на ошибки можно с помощью Яндекс.Вебмастер и Search Console.

В Яндекс.Вебмастер сначала надо авторизоваться. Затем откроется окно, в котором можно указать ссылку на сайт и вставить исходный код robots.txt. Сервис начнет поиск ошибок после нажатия на кнопку Проверить.

В Search Console тоже придется авторизоваться и пройти по пути: Сканирование > Инструменты проверки файла robots.txt.

А как вы генерили robots.txt? Вручную или с помощью сервисов? Делитесь опытом в комментариях!

Генератор Robots.txt

Создайте файлы robots.txt для своего сайта в соответствии с https://developers.google.com/search/reference/robots_txt.

Конфигурация

Сервлет роботов может работать в 2-х режимах, со значительными различиями в том, как сервлет настроен. Первый шаг, независимо от того, в каком режиме, — это зарегистрировать сервлет для типа ресурса компонента вашей домашней страницы, например оборотень / компоненты / конструкция / стр. .

Получить содержимое Robots.txt из свойства

Самый простой способ использования сервлета (и, вероятно, наиболее подходящий) — это прочитать все содержимое файла robots.txt из свойства. Указанное свойство должно иметь тип String или Binary и может быть абсолютным или относительным по отношению к запрашиваемой странице. В этом режиме необходимо настроить только тип ресурса и путь к свойству, так как все остальные свойства osgi фактически игнорируются. В приведенном ниже примере конфигурации показано, как может выглядеть конфигурация при использовании свойства jcr: data текстового файла, загруженного в Assets.

/apps/mysite/config.prod/com.adobe.acs.commons.wcm.impl.RobotsServlet-sample1.config

  sling.servlet.resourceTypes = ["mysite / components / structure / page"]
robots.content.property.path = "/ content / dam / mysite / robots / robots_prod.txt / jcr: content / renditions / original / jcr: content / jcr: data"  

Указание директив Robots.txt в качестве конфигурации OSGI и / или Свойства страницы

Для более сложных сценариев содержимое robots.txt может быть создано динамически с помощью комбинации свойств конфигурации osgi и свойств страницы.

  • Пользовательские агенты (user.agent.directives) : укажите список пользовательских агентов для включения в ваш robots.txt
  • Разрешить (allow.directives и allow.property.names)
    • allow.directives: укажите разрешающие правила для включения в файл robots.txt. Если какое-либо правило является допустимым путем к странице, вызывается resourceResolver.map перед записью в файл
    • .
    • allow.property.names: укажите имена свойств, указывающие, какие страницы разрешены.Это должны быть логические свойства, указывающие разрешенные страницы.
  • Disallow (disallow.directives и disallow.property.names)
    • disallow.directives: укажите запрещающие правила для включения в файл robots.txt. Если какое-либо правило является допустимым путем к странице, вызывается resourceResolver.map перед записью в файл
    • .
    • disallow.property.names: укажите имена свойств, указывающие, какие страницы запрещены. Это должны быть логические свойства, указывающие на запрещенные страницы.
  • Карта сайта (sitemap.directives и sitemap.property.names)
    • sitemap.directives: укажите правила для карты сайта, которые нужно включить в файл robots.txt. Если какое-либо правило является допустимым путем к странице, страница выводится на внешний вид, а записанное значение указывает на .sitemap.xml для этой страницы при условии, что эта страница представляет карту сайта с использованием сервлета ACS Commons Sitemap, хотя это могло бы точно так же легко быть настраиваемым сервлетом карты сайта, зарегистрированным для этого селектора и расширения.
    • sitemap.property.names: укажите имена свойств, указывающие, какие страницы являются картами сайта. Это должны быть логические свойства, указывающие на страницы, которые можно адресовать как карты сайта.
  • Extenalizer (externalizer.domain) : Пользователь для экстернализации URL-адресов карты сайта должен быть абсолютным, в отличие от разрешений / запретов, которые являются относительными. Это должно соответствовать действующей конфигурации компонента Externalizer.
Директивы по группировке

Роботы.Формат txt группирует наборы разрешающих и запрещающих директив для набора пользовательских агентов. Если ваши требования диктуют более одной группировки, убедитесь, что для каждого пользовательского агента, разрешения или запрета для группы предварительно задано соответствующее имя группы. Если у вас возникнут проблемы с этим, вы можете включить print.grouping.comments , который будет печатать начало и конец каждой группы. Ниже приведен пример конфигурации, показывающий, как это может выглядеть, а затем итоговый файл robots.

/ приложения / mysite / config.prod / com.adobe.acs.commons.wcm.impl.RobotsServlet-sample2.config

  sling.servlet.resourceTypes = ["mysite / components / structure / page"]
user.agent.directives = ["all: *", "google: googlebot"]
allow.directives = ["all: /"]
allow.property.names = ["google: googlebotAllowed"]
disallow.directives = ["all: / private /", "google: / private /"]
disallow.property.names = ["google: googlebotDisallowed"]
sitemap.directives = ["http://www.mysite.com/sitemap.xml"]
sitemap.property.names = ["cq: isLanguageRoot"]
экстернализатор.домен = "опубликовать"
print.grouping.comments = B "true"  
  # Начальная группа: все
Пользовательский агент: *
Разрешать: /
Disallow: / private /
# Конечная группа: все
# Начальная группа: google
Пользовательский агент: googlebot
Disallow: / private /
# Конечная группа: google
Карта сайта: http://www.mysite.com/sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / us / en.sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / us / es.sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / ca / ​​en.sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / ca / ​​fr.sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / fr / fr.sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / de / de.sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / it / it.sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / es / es.sitemap.xml
Карта сайта: http: // localhost: 4503 / content / mysite / gb / en.sitemap.xml  

Адресация

После настройки сервлета его можно запросить по адресу /content/mysite/home/_jcr_content.robots.txt ./robots.txt$ /content/mysite/home/_jcr_content.robots.txt [PT, L] Пожалуйста, включите JavaScript, чтобы просматривать комментарии от Disqus.

мгновенно создает файл robots.txt

Любой из нас, оптимизаторов поисковых систем, стремится полностью контролировать, какой контент вашего сайта попадает в поисковые системы. глаза. С набором инструментов для веб-мастеров в WebSite Auditor эта задача превращается в не более чем легкая прогулка!

Роботы.txt позволяет держать определенные страницы вашего сайта подальше от поисковых систем. бот . WebSite Auditor позволяет создавать текстовый файл вашего робота и управлять его обновляет всего несколькими щелчками мыши прямо из инструмента. Вы можете легко добавить разрешить / запретить инструкции, не опасаясь синтаксиса, устанавливайте разные директивы для различных поисковых роботов и user-agent, легко управлять обновлениями и загружать текстовый файл robots через FTP прямо из robots.текст генератор.

Чтобы попробовать генератор файлов robots.txt в WebSite Auditor, просто запустите инструмент, вставьте URL-адрес своего сайта в создайте проект и перейдите на страницу Pages> Инструменты веб-сайта .

Шаг 1. Выберите поисковые системы , роботы которых вы хотите запретить посещать некоторые из ваших страниц.

Шаг 2.Выберите каталоги и страницы вашего сайта, которые вы не хотите индексировать.

Шаг 3. Пусть генератор robots.txt скомпилирует ваш файл и мгновенно загрузит его на веб-сайт через FTP или сохраните его на свой компьютер.

Большинство веб-мастеров имеют представление о том, что такое файл robots.txt и почему он важен для любого веб-сайта, но давайте резюмируйте основные моменты.

Файл robots.txt — это способ указать поисковым системам, какие области вашего сайта им следует или не следует. посетить и проиндексировать. На самом деле, файл robots.txt не является обязательным, сканеры веб-сайтов смогут сканировать ваш сайт без него. Однако это может быть полезно, когда у вас много ресурсов и вы хотите оптимизировать способ сканирования ваших страниц поисковыми роботами.

Файл robot.txt включает в себя список указаний для поисковых систем сканировать или не сканировать определенные страницы на Ваш сайт.Файл robots.txt должен находиться в корневом каталоге вашего веб-сайта. Например, вы можете ввести yourdomainname.com/robots.txt и посмотреть, есть ли он у вас на сайте.

Синтаксис довольно прост. Обычно файл robots.txt содержит правила Allow и Disallow и указывает пользовательский агент, к которому применяется директива. Также вы можете указать путь к вашему XML-файлу Sitemap.

User-agent: *
Allow: /

Всем сканерам веб-сайтов разрешено сканировать все страницы.

User-agent: Bingbot
Disallow: /sitepoint-special-offer.html$

Бот Bing не может сканировать этот URL.

Подстановочный знак * рядом с User-agent означает, что директива применяется ко всем поисковым системам. Слэш / средства путь после метки, к которой применяется правило. Знак $ означает конец URL-адреса. Используя символ # вы можете оставлять комментарии внутри текстового файла. Кстати, robots.txt чувствителен к регистру, поэтому обязательно напишите его с начального нижнего регистра и также проверьте URL-адреса внутри. Только допустимые строки реализуются гусеничный трактор. В случае противоречия правил применяется минимально ограничивающее правило.

Вы можете создать файл robots.txt с помощью инструмента редактирования обычного текста, такого как Блокнот. Некоторые хостинговые платформы позволяют создание файлов robots.txt прямо в админке.

Как вариант, создавать и редактировать такие файлы с помощью специального файла robots.txt даже без глубокого технические знания.

  • Загрузите текущий файл robots.txt в WebSite Auditor прямо с сервера , чтобы просмотреть его и редактировать.

Если вы хотите узнать текущие инструкции robots.txt для его тестирования или дальнейшего редактирования, сделайте это с помощью одного щелкните мышью в генераторе файлов robots.txt. Просто нажмите Fetch From Server , и в одно мгновение инструмент соберет всю информацию в рабочей области.Нажмите Далее , и текстовый файл будет сохранен. на жесткий диск (или в любое место, которое вы определяете в настройках > Параметры публикации ).

  • Обеспечьте совместимость вашего robots.txt на 100% с Google, Yahoo, Bing и другими веб-сайтами гусеницы .

Иногда вам нужно оставить свои страницы доступными только для определенных поисковых роботов. Например, вы можете захотеть оставьте страницу открытой только для бота Mediapartners, чтобы показывать объявления, релевантные истории поиска посетителей.Итак, в Генератор robots.txt, укажите настройки только для конкретного поискового бота. Выберите Инструкция и Search Bot из раскрывающегося меню со стрелкой и завершите, чтобы добавить правило. Вы увидите и соответствующий пользовательский агент ниже в содержимом файла robots.txt.

  • Отредактируйте и проверьте файл robots.txt перед его загрузкой на веб-сайт , чтобы убедиться, что он работает так, как вы хотите.

Следите за всеми изменениями на своем веб-сайте и изменяйте файлы robots.txt в мгновенный. Вы можете редактировать, удалять, перемещать правило вверх или вниз по текстовому файлу с помощью кнопок меню. В вашей Генератор robots.txt, переключитесь на Тест , чтобы увидеть, какая директива применяется к определенному URL.

Примечание. Хотя файл robots.txt предназначен для того, чтобы проинструктировать пользовательские агенты, как сканировать ваш веб-сайт, это не гарантирует, что запрещенная веб-страница не появится в результатах поиска.Страница могут быть просканированы и появятся в индексе, если на него есть ссылки с других страниц, даже если он был запрещено в вашем файле robots.txt. Если вы хотите быть на 100% уверены, что страница не может индексироваться, используйте метатег noindex.

Инструмент позволяет проверить, какие URL-адреса и ресурсы были ограничены для индексации различными методы. Перейдите в Site Audit> Crawling and Indexing и проверьте ресурсы , доступ к которым ограничен индексируя , чтобы узнать, запрещено ли это директивой robots или метатегом noindex.

С помощью генератора robots.txt от WebSite Auditor вы примените простую в использовании настольную программу вместо установки сложных инструментов генерации robots.txt на вашем сервере. Кроме того, инструмент позволяет масштабируйте свои задачи в SEO-агентстве или для междоменных услуг: создайте неограниченное количество Файлы robots.txt для нескольких веб-сайтов с уникальными настройками для каждого из них.

Плагин

WordPress Robots.txt — легко редактировать файл Robots.txt

Что такое Robots.txt?

Robots.txt — это текстовый файл, содержащий инструкции, также известные как директивы, для роботов поисковых систем. Владельцы веб-сайтов используют его, чтобы предотвратить сканирование поисковыми системами ненужных страниц на своем веб-сайте. Он также дает советы поисковым системам о том, как лучше всего перемещаться по вашему сайту и индексировать его.

Вот типичный пример файла robots.txt в WordPress:

  Агент пользователя: *
Разрешить: / wp-admin / admin-ajax.php
Запретить: / wp-admin /
Запретить: / wp-content / uploads / wpforms /
Запретить: /xmlrpc.php
Карта сайта: https://aioseo.com/video-sitemap.xml
Карта сайта: https://aioseo.com/sitemap.xml
Карта сайта: https://aioseo.com/sitemap.rss
  

Прежде чем обсуждать файл robots.txt в приведенном выше примере, давайте взглянем на основные компоненты файла robots.txt.

  • User-agent : User-agent — это то, что поисковые роботы используют для идентификации себя.Вы можете использовать эту директиву для нацеливания на определенных ботов поисковых систем. Например, если вы хотите, чтобы Google сканировал только ваш веб-сайт, вам следует добавить googlebot вместо *. * Означает, что все поисковые системы, такие как Google, Bing, Yahoo и другие, могут сканировать ваш сайт.
  • Разрешить : это означает, что поисковой системе разрешено сканировать этот конкретный раздел веб-сайта.
  • Disallow : Используя эту директиву, вы можете запретить поисковым системам получать доступ к определенным страницам или файлам на вашем веб-сайте.

Возвращаясь к примеру robots.txt, мы разрешили всем поисковым системам сканировать наш веб-сайт с помощью директивы user-agent: *. Мы также разрешали и запрещали URL-адреса в зависимости от того, как мы хотим, чтобы Google сканировал наш веб-сайт.

Используя файл robots.txt, вы также можете отправить несколько карт сайта. В нашем файле robots.txt мы отправили отдельную карту сайта для видео, которая есть на нашем веб-сайте. Это упрощает поисковым системам поиск, сканирование и индексирование видео на нашем веб-сайте.

Карта сайта — это навигационная карта вашего сайта. Он сообщает поисковым системам, сколько страниц у вас на сайте. С помощью AIOSEO’s WordPress Sitemap Generator вы можете легко создавать и отправлять свои карты сайта.

Многие люди также спрашивают: «А где robots.txt в WordPress?» на случай, если они захотят внести правки.

Местоположение robots.txt WordPress находится в корневом каталоге вашего веб-сайта WordPress. Вы можете просмотреть файл, подключившись к своему сайту с помощью FTP-клиента или cPanel.

Но вам не придется заходить так далеко, если вы используете AIOSEO. Он позволяет редактировать и просматривать файл robots.txt из панели управления WordPress. Нет необходимости в отдельном плагине robots.txt для WordPress. Мы обсудим это более подробно позже в этом руководстве.

Вы также можете просмотреть его в Интернете, введя имя своего домена и текст «robots.txt». Например, https://www.example.com/robots.txt.

Теперь, когда вы знаете, что такое файл robots.txt и как он выглядит, давайте поговорим о том, почему он важен для вашего веб-сайта.

Зачем вам нужен файл Robots.txt для вашего сайта WordPress?

Robots.txt позволяет управлять сканированием и индексированием вашего сайта поисковыми системами. Без файла robots.txt поисковые системы будут сканировать весь ваш сайт, даже неважные страницы.

Если вы не запретите поисковым роботам сканировать ненужные страницы, они израсходуют весь ваш бюджет сканирования и могут не сканировать страницы, которые вы хотите, чтобы они сканировали.

Бюджет сканирования — это уровень внимания, которое поисковая система, такая как Google, уделяет вашему сайту.Это зависит от того, как часто поисковые системы любят сканировать ваш сайт и как часто ваш сайт может сканироваться.

Если вы тратите впустую свой краулинговый бюджет, Google и другие поисковые системы не смогут эффективно сканировать ваш сайт, а это может снизить его производительность.

Каждый веб-сайт имеет ограниченный краулинговый бюджет. Боты поисковых систем сканируют только определенное количество страниц во время сеанса сканирования.

Если бот не просканирует весь ваш веб-сайт в первом сеансе сканирования, он вернется и просканирует оставшиеся страницы в следующем сеансе.

В зависимости от вашего веб-сайта следующие сеансы сканирования могут длиться не несколько дней. Это может замедлить индексацию вашего сайта, и ваши важные страницы не будут сканироваться и индексироваться поисковыми системами. Это может привести к огромным потерям трафика и бизнеса.

Вы можете быстро исправить это, запретив ненужные страницы вашего веб-сайта, такие как страница администратора WordPress, файлы плагинов и папка тем. Это поможет сэкономить краулинговый бюджет и повысить коэффициент индексации.

Теперь перейдем к той части, где мы расскажем, как просматривать, редактировать, создавать и отправлять роботов.txt с помощью AIOSEO.

Как создать файл Robots.txt для вашего сайта WordPress?

All in One SEO (AIOSEO) позволяет очень легко создавать и редактировать файл robots.txt в WordPress.

Все, что вам нужно сделать, это зайти в панель управления WordPress и перейти в All in One SEO »Tools.

Затем вы попадете на страницу редактора Robots.txt. Отсюда вы можете легко добавить или отредактировать файл robots.txt, используя форму.

С AIOSEO вам не нужно беспокоиться о форматировании роботов.txt файл. Все, что вам нужно сделать, это добавить директивы в поля, а AIOSEO сделает все остальное.

После добавления директив нажмите «Сохранить изменения», чтобы завершить настройку.

Теперь, когда вы создали файл robots.txt, вам нужно протестировать его, чтобы увидеть, есть ли в нем ошибки.

Проверьте свой файл WordPress Robots.txt

Чтобы проверить файл robots.txt, просто перейдите к инструменту тестирования robots.txt и войдите в свою учетную запись консоли поиска Google.

Затем введите «robots.txt »в поле URL и нажмите« Тест ».

Если файл robots.txt проверен, вы получите сообщение Разрешено. В противном случае вы увидите, что ошибки и предупреждения будут выделены в поле.

И готово! Вы успешно создали и проверили файл robots.txt в WordPress.

Мы надеемся, что это руководство помогло вам научиться создавать оптимизированный файл robots.txt для вашего веб-сайта WordPress с помощью AIOSEO.

Показать меньше

роботов.txt Generator — Создайте файл robots.txt онлайн

Об этом инструменте:

Генератор Robots.txt

Существует метод повышения вашего SEO за счет использования естественной части вашего веб-сайта, которая редко обсуждается. И реализовать это тоже несложно.

Этим методом является файл robots.txt, также известный как протокол или стандарт исключения роботов.

Что такое файл robots.txt?

Роботы.txt — это файл, содержащий инструкции «как сканировать веб-сайт, получать доступ и индексировать контент, а также предоставлять этот контент пользователям». Этот крошечный файл — важная часть каждого веб-сайта, но об этом знает меньше людей.

  • Это стандарт, используемый веб-сайтами для указания сканерам / ботам, какая часть их веб-сайтов нуждается в индексировании.
  • Вы также можете указать части вашего веб-сайта, которые роботы / роботы не должны индексировать. Это включает в себя страницу входа в панель управления веб-сайта, дублированный контент или веб-страницы, находящиеся в стадии разработки.

Подводя итог, можно сказать, что на практике файл robots.txt указывает, могут ли определенные пользовательские агенты сканировать определенные части веб-сайта. Эти инструкции сканирования указываются путем «запрета» или «разрешения» определенных (или всех) пользовательских агентов.

Важность файла robots.txt в SEO?

robots.txt — это крошечный файл, который позволяет повысить рейтинг вашего сайта. Каждый раз, когда сканеры поисковых систем просматривают ваш веб-сайт, первый файл, который они посещают, — это ваш файл robots.txt файл. И если им не удалось найти этот файл, велика вероятность, что они не проиндексируют все страницы вашего сайта.

Google использует бюджет сканирования, и этот бюджет основан на ограничении сканирования.

Предел сканирования — это время, которое сканеры Google проводят на вашем веб-сайте .

Однако, если Google считает, что сканирование вашего веб-сайта влияет на взаимодействие с пользователем, он будет сканировать ваш сайт медленнее. Это означает, что Google отправляет сканеры. Они будут сканировать ваш веб-сайт медленнее, сканировать только важные страницы, а вашим самым последним сообщениям всегда нужно время, чтобы проиндексировать их.

Чтобы решить эту проблему, на вашем веб-сайте должен быть файл robots.txt и карта сайта. Это говорит поисковым системам, какие части вашего сайта требуют большего внимания.

Файл robots.txt содержит «User-agent», и под ним вы можете написать другие директивы, такие как «Allow», «Disallow», «Crawl-delay» и т. Д.

Если он написан вручную, это может занять много времени, и вам придется вводить несколько строк команд в одном файле.

Базовый формат роботов.txt файл — это

User-agent: [имя user-agent]

Disallow: [строка URL-адреса, которую нельзя сканировать]

Если вы думаете, что это легко, то ошибаетесь. Одна неправильная строка или крошечная ошибка могут исключить вашу страницу из очереди индексации.

Примечание: Убедитесь, что ваша главная страница не указана в директиве disallow.

Синтаксис Robots.txt

Если вы создаете файл robots.txt, вы должны знать несколько важных терминов, используемых в этом файле.Есть пять стандартных терминов, с которыми вы, вероятно, столкнетесь в файле robots.txt. В их числе:

  • User-agent: Определенный веб-сканер (обычно поисковая система), которому вы даете инструкции для сканирования.
  • Disallow: Эта команда предписывает поисковому роботу не индексировать конкретный URL. Для каждого URL разрешена только одна строка «Запретить».
  • Разрешить: Эта команда указывает поисковому роботу проиндексировать конкретный URL. Эта команда также применима для ботов Google.Он сообщает ботам Google проиндексировать страницу или подпапку, даже если ее родительская страница или подпапка могут быть запрещены.
  • Crawl-delay: Эта команда указывает, сколько секунд веб-сканер должен подождать перед загрузкой и сканированием содержимого страницы. Различные поисковые роботы обрабатывают задержку сканирования по-разному. Для Bing это похоже на временное окно, в котором бот посетит сайт только один раз. Для Яндекса это перерыв между посещениями. Боты Google не подтверждают эту команду.Однако вы можете установить скорость сканирования в Google Search Console.
  • Sitemap: Он вызывает расположение любых XML-файлов Sitemap, связанных с URL-адресом. Однако в настоящее время эту команду поддерживают Google, Bing и Yahoo.

Как создать файл robots.txt для роботов Google с помощью генератора файлов robots.txt?

Создание файла robots.txt вручную — сложная вещь. Но онлайн-инструменты делают этот процесс относительно простым.

Для создания роботов.txt файл.

  • Откройте генератор Robots.txt.
  • Когда вы открываете инструмент, вы видите несколько вариантов. Не все параметры являются обязательными. Но выбирать нужно внимательно. Первая строка содержит значения по умолчанию для всех роботов / веб-сканеров и задержку сканирования. Если вам нужна задержка сканирования, вы можете выбрать значение в секундах в соответствии с вашими требованиями.
  • Вторая строка касается карты сайта. Убедитесь, что он у вас есть, и не забудьте указать его в файле robot.txt.
  • Следующие несколько строк содержат ботов поисковых систем, если вы хотите, чтобы конкретный бот поисковой системы сканировал ваш сайт.Затем выберите «Разрешено» в раскрывающемся списке для этого бота. И если вы не хотите, чтобы конкретный бот поисковой системы сканировал ваш сайт. Затем выберите «Отказано» в раскрывающемся списке этого бота.
  • Последняя строка предназначена для запрета, если вы хотите запретить поисковым роботам индексировать области страницы. Не забудьте добавить косую черту перед заполнением поля адресом каталога или страницы.
  • После создания файла robots.txt проверьте свой robots.txt с помощью тестера robots.txt.

Robots.txt: Как создать идеальный файл для SEO

В этой статье мы расскажем, что такое robot.txt в SEO, как он выглядит и как его правильно создать. Это файл, который отвечает за блокировку индексации страниц и даже всего сайта. Неправильная структура файла — обычная ситуация даже среди опытных SEO-оптимизаторов, поэтому остановимся на типичных ошибках при редактировании robot.txt.

Что такое Robots.txt?

Роботы.txt — это текстовый файл, который сообщает поисковым роботам, какие файлы или страницы закрыты для сканирования и индексации. Документ размещается в корневом каталоге сайта.

Давайте посмотрим, как работает robot.txt. У поисковых систем две цели:

  1. Для сканирования сети для обнаружения контента;
  2. Индексировать найденный контент, чтобы показывать его пользователям по идентичным поисковым запросам.

Для индексации поисковый робот посещает URL-адреса с одного сайта на другой, просматривая миллиарды ссылок и веб-ресурсов.После открытия сайта система ищет файл robots.txt. Если сканер находит документ, он сначала сканирует его, а после получения от него инструкций продолжает сканирование страницы.

Если в файле нет директив или он не создается вообще, робот продолжит сканирование и индексацию без учета данных о том, как система должна выполнять эти действия. Это может привести к индексации нежелательного содержания поисковой системой.

Но многие SEO-специалисты отмечают, что некоторые поисковые системы игнорируют инструкции робота.txt файл. Например, парсеры электронной почты и вредоносные robots. Google также не воспринимает документ как строгую директиву, но рассматривает его как рекомендацию при сканировании страницы.

User-agent и основные директивы

Агент пользователя

У каждой поисковой системы есть свои собственные пользовательские агенты. Robots.txt прописывает правила для каждого. Вот список самых популярных поисковых ботов:

  • Google: Googlebot
  • Bing: Bingbot
  • Yahoo: Slurp
  • Baidu: Baiduspider

При создании правила для всех поисковых систем используйте этот символ: (*).Например, давайте создадим бан для всех роботов, кроме Bing. В документе это будет выглядеть так:

Пользовательский агент: *

Запрещено: /

Пользовательский агент: Bing

Разрешить: /

Документ robots.txt может содержать различное количество правил для поисковых агентов. При этом каждый робот воспринимает только свои директивы. То есть, инструкции для Google, например, не актуальны для Yahoo или какой-либо другой поисковой системы.Исключение будет, если вы укажете один и тот же агент несколько раз. Тогда система выполнит все директивы.

Важно указать точные имена поисковых ботов; в противном случае роботы не будут следовать указанным правилам.

Директивы

Это инструкции по сканированию и индексации сайтов поисковыми роботами.

Поддерживаемые директивы

Это список директив, поддерживаемых Google:

1. Запретить

Позволяет закрыть доступ поисковых систем к контенту.Например, если вам нужно скрыть каталог и все его страницы от сканера для всех систем, то файл robots.txt будет иметь следующий вид:

Пользовательский агент: *

Запрещено: / catalog /

Если это для конкретного краулера, то это будет выглядеть так:

Пользовательский агент: Bingbot

Запрещено: / catalog /

Примечание: Укажите путь после директивы, иначе роботы его проигнорируют.

2. Разрешить

Это позволяет роботам сканировать определенную страницу, даже если она была ограничена. Например, вы можете разрешить поисковым системам сканировать только одно сообщение в блоге:

Пользовательский агент: *

Запретить: / blog /

Разрешить: / blog / что такое SEO

Также можно указать robots.txt, чтобы разрешить весь контент:

Пользовательский агент: *

Разрешить: /

Примечание. Поисковые системы Google и Bing поддерживают эту директиву.Как и в случае с предыдущей директивой, всегда указывайте путь после , разрешите .

Если вы ошиблись в robots.txt, запретят и разрешат будут конфликтовать. Например, если вы упомянули:

Пользовательский агент: *

Disallow: / blog / что такое SEO

Разрешить: / blog / что такое SEO

Как видите, URL разрешен и запрещен для индексации одновременно. Поисковые системы Google и Bing будут отдавать приоритет директиве с большим количеством символов.В данном случае это , запретить . Если количество символов одинаково, то будет использоваться директива allow , то есть ограничивающая директива.

Другие поисковые системы выберут первую директиву из списка. В нашем примере это , запретить .

3. Карта сайта

Карта сайта, указанная в robots.txt, позволяет поисковым роботам указывать адрес карты сайта. Вот пример такого файла robots.txt:

Карта сайта: https: // www.site.com/sitemap.xml

Пользовательский агент: *

Запретить: / blog /

Разрешить: / blog / что такое SEO

Если карта сайта указана в Google Search Console, то этой информации Google будет достаточно. Но другие поисковые системы, такие как Bing, ищут его в robots.txt.

Не нужно повторять директиву для разных роботов, она работает для всех. Рекомендуем записать его в начале файла.

Примечание : Вы можете указать любое количество карт сайта.

Вы также можете прочитать соответствующую статью XML-руководство по файлам Sitemap: лучшие приемы, советы и инструменты.

Неподдерживаемые директивы

1. Задержка сканирования

Ранее директива показывала задержку между сканированиями. Google в настоящее время не поддерживает его, но может быть указан для Bing. Для робота Googlebot скорость сканирования указывается в консоли поиска Google.

Например:

Пользовательский агент: Bingbot

Задержка сканирования: 10

2.Noindex

Для робота Googlebot в файле robots.txt noindex никогда не поддерживался. Мета-теги роботов используются для исключения страницы из поисковой системы.

3. Nofollow

Это не поддерживается Google с прошлого года. Вместо этого используется атрибут URL rel = «nofollow».

Примеры robots.txt

Рассмотрим пример стандартного файла robot.txt:

Карта сайта: https://www.site.com/sitemap.xml

Пользовательский агент: Googlebot

Запретить: / blog /

Разрешить: / blog / что такое SEO

Пользовательский агент: Bing

Запретить: / blog /

Разрешить: / blog / что такое SEO

Примечание: Вы можете указать любое количество пользовательских агентов и директив по своему усмотрению.Всегда пишите команды с новой строки.

Почему Robots.txt важен для SEO?

Файл

Robots txt для SEO играет важную роль, поскольку он позволяет вам давать инструкции поисковым роботам, какие страницы вашего сайта следует сканировать, а какие нет. Кроме того, файл позволяет:

  • Избегайте дублирования контента в результатах поиска;
  • Блокировать закрытые страницы; например, если вы создали промежуточную версию;
  • Запретить индексирование определенных файлов, таких как PDF-файлы или изображения; и
  • Увеличьте бюджет сканирования Google.Это количество страниц, которые может сканировать робот Googlebot. Если на сайте их много, то поисковому роботу потребуется больше времени, чтобы просмотреть весь контент. Это может негативно повлиять на рейтинг сайта. Вы можете закрыть неприоритетные страницы со сканера, чтобы бот мог проиндексировать только те страницы, которые важны для продвижения.

Если на вашем сайте нет контента для управления доступом, возможно, вам не потребуется создавать файл robots.txt. Но мы все же рекомендуем создать его, чтобы лучше оптимизировать свой сайт.

Robots.txt и Мета-теги роботов

Мета-теги robots не являются директивами robots.txt; они являются фрагментами HTML-кода. Это команды для поисковых роботов, которые позволяют сканировать и индексировать контент сайта. Они добавляются в раздел страницы.

Мета-теги роботов состоят из двух частей:

  1. name = ”‘. Здесь нужно ввести название поискового агента, например, Bingbot.
  2. content = ». Вот инструкции, что должен делать бот.

Итак, как выглядят роботы? Взгляните на наш пример:

Существует два типа мета-тегов роботов:

  1. Тег Meta Robots: указывает поисковым системам, как сканировать определенные файлы, страницы и подпапки сайта.
  2. Тег X-robots: фактически выполняет ту же функцию, но в заголовках HTTP. Многие эксперты склоняются к мнению, что теги X-robots более функциональны, но требуют открытого доступа к файлам .php и .htaccess или к серверу. Поэтому использовать их не всегда возможно.

В таблице ниже приведены основные директивы для мета-тегов роботов с учетом поисковых систем.

Содержимое файла robots.txt должно соответствовать мета-тегам robots.Самая распространенная ошибка, которую допускают SEO-оптимизаторы: в robots.txt закрывают страницу от сканирования, а в данных мета-тегов роботов открывают.

Многие поисковые системы, в том числе Google, отдают приоритет содержанию robots.txt, чтобы важную страницу можно было скрыть от индексации. Вы можете исправить это несоответствие, изменив содержание в метатегах robots и в документе robots.txt.

Как найти файл robots.txt?

Robots.txt можно найти во внешнем интерфейсе сайта.Этот способ подходит для любого сайта. Его также можно использовать для просмотра файла любого другого ресурса. Просто введите URL-адрес сайта в строку поиска своего браузера и добавьте в конце /robots.txt. Если файл найден, вы увидите:

Нил Патель

Или откроется пустой файл, как в примере ниже:

Нил Патель

Также вы можете увидеть сообщение об ошибке 404, например, здесь:

MOZ

Если при проверке robots.txt на своем сайте, вы обнаружили пустую страницу или ошибку 404, значит, файл для ресурса не был создан или в нем были ошибки.

Для сайтов, разработанных на базе CMS WordPress и Magento 2, есть альтернативные способы проверки файла:

  1. Вы можете найти robots.txt WordPress в разделе WP-admin. На боковой панели вы найдете один из плагинов Yoast SEO, Rank Math или All in One SEO, которые генерируют файл. Подробнее читайте в статьях Yoast против Rank Math SEO, Пошаговое руководство по установке плагина Rank Math, Настройка плагинов SEO, Yoast против All in One SEO Pack.
  2. В Magento 2 файл можно найти в разделе Content-Configuration на вкладке Design.

Для платформы Shopware сначала необходимо установить плагин, который позволит вам создавать и редактировать robots.txt в будущем.

Как создать Robots.txt

Для создания robots.txt вам понадобится любой текстовый редактор. Чаще всего специалисты выбирают Блокнот Windows. Если этот документ уже был создан на сайте, но вам нужно его отредактировать, удалите только его содержимое, а не весь документ.

Вне зависимости от ваших целей формат документа будет выглядеть как стандартный образец robot.txt:

Карта сайта: URL – адрес (рекомендуем всегда указывать)

user – agent: * (или укажите имя определенного поискового бота)

Disallow: / (путь к контенту, который вы хотите скрыть)

Затем добавьте оставшиеся директивы в необходимом количестве.

Вы можете ознакомиться с полным руководством от Google по созданию правил для поисковых роботов здесь.Информация обновляется, если поисковая система вносит изменения в алгоритм создания документа.

Сохраните файл под именем robot.txt.

Для создания файла можно использовать генератор robots.txt.

Инструменты SEO Книга

Основным преимуществом этой услуги является то, что она помогает избежать синтаксических ошибок.

Где разместить Robots.txt?

Файл robots.txt по умолчанию находится в корневой папке сайта. Управлять сканером на сайте.com, документ должен находиться по адресу sitename.com/robots.txt.

Если вы хотите контролировать сканирование контента на субдоменах, например, blog.sitename.com, то документ должен находиться по этому URL-адресу: blog.sitename.com/robots.txt.

Используйте любой FTP-клиент для подключения к корневому каталогу.

Лучшие практики оптимизации Robots.txt для SEO

  • Маски (*) можно использовать для указания не только всех поисковых роботов, но и идентичных URL-адресов на сайте. Например, если вы хотите закрыть от индексации все категории продуктов или разделы блога с определенными параметрами, то вместо их перечисления вы можете сделать следующее:

пользовательский агент: *

Запретить: / blog / *?

Боты не будут сканировать все адреса в подпапке / blog / со знаком вопроса.

  • Не используйте документ robots.txt для скрытия конфиденциальной информации в результатах поиска. Иногда другие страницы могут ссылаться на контент вашего сайта, и данные будут индексироваться в обход директив. Чтобы заблокировать страницу, используйте пароль или NoIndex.
  • В некоторых поисковых системах есть несколько ботов. Например, у Google есть агент для общего поиска контента — Googlebot и Googlebot-Image, который сканирует изображения. Рекомендуем прописать директивы для каждого из них, чтобы лучше контролировать процесс сканирования на сайте.
  • Используйте символ $ для обозначения конца URL-адресов. Например, если вам нужно отключить сканирование файлов PDF, директива будет выглядеть так: Disallow: / * .pdf $.
  • Вы можете скрыть версию страницы для печати, так как это технически дублированный контент. Сообщите ботам, какой из них можно сканировать. Это полезно, если вам нужно протестировать страницы с одинаковым содержанием, но с разным дизайном.
  • Обычно при внесении изменений содержимое robots.txt кэшируется через 24 часа. Можно ускорить этот процесс, отправив адрес файла в Google.
  • При написании правил указывайте путь как можно точнее. Например, предположим, что вы тестируете французскую версию сайта, находящуюся в подпапке / fr /. Если вы напишете такую ​​директиву: Disallow: / fr, вы закроете доступ к другому контенту, который начинается с / fr. Например: / французская парфюмерия /. Поэтому всегда добавляйте «/» в конце.
  • Для каждого поддомена необходимо создать отдельный файл robots.txt.
  • Вы можете оставлять комментарии в документе оптимизаторам, или себе, если вы работаете над несколькими проектами.Чтобы ввести текст, начните строку с символа «#».

Как проверить файл robots.txt

Проверить корректность созданного документа можно в Google Search Console. Поисковая система предлагает бесплатный тестер robots.txt.

Чтобы начать процесс, откройте свой профиль для веб-мастеров.

Google

Выберите нужный веб-сайт и нажмите кнопку «Сканировать» на левой боковой панели.

Нил Патель

Вы получите доступ к сервису роботов Google.txt тестер.

Нил Патель

Если адрес robots.txt уже был введен в поле, удалите его и введите свой собственный. Нажмите кнопку test в правом нижнем углу.

Нил Патель

Если текст изменится на «разрешено», значит ваш файл был создан правильно.

Вы также можете протестировать новые директивы прямо в инструменте, чтобы проверить, насколько они верны. Если ошибок нет, вы можете скопировать текст и добавить его в файл robots.txt документ. Подробные инструкции по использованию сервиса читайте здесь.

Распространенные ошибки в файлах Robots.txt

Ниже приводится список наиболее распространенных ошибок, которые допускают веб-мастера при работе с файлом robots.txt.

  1. Имя состоит из прописных букв. Файл называется просто robots.txt. Не используйте заглавные буквы.
  2. Он содержит неверный формат поискового агента. Например, некоторые специалисты пишут имя бота в директиве: Disallow: Googlebot.Всегда указывайте роботов после строки пользовательского агента.
  3. Каждый каталог, файл или страницу следует записывать с новой строки. Если вы добавите их в один, боты проигнорируют данные.
  4. Правильно напишите директиву host, если она вам нужна в работе.

Неправильно:

Пользовательский агент: Bingbot

Disallow: / cgi-bin

Правильно:

Пользовательский агент: Bingbot

Disallow: / cgi-bin

Хост: www.sitename.com

5. Неверный заголовок HTTP.

Неправильно:

Content-Type: text / html

Правильно:

Content-Type: text / plain

Не забудьте проверить отчет об охвате в Google Search Console. Там будут отображаться ошибки в документе.

Рассмотрим самые распространенные.

1. Доступ к URL-адресу заблокирован:

Эта ошибка появляется, когда один из URL-адресов в карте сайта заблокирован роботами.текст. Вам необходимо найти эти страницы и внести в файл изменения, чтобы снять запрет на сканирование. Чтобы найти директиву, блокирующую URL, вы можете использовать тестер robots.txt от Google. Основная цель — исключить дальнейшие ошибки при блокировке приоритетного контента.

2. Запрещено в robots.txt:

Сайт содержит контент, заблокированный файлом robots.txt и не индексируемый поисковой системой. Если эти страницы необходимы, то вам необходимо снять блокировку, убедившись, что страница не запрещена для индексации с помощью noindex.

Если вам нужно закрыть доступ к странице или файлу, чтобы исключить их из индекса поисковой системы, мы рекомендуем использовать метатег robots вместо директивы disallow. Это гарантирует положительный результат. Если не снять блокировку сканирования, то поисковая система не найдет noindex, и контент будет проиндексирован.

3. Контент индексируется без блокировки в документе robots.txt:

Некоторые страницы или файлы могут все еще присутствовать в индексе поисковой системы, несмотря на то, что они запрещены в robots.текст. Возможно, вы случайно заблокировали нужный контент. Чтобы исправить это, исправьте документ. В других случаях для вашей страницы следует использовать метатег robots = noindex. Подробнее читайте в статье Возможности ссылок Nofollow. Новая тактика SEO.

Как закрыть страницу из индексации в Robots.txt

Одна из основных задач robots.txt — скрыть определенные страницы, файлы и каталоги от индексации в поисковых системах. Вот несколько примеров того, какой контент чаще всего блокируется от ботов:

  • Дублированный контент;
  • страниц пагинации;
  • Категории товаров и услуг;
  • Контентных страниц для модераторов;
  • Интернет-корзины для покупок;
  • Чаты и формы обратной связи; и
  • Страницы благодарности.

Чтобы предотвратить сканирование содержимого, следует использовать директиву disallow. Давайте рассмотрим примеры того, как можно заблокировать поисковым агентам доступ к различным типам страниц.

1. Если вам нужно закрыть определенную подпапку:

user – agent: (укажите имя бита и добавьте *, если правило должно применяться ко всем поисковым системам)

Disallow: / name – subfolder /

2. Если закрыть определенную страницу на сайте:

user – agent: (* или имя робота)

Disallow: / name –subfolder / page.HTML

Вот пример того, как интернет-магазин указывает запрещающие директивы:

Журнал поисковых систем

Оптимизаторы заблокировали весь контент и страницы, которые не являются приоритетными для продвижения в результатах поиска. Это увеличивает краулинговый бюджет некоторых поисковых роботов, например Googlebot. Это действие позволит улучшить рейтинг сайтов в будущем, конечно, с учетом других важных факторов.

Мы не рекомендуем скрывать конфиденциальную информацию с помощью директивы disallow, так как вредоносные системы могут обойти блокировку.Некоторые эксперты используют приманки для занесения IP-адресов в черный список. Для этого в файл добавляется директива с привлекательным для мошенников названием, например Disallow: /logins/page.html. Таким образом, вы можете создать свой собственный черный список IP-адресов.

Robots.txt — простой, но важный документ для практики SEO. С его помощью поисковые роботы могут эффективно сканировать и индексировать ресурс, а также отображать только полезный и приоритетный контент для пользователей в поисковой выдаче. Результаты поиска будут формироваться более точно, что поможет привлечь больше целевых посетителей на ваш сайт и повысить CTR.

Обычно создание robots.txt — это одноразовая и кропотливая работа. Тогда вам останется только скорректировать содержание документа в зависимости от развития сайта. Большинство SEO-специалистов рекомендуют использовать robots.txt вне зависимости от типа ресурса.

Бесплатный инструмент для создания Robots.txt

Как создать файл Robots.txt

Если вы пользователь Windows, используйте Блокнот для создания файла.Для пользователей Mac программа TextEdit работает нормально. Мы хотим создать пустой файл TXT. Не используйте для этой задачи такие программы, как MS Word, так как они могут вызвать проблемы с кодировкой. Назовите файл «robots.txt» и сохраните его.

Теперь файл robots.txt будет пустым; вы должны добавить необходимые инструкции — именно это мы и увидим. Когда вы закончите с инструкциями, загрузите файл robots.txt в корень вашего веб-сайта с помощью программного обеспечения FTP, такого как FileZilla, или файлового менеджера, предоставляемого вашим хостинг-провайдером.Обратите внимание: если у вас есть субдомены, вам следует создать файлы robots.txt для каждого субдомена.

Теперь давайте посмотрим, какие инструкции вы можете дать роботам с помощью файла robots.txt.

Если вы хотите, чтобы все роботы имели доступ ко всему на вашем веб-сайте, ваш файл robots.txt должен выглядеть так:

 Пользовательский агент:
* Запрещено: 

По сути, файл robots.txt здесь ничего не запрещает, или, другими словами, разрешает сканирование всего.Звездочка рядом с «User-agent» означает, что приведенная ниже инструкция применима ко всем типам роботов.

С другой стороны, если вы не хотите, чтобы роботы получали доступ к чему-либо, просто добавьте символ косой черты, например:

 Пользовательский агент:
* Запрещено: / 

Обратите внимание, что один лишний символ может сделать инструкцию неэффективной, поэтому будьте осторожны при редактировании файла robots.txt.

Если вы хотите заблокировать доступ к определенному типу роботов Google, например к тем, которые ищут изображения, вы можете написать следующее:

 User-agent: googlebot-images Disallow: / 

Или, если вы хотите заблокировать доступ к определенному типу файлов, например к PDF-файлам, напишите это:

 Пользовательский агент: *
Разрешать: /
# Запрещенные типы файлов
Запретить: / *.PDF $ 

Если вы хотите заблокировать доступ к каталогу на вашем веб-сайте, например, к каталогу администратора, напишите это:

 Пользовательский агент: *
Запретить: / admin 

Если вы хотите заблокировать определенную страницу, просто введите ее URL:

 Пользовательский агент: *
Запретить: / page-url 

И если вы не хотите, чтобы Google индексировал страницу, добавьте эту инструкцию:

 Пользовательский агент: *
Noindex: / page-url 

Если вы не знаете, что означает индексирование, это просто процесс, который делает страницу частью веб-поиска.

Наконец, для крупных веб-сайтов, которые часто обновляются новым контентом, можно установить таймер задержки, чтобы предотвратить перегрузку серверов поисковыми роботами, которые будут проверять наличие нового контента. В таком случае вы можете добавить следующую директиву:

 Пользовательский агент: *
Задержка сканирования: 120 

Таким образом, все роботы (кроме роботов Google, которые игнорируют этот запрос) задерживают сканирование на 120 секунд, не позволяя многим роботам слишком быстро попасть на ваш сервер.

Есть и другие типы директив, которые вы можете добавить, но это самая важная информация, которую нужно знать.

Укажите, какие папки и каталоги

Настроить robots.txt

Файл robots.txt сообщает поисковым системам, какие страницы можно или нельзя сканировать на сайте. Он содержит группы правил для этого, и каждая группа состоит из трех основных компонентов:

  • Пользовательский агент, который отмечает, к какому искателю применяется группа правил.Например, adsbot-google .
  • Сами правила, которые отмечают определенные URL-адреса, к которым сканеры могут или не могут получить доступ.
  • Необязательный URL карты сайта.
Наконечник

Чтобы узнать больше о robots.txt и компонентах набора правил, обратитесь к документации Google.

Shopify создает файл robots.txt по умолчанию , который подходит для большинства магазинов. Однако, если вы хотите внести изменения в файл по умолчанию, вы можете добавить файл robots.txt.liquid для выполнения следующих настроек:

Подсказка

В приведенных ниже примерах используется элемент управления пробелами Liquid для сохранения стандартного форматирования.

Добавить новое правило в существующую группу

Если вы хотите добавить новое правило к существующей группе, вы можете настроить Liquid для вывода правил по умолчанию для проверки связанной группы и включения вашего правила.

Например, вы можете использовать следующее, чтобы запретить всем сканерам доступ к страницам с параметром URL ? Q = :

Удалить правило по умолчанию из существующей группы

Если вы хотите удалить правило по умолчанию из существующей группы, вы можете настроить Liquid для вывода правил по умолчанию, чтобы проверить это правило и пропустить его.

Например, вы можете использовать следующее, чтобы удалить правило, запрещающее поисковым роботам доступ к странице / policy / :

Добавить собственные правила

Если вы хотите добавить новое правило, которое не является частью группы по умолчанию, вы можете вручную ввести правило вне Liquid для вывода правил по умолчанию.

Типичные примеры этих специальных правил:

Блокировать определенные краулеры

Если искателя нет в наборе правил по умолчанию, вы можете вручную добавить правило, чтобы заблокировать его.

Например, следующее позволит вам заблокировать поисковый робот discobot :

Добавить дополнительные URL-адреса карты сайта

Следующий пример, где [sitemap-url] — это URL-адрес карты сайта, позволит вам включить дополнительный URL-адрес карты сайта:

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *