В файле robots txt не задана директива host wordpress: как настроить, проверить правильность, разместить на сайте

Содержание

Правильный Robots.txt для WordPress

Всем привет! Сегодня статья о том, каким должен быть правильный файл robots.txt для WordPress. С функциями и предназначением robots.txt мы разбирались несколько дней назад, а сейчас разберём конкретный пример для ВордПресс.

С помощью этого файла у нас есть возможность задать основные правила индексации для различных поисковых систем, а также назначить права доступа для отдельных поисковых ботов. На примере я разберу как составить правильный robots.txt для WordPress. За основу возьму две основные поисковые системы — Яндекс и Google.

В узких кругах вебмастеров можно столкнуться с мнением, что для Яндекса необходимо составлять отдельную секцию, обращаясь к нему по User-agent: Yandex. Давайте вместе разберёмся, на чём основаны эти убеждения.

Яндекс поддерживает директивы Clean-param и Host, о которых Google ничего не знает и не использует при обходе.

Разумно использовать их только для Yandex, но есть нюанс — это межсекционные директивы, которые допустимо размещать в любом месте файла, а Гугл просто не станет их учитывать. В таком случае, если правила индексации совпадают для обеих поисковых систем, то вполне достаточно использовать

User-agent: * для всех поисковых роботов.

При обращении к роботам по User-agent важно помнить, что чтение и обработка файла происходит сверху вниз, поэтому используя User-agent: Yandex или User-agent: Googlebot необходимо размещать эти секции в начале файла.

Пример Robots.txt для WordPress

Сразу хочу предупредить: не существует идеального файла, который подойдет абсолютно всем сайтам, работающим на ВордПресс! Не идите на поводу, слепо копируя содержимое файла без проведения анализа под ваш конкретный случай! Многое зависит от выбранных настроек постоянных ссылок, структуры сайта и даже установленных плагинов. Я рассматриваю пример, когда используется ЧПУ и постоянные ссылки вида

/%postname%/.

WordPress, как и любая система управления контентом, имеет свои административные ресурсы, каталоги администрирования и прочее, что не должно попасть в индекс поисковых систем. Для защиты таких страниц от доступа необходимо запретить их индексацию в данном файле следующими строками:

Disallow: /cgi-bin
Disallow: /wp-

Директива во второй строке закроет доступ по всем каталогам, начинающимся на /wp-, в их число входят:

  • wp-admin
  • wp-content
  • wp-includes

Но мы знаем, что изображения по умолчанию загружаются в папку uploads, которая находится внутри каталога wp-content. Разрешим их индексацию строкой:

Allow: */uploads

Служебные файлы закрыли, переходим к исключению дублей с основным содержимым, которые снижают уникальность контента в пределах одного домена и увеличивают вероятность наложения на сайт фильтра со стороны ПС. К дублям относятся страницы категорий, авторов, тегов, RSS-фидов, а также постраничная навигация, трекбеки и отдельные страницы с комментариями. Обязательно запрещаем их индексацию:

Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: */trackback
Disallow: */comments

Далее хотелось бы уделить особое внимание такому аспекту как постоянные ссылки. Если вы используете ЧПУ, то страницы содержащие в URL знаки вопроса зачастую являются «лишними» и опять же дублируют основной контент. Такие страницы с параметрами следует запрещать аналогичным образом:

Disallow: */?

Это правило распространяется на простые постоянные ссылки ?p=1, страницы с поисковыми запросами ?s= и другими параметрами. Ещё одной проблемой могут стать страницы архивов, содержащие в URL год, месяц. На самом деле их очень просто закрыть, используя маску 20*, тем самым запрещая индексирование архивов по годам:

Disallow: /20*

Для ускорения и полноты индексации добавим путь к расположению карты сайта. Робот обработает файл и при следующем посещении сайта будет его использовать для приоритетного обхода страниц.

Sitemap: https:

В файле robots.txt можно разместить дополнительную информацию для роботов, повышающую качество индексации. Среди них директива Host — указывает на главное зеркало для Яндекса:

Host: webliberty.ru

При работе сайта по HTTPS необходимо указать протокол:

Host: https:

С 20 марта 2018 года Яндекс официально прекратил поддержку директивы Host. Её можно удалить из robots.txt, а если оставить, то робот её просто игнорирует.

Подводя итог, я объединил всё выше сказанное воедино и получил содержимое файла robots.txt для WordPress, который использую уже несколько лет и при этом в индексе нет дублей:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: /20*
Disallow: */trackback
Disallow: */comments
Disallow: */?
Allow: */uploads
 
Sitemap: https:

Постоянно следите за ходом индексации и вовремя корректируйте файл в случае появления дублей.

От того правильно или нет составлен файл зависит очень многое, поэтому обратите особо пристальное внимание к его составлению, чтобы поисковики быстро и качественно индексировали сайт. Если у вас возникли вопросы — задавайте, с удовольствием отвечу!

Robots.txt и его оптимизация и поиск ошибок. 100 советов от профи.

3. Перепутанные инструкции

Одна из самых распространённых ошибок в robots.txt – перепутанные между собой инструкции. Например:

Disallow: Yandex

Правильно писать вот так:
User-agent: Yandex
Disallow: /

4. Указание нескольких каталогов в одной инструкции disallow

Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow:

Disallow: /css/ /cgi-bin/ /images/

Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Правильно надо писать так:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

5. Пустая строка в user-agent

Так неправильно:

User-agent:
Disallow:

Так правильно:

User-agent: *
Disallow:

6. Зеркала сайта и URL в директиве Host

Чтобы указать, какой сайт является главным, а какой — зеркалом (дублем), для Google используются 301 редирект и внесение информации в Google Search Console, а для Яндекса — директива host. Правда эта директива была отменена весной 2018 года, но многие продолжают её использовать.

С точки зрения поисковых систем http://www.site.ru , http://site.ru , https://www.site.ru и https://site.ru — четыре разных сайта. Несмотря на то что визуально для людей это одно и то же, поисковая система принимает решение самостоятельно, какой сайт отображать в результатах выдачи, а какой — нет. Казалось бы, в чем проблема? Их может быть несколько:

  • поисковик Яндекс принял решение оставить у себя в индексе сайт с www, a Google решил оставить без www;
  • ссылки с других ресурсов, которые имеют влияние на ранжирование, ссылаются на сайт с www, а в индексе поисковика остался сайт без www.

Чтобы таких проблем не возникло, на этапе технической оптимизации принудительно сообщаем поисковикам, какой вариант сайта — с www или без, с https или без него — для нас предпочтительнее, и избавляем себя от возможных проблем в дальнейшем.

Итак, для протокола http следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /

Неправильно:

User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/

Правильно:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

Однако, если ваш сайт с https, то правильно писать вот так:

User-agent: Yandex
Disallow: /cgi-bin
Host:https:// www.site.ru

Директива host Является корректной только для робота Яндекса, межсекционной. Поэтому, желательно, секцию Яндекса описывать после всех других секций.

Напомню еще раз, директива host стала необязательной. Теперь главное зеркало можно установить в Яндекс вебмастере.

7. Использование в Disallow символов подстановки

Иногда хочется написать что-то вроде:

User-agent: *
Disallow: file*.html

для указания все файлов file1.html, file2.html, file3.html и т.д. На сегодняшний день — это вполне допустимо как для робота Яндекс так и Google.

Более того, Яндекс по умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. Пример:

User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с ‘/cgi-bin’
Disallow: /cgi-bin # то же самое

Чтобы отменить * на конце правила, можно использовать спецсимвол $, например:

User-agent: Yandex
Disallow: /example$ # запрещает ‘/example’,
# но не запрещает ‘/example.html’

User-agent: Yandex
Disallow: /example # запрещает и ‘/example’,
# и ‘/example.html’

Спецсимвол $ не запрещает указанный * на конце, то есть:

User-agent: Yandex
Disallow: /example$ # запрещает только ‘/example’
Disallow: /example*$ # так же, как ‘Disallow: /example’
# запрещает и /example.html и /example

8. Редирект на страницу 404-й ошибки

Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу.

Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robots.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.

9. Заглавные буквы — это плохой стиль

USER-AGENT: GOOGLEBOT
DISALLOW:

Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.

10. Перечисление всех файлов

Еще одной ошибкой является перечисление каждого файла в директории:

User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Вместо этого можно просто закрыть от индексации директорию целиком:

User-agent: *
Disallow: /AL/
Disallow: /Az/

11.Использование дополнительных директив в секции *

Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».

То есть рекомендуется создавать специальные секции для нестандартных директив, таких как host.

Так неправильно:

User-agent: *
Disallow: /css/
Host: www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com

12. Отсутствие инструкции Disallow

Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту инструкция Disallow является обязательной, и робот может «неправильно вас понять».

Так неправильно:

User-agent: Yandex
Host: www.example.com

Так правильно:

User-agent: Yandex
Disallow:
Host: www.example.com

13. Отсутствие слешей при указании директории

Как в этом случае поступит робот?

User-agent: Yandex
Disallow: john

По стандарту, он не будет индексировать файл с именем «john» и директорию с именем «john». Для указания только директории надо писать так:

User-agent: Yandex
Disallow: /john/

14. Неправильный HTTP-заголовок

Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

15. Логические ошибки

Зачастую при разветвленной структуре сайта возникают логические ошибки в определении того, что и как нужно блокировать от индексации.

Для Google: На уровне группы, в частности для директив allow и disallow, самое строгое правило, учитывающее длину записи [путь], будет важнее менее строгого и более короткого правила. Порядок очередности правил с подстановочными знаками не определен.

Яндекс: Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.txt не влияет на использование их роботом.

Исходный robots.txt:

User-agent: Yandex
Allow: /catalog
Disallow: /

Сортированный robots.txt:

User-agent: Yandex
Disallow: /
Allow: /catalog
# разрешает скачивать только страницы, начинающиеся с ‘/catalog’

Исходный robots.txt:

User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog

Сортированный robots.txt:

User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с ‘/catalog’,
# но разрешает скачивать страницы, начинающиеся с ‘/catalog/auto’.

При конфликте между двумя директивами с префиксами одинаковой длины в Яндексе приоритет отдается директиве Allow, в Google — Disallow.

В любом случае протестируйте ваш robots.txt на конфликты в обоих вебмастерах.

Файл robots.txt для поисковых систем Яндекса и Google

Что это за файл и зачем он нужен?

Если вы заходили на ftp-сервер, где находится ваш сайт, то  наверняка задавались вопросом, какие функции выполняют разные файлы,  зачем они нужны и как они работают.

В этой статье мы рассмотрим robots.txt и ответим на эти вопросы о нем.

Прежде всего поисковые роботы проверяют наличие файл robots.txt, который лежит в корневой папке, а затем уже происходит обращение ботов к страницам сайта, блога или форума.

При этом роботы читают инструкции, которые прописаны специально для них в этом файле, в основном там прописано, что из страниц и даже целых разделов сайта разрешено, а что – запрещено индексировать и разглашать всему миру.

Запрет не означает, что на сайте есть секретные материалы, просто мы помогаем поисковым системам делать их работу на «отлично». Хорошему вебмастеру лишние страницы в индексе мешают и он лучше знает, какие из них выполняют вспомогательные функции и не несут полезной нагрузки ни роботам ни людям. Поэтому важно знать, как правильно составить и настроить robots.txt.

Примеры страниц, которые рекомендуется исключить из индекса: версия для печати, страница регистрации, логина, RSS, архивы сайта и тому подобные.

Кроме запретов и разрешений robots.txt может приносить пользу, —  например, указывать расположение карты сайта, задавать главное зеркало сайта (домен с www или без), уменьшать нагрузку поисковых ботов на хостинг, задавая интервалы посещения и т.д.

Итак, файл robots.txt нужен для правильной обработки сайта поисковыми ботами.

 

Как правильно настроить robots.txt?

В одних системах управления контентом файл robots.txt может генерироваться автоматически, в других – его нужно создавать вручную. Но этот файл всегда нужно проверять, а в большинстве случаев и редактировать.

Следует учесть, что нет универсального файла robots.txt даже для одинаковых систем управления контентом, ведь у каждого проекта есть свои особенности, которые отражаются на реализации всех технических деталей. Даже по мере развития вашего проекта придется менять многое, в том числе и файл роботс.

Итак, когда мы знаем, зачем нам нужен этот файл, мы можем углубиться в технические подробности.

Поскольку это обычный текстовый файл с названием robots.txt, то его можно создать в любом блокноте (системном, Notepad++, AkelPad или другом) и загрузить в корневую папку сайта на сервер.

После загрузки можно просмотреть все содержимое этого файла по адресу: http://<имя сайта>/robots.txt. Это работает для всех сайтов, у которых есть этот файл. А вот роботс самого Яндекса http://yandex.ru/robots.txt

и Google http://www.google.com/robots.txt

Изучим основы синтаксиса robots.txt и самые распространенные директивы

Прежде всего нужно знать, что использование кириллицы запрещено в файлах robots.txt, файлах sitemap и http-заголовках сервера. То есть никакой кириллицы в этом файл быть не должно, а вместо нее нужно использовать специальный Punycode.

Поисковые агенты (User-agent)

В первой строке, которая не закомментирована знаком #, обычно указывается поисковый агент (робот конкретной поисковой системы или группа ботов), которому предназначены последующие правила. Будьте внимательны — User-agent не должен быть пустым! То есть вот такая строка и последующие не сработают:

Useragent:

Последующие директивы не обрабатываются, так как задан пустой поисковый агент.

А вот так правильно:

#robots.txtcomment

 User-agent:

# со знака решетки начинается комментарий, который игнорируется поисковыми ботами. Для улучшения читаемости и соблюдения хорошего стиля комментарий лучше писать с новой строки, а не продолжать ту, в которой уже прописаны директивы.

* звездочка означает последовательность любых символов, то есть любой агент должен выполнять дальнейшие указания.

User-agent: Yandex

— означает, что следущие правила написаны для ботов Яндекса.

Useragent: Googlebot

 — соответственно для ботов Гугла.

В старых версиях robots.txt можно встретить устаревшие инструкции:

UseragentStackRambler

— устарел, так как Рамблер перешел к использованию поисковых технологий Яндекса.

Useragent: Slurp

— поисковый робот Yahoo!, имел смачное имя Slurp. Больше не используется, так как компания Yahoo! вместо своей поисковой машины SearchMonkey перешла на использование поисковика Bing от Майкрософт.

Пустые строки после User-agent означают конец директив (инструкций текущему поисковому агенту), поэтому нужно следить, чтобы пустые строки ошибочно не оборвали работу агента.

 

Директивы robots.txt

 

Сразу после указания поискового агента должны идти директивы, относящиеся к нему.

Disallow

Обязательная инструкция, даже если мы хотим открыть сайт полностью и ничего не запрещать его просто нужно оставить пустым:

User-agent: *

Disallow:

Такой роботс ничего не запрещает, но наличие строки Disallow ожидается поисковым ботом, без нее он может некорректно обработать директивы.

Вот так закрываются определенные папки, каждая папка – отдельной строкой.

Disallow: /css/

Disallow: /cgibin/

Disallow: /images/

Запись одной строкой не только нарушает стандарты robots.txt, но и может повлечь непредсказуемую работу разных ботов.

Disallow: /css/ /cgi-bin/ /images/

Директива распространяется только для текущего поискового агента, то есть такой роботс закроет каталог для всех роботов кроме Яндекса:

User-agent: *

Disallow: /css/

 

User-agent: Yandex

Disallow:

 

Вот так выглядит роботс, полностью закрывающий весь сайт от индексации:

User-agent: *

Disallow: /

 

Allow

Эта директива появилась сравнительно недавно, по логическому смыслу является противоположной команде Disallow, но ее понимает только Яндекс.

User-agent: Yandex

Allow: /

Такой роботс запрещает доступ к всему сайту для ботов Яндекса, строка

Allow:

аналогично

Disallow: /

Иногда для ботов Яндекса (но не для других ботов) удобней разрешить несколько каталогов, чем прописывать множество запрещающих строк.

 

Sitemap

Если сайт достаточно большой и содержит тысячи страниц, то ему для лучшей индексации потребуется карта сайта.

Чтобы подсказать поисковому боту, где находится эта карта, нужно добавить в robots.txt строку, указывающую на эту карту. Кириллица недопустима (см ниже).

Sitemap:  http://<имя_сайта>/sitemap.xml

 

Host

Директива host сообщает поисковому боту, какое зеркало домена главное — с www или без. Поддерживается только Яндексом. Обратите внимание, он указывается без http:// и без слеша в конце строки /.

Указание хоста не гарантирует, что главным зеркалом сайта будет установлен именно этот хост, однако Яндекс будет его учитывать при определении главного зеркала.

Для счастливых обладателей кириллических доменов нужно учитывать то, что необходимо использовать специальный Punycode, а не кириллицу. Так, если нам нужно указать домен.рф главным зеркалом, то это будет выглядеть так:

Host: xn--d1acufc.xn--p1ai

Узнать Punycode для своего домена можно с помощью специального сервиса – Punycode-конвертера.

Особенности robots.txt для разных поисковых систем

Разные поисковые системы имеют свои особенности и поэтому в robots.txt, как уже упоминалось в этой статье, существуют разные директивы для различных поисковых агентов.

Директивы Allow и Host обрабатывают только боты Yandex, для остальных юзерагентов они не сработают.

GoogleBot – поддерживает в директивах регулярные выражения. Если нам нужно запретить индексацию файлов по расширениям, то можно написать так:

User-agent: googlebot

Disallow: *.cgi

Нужно учитывать, что Гугл может игнорировать правила, так как для него это не догма, а рекомендация. Если на страницу есть ссылка, то она может попасть в индекс Гугла. Поэтому нежелательно закрывать от индексации страницу, на которую есть ссылки. У таких страниц плохой сниппет:

 

В таких случаях для закрытия дублей страниц лучше воспользоваться средствами, предоставляемыми самой CMS, а уже потом использовать robots.txt.

Во всех сомнительных ситуациях лучше обращаться к документации, которую предоставляют поисковые системы для вебмастеров. Тем более, что рассмотренные правила могут обновиться.

 

Советы по работе с robots.txt

При разработке сайта нужно закрыть его полностью, чтобы не засорять индекс ненужными страницами

  • Закрыть приватные данные, которые не должны попасть в индекс
  • Запретить определенным поисковым системам индексировать сайт. Например, если на русскоязычном сайте не нужен трафик с Yahoo! Или наоборот – на англоязычном нам не нужны посетители с Yandex.
  • Снятие нагрузки на сервер: если сайт часто обновляется, содержит множество страниц и боты некоторых поисковых систем чрезмерно нагружают его, то можно умерить их пыл директивой

Crawl-delay: 20

Выставили таймаут, чтобы текущий юзерагент сканировал сайт не чаще, чем раз в 20 секунд. При этом нужно убедиться, что этот бот поддерживает директиву.

Чего следует избегать при использовании robots.txt

 Закрывать дубли страниц с помощью роботс нужно только в том случае, если исчерпаны средства самой CMS. В остальных случаях лучше воспользоваться 301 редиректом через соответствующую команду в файле .htaccess, тегами robots noindex, rel=canonical, страницей 404.

  • Удалить существующие в индексе страницы с помощью robots.txt не получится
  • Закрытие админ панели помогает злоумышленнику узнать путь к админке сайта, так как robots.txt доступен всем желающим.

Если закрываете страницы, четко представляйте, что при этом происходит. Например, если мы закроем в WordPress всю папку /wp-content/, то /wp-content/uploads/ также закроется. А если у нас сайт с большими фотографиями или уникальными изображениями, то будет обидно, что они не индексируются и по ним мы не получим трафика.

Что можно еще почитать по robots.txt

У Яндекса и Google есть соответствующие разделы для вебмастеров о robots.txt. У Яндекса есть анализатор robots.txt

По файлу robots.txt есть полезный сайт robotstxt.org.ru, на котором можно найти множество подробной информации.

Деликатный переезд (или рекомендации Яндекса по переезду на HTTPS) — Платон Щукин

23 октября 2015, 15:00

В последнее время тема смены протокола сайта весьма актуальна, ведь для защиты данных в интернете все больше сайтов начинают использовать HTTPS-соединение, которое представляет собой стандартный протокол HTTP, поддерживающий шифрование. В связи с этим у владельцев сайтов возникает множество вопросов о том, как правильно сообщить Яндексу о том, что тот или иной ресурс теперь поддерживает шифрование и работает по защищенному протоколу. Ниже я расскажу, что представляет собой процесс переезда на HTTPS, и дам рекомендации относительно того, как лучше его организовать.

Вопреки расхожему мнению о том, что со сменой протокола для поисковой системы ничего не должно измениться, ведь фактически сайт остается прежним, а его название не меняется, индексирующий робот воспринимает ресурс, передающий данные по двум разным протоколам как два разных сайта. Поэтому при смене протокола на новый, как и вообще при переезде сайта на новый домен, возможно снижение посещаемости сайта, изменение количества его страниц и позиций в поисковой выдаче.

По сути процесс смены протокола с точки зрения поисковой системы представляет собой объединение ресурсов вида http://site.ru и https://site.ru в группу зеркал либо изменение главного зеркала среди них в том случае, если ранее они уже были признаны зеркалами друг друга. О том, как это проверить, рассказано в нашей Помощи. Для того чтобы сайты стали зеркалами и были склеены в единую группу нужно, чтобы при обращении к ним отдавался идентичный контент.

Я советую придерживаться следующих рекомендаций для того, чтобы корректно осуществить перенос своего сайта на домен с защищенным протоколом: 

1. Приобрести и настроить сертификат безопасности, который выдается соответствующей уполномоченной организацией (центром сертификации).

2. Сообщить поисковому роботу о том, что сайт стал доступен по новому протоколу, добавив его в список своих сайтов в Яндекс.Вебмастере.

3. Указать адрес желаемого главного зеркала с помощью директивы Host в файле robots.txt. Например: Host: https://site.ru — УСТАРЕЛО! О том, как сейчас — здесь и здесь .

4. Сообщить роботу об изменениях в отношении главного зеркала на странице «Настройки индексирования — Переезд сайта» сервиса Яндекс.Вебмастер для http версии сайта.

5. Дождаться, пока главное зеркало в группе зеркал сайта будет определено в соответствии с заданными указаниями, это может занять несколько недель. Как только это произойдет, вы увидите соответствующее изменения для подтвержденного сайта в Яндекс.Вебмастере.

6. При необходимости настроить редирект с неглавного зеркала на главное. Делать это до того, как сайты будут признаны зеркалами, нежелательно, поскольку в этом случае страницы с редиректами будут исключаться из поиска согласно правилам Яндекса по обработке перенаправлений. На время склейки зеркал, по возможности, лучше оставить сайт доступным для робота по обоим адресам.УСТАРЕЛО! О том, как сейчас — здесь и здесь .

Желаю вам удачного переезда! 

Также читайте продолжение.

Запись обновлена 28.07.17.

Делаем правильный robots.txt и sitemap.xml / Мастерская интернет-разработчика

29 мая 2009 г. Google WordPress

SEO Яндекс Поисковые системы

Задача состоит в том, чтобы запретить некоторые каталоги для индексации поисковым системам, для того, чтобы избавится от дублированного контента. Например, на одну и ту же статью можно попасть как с /tag/ так и с /category/.

Почему дублирующийся контент это плохо?

Вот, что говорит по этому поводу Google (перевод), можно так же найти информацию по поводу поисковой системы Яндекс, где говорится что их алгоритмы банят сайты с дублирующимся контентом. Не знаю так это или нет, я не специалист в области SEO (если есть спецы — отпишите в камменты), но на всякий случай прикрою дубляжи!

Воспользуйтесь поиском от Google или Яндекс и вы найдете море информации по этой теме.

UPD: Про дублирующийся контент в WordPress.

Robots.txt

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

http://ru.wikipedia.org/wiki/Robots.txt

Также есть немного информации на форуме MasterTalk: Что такое robots.txt и для чего он нужен, а также есть сайт посвященный этому файлу — Все о файле robots.txt по-русски.

Вот еще эксперименты Дениса Болтикова по идеальному роботсу для WordPress: Идеальный robots.txt для WordPress и Идеальный robots.txt для WordPress — 2.

Мой Robots.txt

Так вот выглядит мой роботс:

User-agent: *
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: /sitemap.xml

Я разрешил поисковым ботам индексировать меня только по «Тегам» и «Архиву». Обратите внимание, я использую маску /wp-, для того чтобы URL’ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow).

Также я разрешил индексировать мой «/wp-content/uploads/» для сервисов «Яндекс.Картинки» и «Google Картинки», так как там хранятся в основном картинки. И расшарил файл

«sitemap.xml» для лучшей индексации.

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:

Sitemaps

Так же следует не забыть о файле sitemap.xml

Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации. Sitemaps может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

http://ru.wikipedia.org/wiki/Sitemaps

Сайтмап не обязателен и поисковые системы не гарантируют его использование, он лишь помогает поисковым ботам проводить индексацию, однако я считаю что это очень полезным!

Для WordPress существует плагин — Google XML Sitemaps (другие полезные плагины для WordPress используемые мной). Этот плагин генерирует за вас файл

sitemap.xml, в котором и содержится информация для поисковых ботов по индексации сайта. Вы сами можете его настроить и указать проценты приоритета для статей, страниц и т.д.

Центры веб-мастеров Google и Яндекс

Для ускорения индексации рекомендуется оповестить Google и Яндекс о ваших файлах robots.txt и sitemap.xml, для этого существуют специальные сервисы:

Использование http-пингов для уведомления поисковых систем о обновлениях в sitemaps

Можно указать поисковым системам местонахождение файла Sitemap при помощи HTTP-запроса:

Google
http://google.com/webmasters/sitemaps/ping?sitemap=<sitemap_location>

Яндекс
http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=<sitemap_location>

Yahoo!
http://search.yahooapis.com/SiteExplorerService/V1/updateNotification?appid=SitemapWriter&url=<sitemap_location>

http://search.yahooapis.com/SiteExplorerService/V1/ping?sitemap=<sitemap_location>

Ask.com
http://submissions.ask.com/ping?sitemap=<sitemap_location>

Live Search
http://webmaster.live.com/ping.aspx?siteMap=<sitemap_location>

Где <sitemap_location> необходимо заменить на полный URL файла Sitemap. Например, чтобы добавить файл http://www.example.com/sitemap.xml в поисковик Google, нужно отправить HTTP-запрос http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.example.com/sitemap.xml.

Информация по пингам взята с http://ru.wikipedia.org/wiki/Sitemaps

Google не рекомендует чаще чем раз в час его пинговать, вот пруфлинк.

что это и как спользовать

Важно! В марте 2018 года поисковая система Яндекс отказалась от использования директивы Host. Правило можно удалить из robots.txt, но на всех главных зеркалах веб-ресурса вместо него нужно поставить 301-й постраничный редирект читать полную инструкцию.

Возможно вам захочется узнать, как раньше использовалась эта директива host для Яндекса.

Host – это директива файла robots.txt, указывающая роботам поисковых систем главное зеркало сайта. Из всех директив, Host распознается исключительно ботами Яндекса. Ее актуально применять для сайтов, доступных по нескольким доменам. К примеру:

Также с помощью Host можно указать предпочтительный URL:

  1. site.ru
  2. www.site.ru

Правило указывают в блоке User-agent: Yandex, а в качестве параметра прописывают приоритетный УРЛ-адрес без указания http://.

Примеры файла Robots с директивой Host

User-agent: Yandex
Disallow: /page
Host: site.ru

В данном случае главным зеркалом указывают домен site.ru без www. Благодаря этому в поисковую выдачу попадет именно такой URL-адрес.

А если прописать данную инструкцию:

User-agent: Yandex
Disallow: /page
Host: www.site.ru

Главным зеркалом будет домен www.site.ru.

На заметку. Правило Host в Robots можно прописать лишь один раз. Если указать директиву два и больше раза, поисковый робот учтет только первую, игнорируя все последующие.

Если в Яндексе не сообщить главное зеркало в robots.txt, Яндекс оповестит вас об этом:

Не зная главное зеркало сайта, его легко определить, указав в поисковой строке Яндекса домен. Какой URL-адрес отобразит поисковая выдача, тот и является основным зеркалом.

А если веб-сайт еще не был проиндексирован, тогда перейдите в Яндекс.Вебмастер в меню Переезд сайта. Можно самому указать главное зеркало.

Указать главное зеркало роботам поисковой системы Google можно в Google Search Console.

Я всегда стараюсь следить за актуальностью информации на сайте, но могу пропустить ошибки, поэтому буду благодарен, если вы на них укажете. Если вы нашли ошибку или опечатку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Делаем правильный файл Robots.txt для WordPress

Приветствую вас, друзья. Сегодня я покажу как сделать правильный файл Robots.txt для WordPress блога. Файл Robots является ключевым элементом внутренней оптимизации сайта, так как выступает в роли гида-проводника для поисковых систем, посещающих ваш ресурс – показывает, что нужно включать в поисковый индекс, а что нет.

Содержание:

Само название файла robots.txt подсказываем нам, что он предназначен для роботов, а не для людей. В статье о том, как работают поисковые системы, я описывал алгоритм их работы, если не читали, рекомендую ознакомиться.

Зачем нужен файл robots.txt

Представьте себе, что ваш сайт – это дом. В каждом доме есть разные служебные помещения, типа котельной, кладовки, погреба, в некоторых комнатах есть потаенные уголки (сейф). Все эти тайные пространства гостям видеть не нужно, они предназначены только для хозяев.

Аналогичным образом, каждый сайт имеет свои служебные помещения (разделы), а поисковые роботы – это гости. Так вот, задача правильного robots.txt – закрыть на ключик все служебные разделы сайта и пригласить поисковые системы только в те блоки, которые созданы для внешнего мира.

Примерами таких служебных зон являются – админка сайта, папки с темами оформления, скриптами и т.д.

Вторая функция этого файла – это избавление поисковой выдачи от дублированного контента. Если говорить о WordPress, то, часто, мы можем по разным URL находить одни и те же статьи или их части. Допустим, анонсы статей в разделах с архивами и рубриках идентичны друг другу (только комбинации разные), а страница автора обычного блога на 100% копирует весь контент.

Поисковики интернета могут просто запутаться во всем многообразии таких страниц и неверно понять – что нужно показывать в поисковой выдаче. Закрыв одни разделы, и открыв другие, мы дадим однозначную рекомендацию роботам по правильной индексации сайта, и в поиске окажутся те страницы, которые мы задумывали для пользователей.

Если у вас нет правильно настроенного файла Robots.txt, то возможны 2 варианта:

1. В выдачу попадет каша из всевозможных страниц с сомнительной релевантностью и низкой уникальностью.

2. Поисковик посчитает кашей весь ваш сайт и наложит на него санкции, удалив из выдачи весь сайт или отдельные его части.

Есть у него еще пара функций, о них я расскажу по ходу.

Принцип работы файла robots

Работа файла строится всего на 3-х элементах:

  • Выбор поискового робота
  • Запрет на индексацию разделов
  • Разрешение индексации разделов

1. Как указать поискового робота

С помощью директивы User-agent прописывается имя робота, для которого будут действовать следующие за ней правила. Она используется вот в таком формате:

User-agent: * # для всех роботов
User-agent: имя робота # для конкретного робота

После символа «#» пишутся комментарии, в обработке они не участвуют.

Таким образом, для разных поисковых систем и роботов могут быть заданы разные правила.

Основные роботы, на которые стоит ориентироваться – это yandex и googlebot, они представляют соответствующие поисковики.

2. Как запретить индексацию в Robots.txt

Запрет индексации осуществляется в помощью директивы Disallow. После нее прописывается раздел или элемент сайта, который не должен попадать в поиск. Указывать можно как конкретные папки и документы, так и разделы с определенными признаками.

Если после этой директивы не указать ничего, то робот посчитает, что запретов нет.

Disallow: #запретов нет

Для запрета файлов указываем путь относительного домена.

Disallow: /zapretniy.php #запрет к индексации файла zapretniy.php

Запрет разделов осуществляется аналогичным образом.

Disallow: /razdel-sajta #запрет к индексации всех страниц, начинающихся с /razdel-sajta

Если нам нужно запретить разные разделы и страницы, содержащие одинаковые признаки, то используем символ «*». Звездочка означает, что на ее месте могут быть любые символы (любые разделы, любой степени вложенности).

Disallow: */*test #будут закрыты все страницы, в адресе которых содержится test

Обратите внимание, что на конце правила звездочка не ставится, считается, что она там есть всегда. Отменить ее можно с помощью знака «$»

Disallow: */*test$ #запрет к индексации всех страниц, оканчивающихся на test

Выражения можно комбинировать, например:

Disallow: /test/*.pdf$ #закрывает все pdf файлы в разделе /test/ и его подразделах.

3. Как разрешить индексацию в Robots.txt

По-умолчанию, все разделы сайта открыты для поисковых роботов. Директива, разрешающая индексацию нужна в тех случаях, когда вам необходимо открыть какой-либо кусочек из блока закрытого директивой disallow.

Для открытия служит директива Allow. К ней применяются те же самые атрибуты. Пример работы может выглядеть вот так:

User-agent: * # для всех роботов
Disallow: /razdel-sajta #запрет к индексации всех страниц, начинающихся с /razdel-sajta
Allow: *.pdf$ #разрешает индексировать pdf файлы, даже в разделе /razdel-sajta

Теорию мы изучили, переходим к практике.

Как создать и проверить Robots.txt

Проверить, что содержит ваш файл на данный момент можно в сервисе Яндекса – Проверка Robots.txt. Введете там адрес своего сайта, и он покажет всю информацию.

Если у вас такого файла нет, то необходимо срочного его создать. Открываете текстовый редактор (блокнот, notepad++, akelpad и т.д.), создаете файл с названием robots, заполняете его нужными директивами и сохраняете с txt расширением (ниже я расскажу, как выглядит правильный robots.txt для WordPress).

Дальше, помещаем файл в корневую папку вашего сайта (рядом с index.php) с помощью файлового менеджера вашего хостинга или ftp клиента, например, filezilla (как пользоваться).

Если у вас WordPress и установлен All in One SEO Pack, то в нем все делается прямо из админки, в этой статье я рассказывал как.

Robots.txt для WordPress

Под особенности каждой CMS должен создаваться свой правильный файл, так как конфигурация системы отличается и везде свои служебные папки и документы.

Мой файл robots.txt имеет следующий вид:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content
Disallow: /wp-includes
Disallow: /wp-comments
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: */trackback
Disallow: /xmlrpc.php
Disallow: */feed
Disallow: */author
Allow: /wp-content/themes/папка_вашей_темы/
Allow: /wp-content/plugins/
Allow: /wp-includes/js/

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

host: biznessystem.ru

Sitemap: https://biznessystem.ru/sitemap.xml

Первый блок действует для всех роботов, так как в строке User-agent стоит «*». Со 2 по 9 строки закрывают служебные разделы самого вордпресс. 10 – удаляет из индекса страницы RSS ленты. 11 – закрывает от индексации авторские страницы.

По последним требованиям поисковиков, необходимо открыть доступ к стилям и скриптам. Для этих целей в 12, 13 и 14 строках прописываем разрешение на индексирование папки с шаблоном сайта, плагинами и Java скриптами.

Дальше у меня идет 2 блока, открывающих доступ к папке с картинками роботам YandexImages и Googlebot-Image. Можно их не выделять отдельно, а разрешающую директиву для папки с картинками перенести выше на 15 строку, чтобы все роботы имели доступ к изображениям сайта.

Если бы я не использовал All-in-One-Seo-Pack, то добавил бы правило, закрывающее архивы (Disallow: */20) и метки (Disallow: */tag).

При использовании стандартного поиска по сайту от WordPress, стоит поставить директиву, закрывающую страницы поиска (Disallow: *?s=). А лучше, настройте Яндекс поиск по сайту, как это сделано на моем блоге.

Обратите внимание на 2 правила:

1. Все директивы для одного робота идут подряд без пропуска строк.

2. Блоки для разных роботов обязательно разделяются пустой строкой.

В самом конце есть директивы, которые мы ранее не рассматривали – это host и sitemap. Обе эти директивы называют межсекционными (можно ставить вне блоков).

Host – указывает главное зеркало ресурса (с 2018 года отменена и больше не используется). Обязательно стоит указать какой домен является главным для вашего сайта – с www или без www. Если у сайта есть еще зеркала, то в их файлах тоже нужно прописать главное. Данную директиву понимает только Яндекс.

Sitemap – это директива, в которой прописывается путь к XML карте вашего сайта. Ее понимают и Гугл и Яндекс.

Дополнения и заблуждения

1. Некоторые вебмастера делают отдельный блок для Яндекса, полностью дублируя общий и добавляя директиву host. Якобы, иначе yandex может не понять. Это лишнее. Мой файл robots.txt известен поисковику давно, и он в нем прекрасно ориентируется, полностью отрабатывая все указания.

2. Можно заменить несколько строк, начинающихся с wp- одной директивой Disallow: /wp-, я не стал такого делать, так как боюсь – вдруг у меня есть статьи, начинающиеся с wp-, если вы уверены, что ваш блог такого не содержит, смело сокращайте код.

3. Переиндексация файла robots.txt проходит не мгновенно, поэтому, ваши изменения поисковики могут заметить лишь спустя пару месяцев.

4. Гугл рекомендует открывать доступ своим ботам к файлам темы оформления и скриптам сайта, пугая вебмастеров возможными санкциями за несоблюдение этого правила. Я провел эксперимент, где оценивал, насколько сильно влияет это требование на позиции сайта в поиске – подробности и результаты эксперимента тут.

Резюме

Правильный файл Robots.txt для WordPress является почти шаблонным документом и его вид одинаков для 99% проектов, созданных на этом движке. Максимум, что требуется для вебмастера – это внести индивидуальные правила для используемого шаблона.

Robots.txt и WordPress | WP Engine®

Поддержание поисковой оптимизации (SEO) вашего сайта имеет решающее значение для привлечения органического трафика. Однако есть некоторые страницы, такие как дублированный контент или промежуточные области, которые вы можете не захотеть, чтобы пользователи находили через поисковые системы. К счастью, есть способ запретить таким системам, как Google, получать доступ к определенным страницам и отображать их для поисковиков. Редактируя файл robots.txt своего сайта, вы можете контролировать, какой контент будет отображаться на страницах результатов поиска (SERP).

ПРИМЕЧАНИЕ. По умолчанию WP Engine ограничивает трафик поисковых систем на любой сайт, использующий среду , домен .wpengine.com . Это означает, что поисковые системы не смогут посещать сайты , а не , которые в настоящее время находятся в разработке, с использованием личного домена.


О

Robots.txt

Файл robots.txt содержит инструкции для поисковых систем о том, как находить и извлекать информацию с вашего веб-сайта.Этот процесс называется «сканированием». После того, как страница просканирована, она будет проиндексирована, чтобы поисковая система могла быстро найти и отобразить ее позже.

Первое, что делает сканер поисковой системы, когда попадает на сайт, — это ищет файл robots.txt . Если его нет, он продолжит сканирование остальной части сайта в обычном режиме. Если он найдет этот файл, сканер будет искать в нем какие-либо команды, прежде чем продолжить.

В роботе есть четыре общие команды.txt файл:

  • Disallow запрещает сканерам поисковых систем проверять и индексировать указанные файлы сайта. Это может помочь вам предотвратить появление в поисковой выдаче дублированного контента, промежуточных областей или других личных файлов.
  • Разрешить разрешает доступ к подпапкам, в то время как родительские папки запрещены.
  • Crawl-delay предписывает поисковым роботам подождать определенное время перед загрузкой файла.
  • Sitemap указывает расположение любых файлов Sitemap, связанных с вашим сайтом.

Файлы Robots.txt всегда форматируются одинаково, чтобы их директивы были понятны:

Каждая директива начинается с идентификации агента пользователя , который обычно является сканером поисковой системы. Если вы хотите, чтобы команда применялась ко всем потенциальным пользовательским агентам, вы можете использовать звездочку * . Чтобы вместо этого настроить таргетинг на определенный пользовательский агент, вы можете добавить его имя. Например, мы могли бы заменить звездочку выше на Googlebot , чтобы только запретить Google сканирование страницы администратора.

Понимание того, как использовать и редактировать файл robots.txt , имеет жизненно важное значение. Включенные в него директивы будут определять, как поисковые системы взаимодействуют с вашим сайтом. Они могут помочь вам, скрывая контент, от которого вы хотите отвлечь пользователей, что улучшит общее SEO вашего сайта.


Протестируйте файл

Robots.txt Файл

Вы можете проверить, есть ли у вас файл robots.txt , добавив /robots.txt в конец URL-адреса вашего сайта в браузере (Пример: https: // wpengine.com / robots.txt ). Это вызовет файл, если он существует. Однако наличие вашего файла не обязательно означает, что он работает правильно.

К счастью, проверить файл robots.txt просто. Вы можете просто скопировать и вставить свой файл в тестер robots.txt. Инструмент выделит все ошибки в файле. Важно отметить, что изменения, внесенные в редактор robots.txt тестера, не будут применяться к фактическому файлу — вам все равно придется отредактировать файл на своем сервере.

Некоторые распространенные ошибки включают запрет на использование файлов CSS или JavaScript, неправильное использование подстановочных знаков, таких как * и долларов США, а также случайное запрещение важных страниц. Также важно помнить, что сканеры поисковых систем чувствительны к регистру, поэтому все URL-адреса в файле robots.txt должны отображаться так же, как и в вашем браузере.


Создание файла

Robots.txt с подключаемым модулем

Если на вашем сайте не хватает файла robots.txt , вы можете легко добавить его в WordPress с помощью плагина Yoast SEO. Это избавит вас от необходимости создавать простой текстовый файл и вручную загружать его на сервер. Если вы предпочитаете создать его вручную, перейдите к разделу «Создание файла Robots.txt вручную» ниже.

Перейдите к инструментам Yoast SEO

Для начала вам необходимо установить и активировать плагин Yoast SEO. Затем вы можете перейти на панель администратора WordPress и выбрать SEO > Tools на боковой панели :

.

Это приведет вас к списку полезных инструментов, к которым пользователи Yoast могут получить доступ для эффективного улучшения своего SEO.

Использование редактора файлов для создания файла

Robots.txt

Одним из инструментов, доступных в списке, является редактор файлов. Это позволяет вам редактировать файлы, связанные с SEO вашего сайта, в том числе файл robots.txt :

Поскольку на вашем сайте его еще нет, выберите «Создать файл robots.txt :

».

Откроется редактор файлов, в котором вы сможете редактировать и сохранять новый файл.

Измените роботов

по умолчанию.txt и сохраните его

По умолчанию новый файл robots.txt , созданный с помощью Yoast, включает директиву, скрывающую вашу папку wp-admin и разрешающую доступ к вашему файлу admin-ajax.php для всех пользовательских агентов. Рекомендуется оставить эту директиву в файле:

Перед сохранением файла вы также можете добавить любые другие директивы, которые хотите включить. В этом примере мы запретили поисковым роботам Bing доступ ко всем нашим файлам, добавили задержку сканирования в десять миллисекунд для поискового робота Yahoo Slurp и направили поисковые роботы в расположение нашей карты сайта.Когда вы закончите вносить свои изменения, не забудьте их сохранить!


Руководство

Robots.txt Создание файла

Если вам нужно создать файл robots.txt вручную, процесс так же прост, как создание и загрузка файла на ваш сервер.

  1. Создайте файл с именем robots.txt
    • Убедитесь, что имя написано в нижнем регистре
    • Убедитесь, что расширение — .txt , а не .html
  2. Добавьте в файл любые необходимые директивы и сохранить
  3. Загрузите файл с помощью SFTP или SSH-шлюза в корневой каталог вашего сайта

ПРИМЕЧАНИЕ : Если в корне вашего сайта есть физический файл с именем robots.txt , он перезапишет любой динамически сгенерированный файл robots.txt , созданный плагином или темой.


Использование файла robots.txt

Файл robots.txt разбивается на блоки пользовательским агентом. Внутри блока каждая директива указывается в новой строке. Например:

 Агент пользователя: *
Запретить: /
Пользовательский агент: Googlebot
Запретить:
Пользовательский агент: bingbot
Запретить: / no-bing-crawl /
Запрещено: wp-admin 

Пользовательские агенты обычно сокращаются до более общего имени, но это не требуется .

Значения директивы чувствительны к регистру.

  • URL-адреса no-bing-crawl и No-Bing-Crawl — это разных .

Глобализация и регулярные выражения не поддерживаются полностью .

  • * в поле User-agent — это специальное значение, означающее «любой робот».

Ограничить доступ всех ботов к вашему сайту

(Все сайты в среде .wpengine.com , автоматически применяется следующий файл robots.txt .)

 Агент пользователя: *
Disallow: / 

Ограничить доступ одного робота ко всей площадке

 Агент пользователя: BadBotName
Disallow: / 

Ограничить доступ ботов к определенным каталогам и файлам

Пример запрещает ботов на всех страницах wp-admin и wp-login.php . Это хороший стандартный или начальный роботов.txt файл.

 Агент пользователя: *
Запретить: / wp-admin /
Запрещено: /wp-login.php 

Ограничить доступ бота ко всем файлам определенного типа

В примере используется тип файла .pdf

 Агент пользователя: *
Disallow: /*.pdf$ 

Ограничить конкретную поисковую систему

Пример использования Googlebot-Image в / wp-content / загружает каталог

 User-Agent: Googlebot-Image
Запретить: / wp-content / uploads / 

Ограничить всех ботов, кроме одного

Пример разрешает только Google

 Пользовательский агент: Google
Запретить:

Пользовательский агент: *
Disallow: / 

Добавление правильных комбинаций директив может быть сложным.К счастью, есть плагины, которые также создают (и тестируют) файл robots.txt за вас. Примеры плагинов:

Если вам нужна дополнительная помощь в настройке правил в файле robots.txt, мы рекомендуем посетить Google Developers или The Web Robots Pages для получения дополнительных инструкций.


Задержка сканирования

Если вы видите слишком высокий трафик ботов и это влияет на производительность сервера, задержка сканирования может быть хорошим вариантом. Задержка сканирования позволяет ограничить время, которое должен пройти бот перед сканированием следующей страницы.

Для настройки задержки сканирования используйте следующую директиву, значение настраивается и указывается в секундах:

 задержка сканирования: 10 

Например, чтобы запретить сканирование всем ботам wp-admin , wp-login.php и установить задержку сканирования для всех ботов на 600 секунд (10 минут):

 Агент пользователя: *
Запретить: /wp-login.php
Запретить: / wp-admin /
Задержка сканирования: 600 

ПРИМЕЧАНИЕ : Службы обхода контента могут иметь свои собственные требования для установки задержки обхода.Как правило, лучше всего напрямую связаться со службой для получения требуемого метода.

Отрегулируйте задержку сканирования для SEMrush

  • SEMrush — отличный сервис, но сканирование может быть очень тяжелым, что в конечном итоге снижает производительность вашего сайта. По умолчанию боты SEMrush игнорируют директивы задержки сканирования в файле robots.txt, поэтому обязательно войдите в их панель управления и включите Уважение задержки сканирования robots.txt .
  • Дополнительную информацию о SEMrush можно найти здесь.

Настроить задержку сканирования Bingbot

  • Bingbot должен соблюдать директивы crawl-delay , однако они также позволяют вам установить шаблон управления сканированием.

Настройте задержку сканирования для Google

Подробнее см. В документации поддержки Google)

Откройте страницу настроек скорости сканирования вашего ресурса.

  • Если ваша скорость сканирования описана как , рассчитанная как оптимальная , единственный способ уменьшить скорость сканирования — это подать специальный запрос.Вы не можете увеличить скорость сканирования .
  • В противном случае , выберите нужный вариант и затем ограничьте скорость сканирования по желанию. Новая скорость сканирования будет действовать в течение 90 дней.

ПРИМЕЧАНИЕ . Хотя эта конфигурация запрещена на нашей платформе, стоит отметить, что задержка сканирования Googlebot не может быть изменена для сайтов, размещенных в подкаталогах, таких как domain.com/blog .


Лучшие Лрактики

Прежде всего следует помнить о следующем: непроизводственные сайты должны запрещать использование всех пользовательских агентов.WP Engine автоматически делает это для любых сайтов, использующих домен environmentname .wpengine.com . Только когда вы будете готовы «запустить» свой сайт, вы можете добавить файл robots.txt .

Во-вторых, если вы хотите заблокировать определенного User-Agent, помните, что роботы не обязаны следовать правилам, установленным в вашем файле robots.txt . Лучше всего использовать брандмауэр, такой как Sucuri WAF или Cloudflare, который позволяет блокировать злоумышленников до того, как они попадут на ваш сайт.Или вы можете обратиться в службу поддержки за дополнительной помощью по блокировке трафика.

Наконец, если у вас очень большая библиотека сообщений и страниц на вашем сайте, Google и другие поисковые системы, индексирующие ваш сайт, могут вызвать проблемы с производительностью. Увеличение срока действия кеша или ограничение скорости сканирования поможет компенсировать это влияние.


СЛЕДУЮЩИЙ ШАГ: устранение ошибок 504

robots.txt недействителен

• Обновлено

The robots.txt сообщает поисковым системам, какие страницы вашего сайта они могут сканировать. Недопустимая конфигурация robots.txt может вызвать проблемы двух типов:

  • Она может помешать поисковым системам сканировать общедоступные страницы, в результате чего ваш контент будет реже отображаться в результатах поиска.
  • Это может привести к тому, что поисковые системы будут сканировать страницы, которые вы не хотите показывать в результатах поиска.

Как не удалось выполнить аудит Lighthouse

robots.txt #

Lighthouse помечает неверные файлы robots.txt файлов:

Большинство проверок Lighthouse применяется только к той странице, на которой вы сейчас находитесь. Однако, поскольку robots.txt определен на уровне имени хоста, этот аудит применяется ко всему вашему домену (или субдомену).

Разверните robots.txt недействителен audit в вашем отчете, чтобы узнать, что не так с вашим robots.txt .

Общие ошибки включают:

  • Не указан пользовательский агент
  • Шаблон должен быть пустым, начинаться с "/" или "*"
  • Неизвестная директива
  • Неверный URL карты сайта
  • $ следует использовать только в конце шаблона.

Lighthouse не проверяет, что ваши robots.txt находится в правильном месте. Для правильной работы файл должен находиться в корне вашего домена или субдомена.

Как исправить проблемы с

robots.txt #

Убедитесь, что

robots.txt не возвращает код состояния HTTP 5XX #

Если ваш сервер возвращает ошибку сервера (код состояния HTTP в 500) для robots.txt поисковые системы не будут знать, какие страницы следует сканировать. Они могут перестать сканировать весь ваш сайт, что предотвратит индексацию нового содержания.

Чтобы проверить код состояния HTTP, откройте robots.txt в Chrome и проверьте запрос в Chrome DevTools.

Оставить

robots.txt меньше 500 КиБ #

Поисковые системы могут прекратить обработку robots.txt на полпути, если размер файла превышает 500 КиБ. Это может сбить с толку поисковую систему и привести к некорректному сканированию вашего сайта.

Чтобы сохранить robots.txt маленьким, меньше сосредотачивайтесь на отдельных исключенных страницах и больше на более широких шаблонах.Например, если вам нужно заблокировать сканирование файлов PDF, не запрещайте каждый отдельный файл. Вместо этого запретите все URL-адреса, содержащие .pdf , используя disallow: /*.pdf .

Исправьте любые ошибки формата #

  • В файле robots.txt разрешены только пустые строки, комментарии и директивы, соответствующие формату «имя: значение».
  • Убедитесь, что значения allow и disallow либо пусты, либо начинаются с / или * .
  • Не используйте $ в середине значения (например, allow: / file $ html ).
Убедитесь, что для
user-agent указано значение #

User-agent names, чтобы сообщить сканерам поисковых систем, каким директивам следовать. Вы должны указать значение для каждого экземпляра user-agent , чтобы поисковые системы знали, следует ли следовать соответствующему набору директив.

Чтобы указать конкретный сканер поисковой системы, используйте имя пользовательского агента из его опубликованного списка.(Например, вот список пользовательских агентов Google, используемых для сканирования.)

Используйте * для сопоставления со всеми другими поисковыми роботами, не имеющими аналогов.

Не

  user-agent: 
disallow: / downloads /

Пользовательский агент не определен.

Do

  user-agent: * 
disallow: / downloads /

user-agent: magicsearchbot
disallow: / uploads /

Определены общий пользовательский агент и magicsearchbot .

Убедитесь, что нет директив
allow или disallow до user-agent #

User-agent Names определяет разделы вашего файла robots.txt . Сканеры поисковых систем используют эти разделы, чтобы определить, каким директивам следовать. Размещение директивы перед именем первого пользовательского агента означает, что никакие сканеры не будут следовать ей.

Не

  # начало файла 
disallow: / downloads /

user-agent: magicsearchbot
allow: /

Сканер поисковой системы не прочитает директиву disallow: / downloads .

Do

  # начало файла 
user-agent: *
disallow: / downloads /

Всем поисковым системам запрещено сканировать папку / downloads .

Сканеры поисковой системы следуют только директивам в разделе с наиболее конкретным именем пользовательского агента. Например, если у вас есть директивы для user-agent: * и user-agent: Googlebot-Image , изображения Googlebot будут следовать только директивам в разделе user-agent : Googlebot-Image .

Предоставьте абсолютный URL-адрес для
карты сайта #

Файлы Sitemap — отличный способ сообщить поисковым системам о страницах вашего сайта. Файл карты сайта обычно включает в себя список URL-адресов на вашем веб-сайте вместе с информацией о том, когда они были в последний раз изменены.

Если вы решили отправить файл карты сайта в robots.txt , убедитесь, что используете абсолютный URL.

Не

  карта сайта: /sitemap-file.xml  

Сделать

  карта сайта: https: // example.com / sitemap-file.xml  

Resources #

Последнее обновление: Улучшить статью

Файл robots.txt WordPress … Что это такое и для чего он нужен

Вы когда-нибудь задумывались, что такое файл robots.txt и для чего он нужен? Robots.txt используется для связи с поисковыми роботами (известными как боты), используемыми Google и другими поисковыми системами. Он сообщает им, какие части вашего сайта индексировать, а какие игнорировать. Таким образом, файл robots.txt может помочь вам улучшить (или потенциально сломать!) Ваши усилия по поисковой оптимизации.Если вы хотите, чтобы ваш сайт имел высокий рейтинг, важно хорошо разбираться в robots.txt!

Где находится файл robots.txt?

WordPress обычно запускает так называемый «виртуальный» файл robots.txt, что означает, что он недоступен через SFTP. Однако вы можете просмотреть его основное содержимое, перейдя на yourdomain.com/robots.txt. Вероятно, вы увидите что-то вроде этого:

  Пользовательский агент: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php  

В первой строке указывается, к каким ботам будут применяться правила.В нашем примере звездочка означает, что правила будут применяться ко всем ботам (например, из Google, Bing и т. Д.).

Вторая строка определяет правило, которое предотвращает доступ ботов к папке / wp-admin, а третья строка заявляет, что ботам разрешено анализировать файл /wp-admin/admin-ajax.php.

Добавьте свои правила

Для простого веб-сайта WordPress правил по умолчанию, применяемых WordPress к файлу robots.txt, может быть более чем достаточно. Однако, если вам нужен больший контроль и возможность добавлять свои собственные правила, чтобы давать более конкретные инструкции ботам поисковых систем о том, как индексировать ваш веб-сайт, вам нужно будет создать своих собственных физических роботов.txt и поместите его в корневой каталог вашей установки.

Существует несколько причин, по которым может потребоваться переконфигурировать файл robots.txt и определить, что именно этим ботам будет разрешено сканировать. Одна из ключевых причин — это время, затрачиваемое ботом на сканирование вашего сайта. Google (и другие) не позволяют ботам проводить неограниченное время на каждом веб-сайте … с триллионами страниц им приходится более тонко подходить к тому, что их боты будут сканировать и что они будут игнорировать, пытаясь извлечь наиболее полезную информацию. о сайте.

Разместите свой сайт с помощью Pressidium

60-ДНЕВНАЯ ГАРАНТИЯ ВОЗВРАТА ДЕНЕГ

СМОТРЕТЬ НАШИ ПЛАНЫ

Когда вы разрешаете ботам сканировать все страницы вашего сайта, часть времени сканирования тратится на страницы, которые не являются важными или даже релевантными. Это оставляет у них меньше времени на проработку наиболее релевантных областей вашего сайта. Запрещая ботам доступ к некоторым частям вашего сайта, вы увеличиваете время, доступное ботам для извлечения информации из наиболее важных частей вашего сайта (которые, мы надеемся, в конечном итоге будут проиндексированы).Поскольку сканирование происходит быстрее, Google с большей вероятностью повторно посетит ваш веб-сайт и обновит индекс вашего сайта. Это означает, что новые сообщения в блогах и другой свежий контент, вероятно, будут индексироваться быстрее, что не может не радовать.

Примеры редактирования Robots.txt

Файл robots.txt предлагает множество возможностей для настройки. Поэтому мы предоставили ряд примеров правил, которые можно использовать, чтобы определять, как роботы индексируют ваш сайт.

Разрешение или запрещение ботов

Во-первых, давайте посмотрим, как можно ограничить конкретного бота.Для этого все, что нам нужно сделать, это заменить звездочку (*) на имя пользовательского агента бота, который мы хотим заблокировать, например «MSNBot». Полный список известных пользовательских агентов доступен здесь.

  Пользовательский агент: MSNBot
Disallow: /  

Если поставить дефис во второй строке, доступ бота будет ограничен ко всем каталогам.

Чтобы разрешить сканирование нашего сайта только одному боту, мы используем двухэтапный процесс. Сначала мы установим этого одного бота как исключение, а затем запретим всех таких ботов:

  Пользовательский агент: Google
Запретить:

Пользовательский агент: *
Disallow: /  

Чтобы разрешить доступ всем ботам ко всему контенту, мы добавляем эти две строки:

  Пользовательский агент: *
Disallow:  

Такого же эффекта можно добиться, просто создав файл robots.txt, а затем просто оставив его пустым.

Блокировка доступа к определенным файлам

Хотите, чтобы роботы не индексировали определенные файлы на вашем сайте? Это просто! В приведенном ниже примере мы запретили поисковым системам доступ ко всем файлам .pdf на нашем веб-сайте.

  Пользовательский агент: *
Disallow: /*.pdf$  

Символ «$» используется для обозначения конца URL-адреса. Поскольку это чувствительно к регистру, файл с именем my.PDF все равно будет сканироваться (обратите внимание на CAPS).

Сложные логические выражения

Некоторые поисковые системы, например Google, понимают использование более сложных регулярных выражений. Однако важно отметить, что не все поисковые системы могут понимать логические выражения в robots.txt.

Одним из примеров этого является использование символа $. В файлах robots.txt этот символ обозначает конец URL-адреса. Итак, в следующем примере мы заблокировали поисковым роботам чтение и индексирование файлов с расширением.php

  Запретить: /*.php$  

Это означает, что /index.php нельзя проиндексировать, но /index.php?p=1 можно. Это полезно только в очень определенных обстоятельствах и должно использоваться с осторожностью, иначе вы рискуете заблокировать доступ бота к файлам, которые вы не хотели!

Вы также можете установить разные правила для каждого бота, указав правила, которые применяются к ним индивидуально. Приведенный ниже пример кода ограничивает доступ к папке wp-admin для всех ботов и в то же время блокирует доступ ко всему сайту для поисковой системы Bing.Это не обязательно, но это полезная демонстрация того, насколько гибкими могут быть правила в файле robots.txt.

  Пользовательский агент: *
Запретить: / wp-admin /
Пользовательский агент: Bingbot
Disallow: /  

XML-файлы Sitemap

Карты сайта

XML действительно помогают поисковым роботам понять структуру вашего сайта. Но для того, чтобы быть полезным, бот должен знать, где находится карта сайта. «Директива карты сайта» используется, чтобы специально сообщить поисковым системам, что а) карта сайта существует и б) где они могут ее найти.

  Карта сайта: http://www.example.com/sitemap.xml
Пользовательский агент: *
Disallow:  

Вы также можете указать несколько местоположений карты сайта:

  Карта сайта: http://www.example.com/sitemap_1.xml
Карта сайта: http://www.example.com/sitemap_2.xml
Пользовательский агент: *
Запретить  

Задержка сканирования бота

Другая функция, которую можно реализовать с помощью файла robots.txt, — это указать ботам «замедлить» сканирование вашего сайта. Это может быть необходимо, если вы обнаружите, что ваш сервер перегружен из-за большого трафика ботов.Для этого вы должны указать агент пользователя, который нужно замедлить, а затем добавить задержку.

  Пользовательский агент: BingBot
Запретить: / wp-admin /
Задержка сканирования: 10  

Цифры (10) в этом примере — это задержка, которую вы хотите иметь между сканированием отдельных страниц вашего сайта. Итак, в приведенном выше примере мы попросили Bing Bot делать паузу на десять секунд между каждой страницей, которую он сканирует, тем самым давая нашему серверу немного передышки.

Единственные немного плохие новости об этом конкретном роботе.txt гласит, что бот Google его не уважает. Однако вы можете указать их ботам замедляться из консоли поиска Google.

Примечания к правилам robots.txt:

  • Все правила robots.txt чувствительны к регистру. Печатайте внимательно!
  • Убедитесь, что перед командой в начале строки нет пробелов.
  • Изменения, внесенные в robots.txt, могут быть замечены ботами в течение 24–36 часов.

Как протестировать и отправить своих роботов WordPress.txt файл

При создании нового файла robots.txt стоит проверить, нет ли в нем ошибок. Вы можете сделать это с помощью Google Search Console.

Сначала вам нужно будет указать свой домен (если у вас еще нет учетной записи Search Console для настройки вашего веб-сайта). Google предоставит вам запись TXT, которую необходимо добавить в ваш DNS, чтобы подтвердить ваш домен.

Как только это обновление DNS будет распространено (чувствуете нетерпение… попробуйте использовать Cloudflare для управления своим DNS), вы можете посетить robots.txt и проверьте, нет ли предупреждений о содержимом вашего файла robots.txt.

Еще одна вещь, которую вы можете сделать, чтобы проверить, имеют ли ваши правила желаемый эффект, — это использовать инструмент тестирования robots.txt, такой как Ryte.

Вы просто вводите свой домен и выбираете пользовательский агент на панели справа. После отправки вы увидите свои результаты.

Заключение

Знание того, как использовать robots.txt, — еще один полезный инструмент в вашем наборе инструментов разработчика.Если единственное, что вы уберете из этого руководства, — это возможность проверить, не блокирует ли ваш файл robots.txt ботов, таких как Google (что вы вряд ли захотите делать), тогда это неплохо! Точно так же, как вы можете видеть, robots.txt предлагает целый ряд дополнительных тонких функций управления вашим сайтом, которые однажды могут оказаться полезными.

Разместите свой сайт на WordPress с помощью Pressidium!

Посмотреть наши тарифные планы

WordPress Robots.txt — Как создать и оптимизировать для SEO

Что такое роботы.текст? Как создать файл robots.txt? Зачем нужно создавать файл robots.txt? Помогает ли оптимизация файла robots.txt улучшить ваш рейтинг в поисковой сети?

Мы расскажем обо всем этом и многом другом в этой подробной статье о robots.txt!

Вы когда-нибудь хотели запретить поисковым системам сканировать определенный файл? Хотите, чтобы поисковые системы не сканировали определенную папку на вашем веб-сайте?

Здесь на помощь приходит файл robots.txt. Это простой текстовый файл, который сообщает поисковым системам, где и где не сканировать при индексировании вашего веб-сайта.

Хорошая новость в том, что вам не нужен технический опыт, чтобы раскрыть всю мощь robots.txt.

Robots.txt — это простой текстовый файл, создание которого занимает секунды. Это также один из самых простых файлов, которые можно испортить. Всего один неуместный символ, и вы испортили SEO всего своего сайта и не позволите поисковым системам получить доступ к вашему сайту.

При работе над поисковой оптимизацией веб-сайта важную роль играет файл robots.txt. Хотя он позволяет запретить поисковым системам доступ к различным файлам и папкам, часто это не лучший способ оптимизации вашего сайта.

В этой статье мы объясним, как использовать файл robots.txt для оптимизации своего веб-сайта. Мы также покажем вам, как его создать, и поделимся некоторыми плагинами, которые нам нравятся, которые могут сделать за вас тяжелую работу.

Что такое Robots.txt?

Robots.txt — это простой текстовый файл, который сообщает роботам поисковых систем, какие страницы вашего сайта сканировать. Он также сообщает роботам, какие страницы не сканировать.

Прежде чем мы углубимся в эту статью, важно понять, как работает поисковая система.

Поисковые системы выполняют три основные функции — сканирование, индексирование и ранжирование.

(Источник: Moz.com)

Поисковые системы начинают с отправки своих поисковых роботов по сети. Эти боты представляют собой интеллектуальное программное обеспечение, которое перемещается по всей сети в поисках новых ссылок, страниц и веб-сайтов. Этот процесс сканирования сети называется сканирование .

Как только боты обнаруживают ваш веб-сайт, ваши страницы упорядочиваются в удобную структуру данных.Этот процесс называется индексацией .

И, наконец, все сводится к рейтингу . Где поисковая система предоставляет своим пользователям самую лучшую и наиболее релевантную информацию на основе их поисковых запросов.

Как выглядит Robots.txt?

Допустим, поисковая система собирается посетить ваш сайт. Прежде чем сканировать сайт, он сначала проверит robots.txt на предмет инструкций.

Например, предположим, что робот поисковой системы собирается просканировать наш сайт WPAstra и получить доступ к нашим роботам.txt, доступный по адресу https://wpastra.com/robots.txt.

Пока мы обсуждаем эту тему, вы можете получить доступ к файлу robots.txt для любого веб-сайта, введя «/robots.txt» после имени домена.

ОК. Возвращение в нужное русло.

Это типичный формат файла robots.txt.

И прежде чем вы подумаете, что это слишком технический вопрос, есть хорошая новость: это все, что касается файла robots.txt. Ну, почти.

Давайте разберем каждый элемент, упомянутый в файле.

Первый — User-agent: * .

Звездочка после User-agent указывает, что файл применяется ко всем роботам поисковых систем, которые посещают сайт.

У каждой поисковой системы есть собственный пользовательский агент, который просматривает Интернет. Например, Google использует робота Googlebot для индексации содержания вашего веб-сайта в поисковой системе Google.

Некоторые из других пользовательских агентов, используемых популярными поисковыми системами:

  • Google: Googlebot
  • Googlebot Новости: Googlebot-News
  • Googlebot Images: Googlebot-Image
  • Googlebot Video: Googlebot-Video
  • Bing: Bingbot
  • Yahoo: Slurp Bot
  • DuckDuckGo: DuckDuckBot
  • uspidu
  • Яндекс: ЯндексБот
  • Exalead: ExaBot
  • Amazon’s Alexa: ia_archiver

Таких юзер-агентов сотни.

Вы можете установить собственные инструкции для каждого пользовательского агента. Например, если вы хотите установить конкретные инструкции для робота Googlebot, то первая строка вашего файла robots.txt будет иметь вид

.

Пользовательский агент: Googlebot

Вы назначаете директивы всем пользовательским агентам, используя звездочку (*) рядом с User-agent.

Допустим, вы хотите заблокировать сканирование вашего сайта всеми ботами, кроме робота Google. Ваш файл robots.txt будет иметь следующий вид:

.
  Пользовательский агент: *
Запретить: /

Пользовательский агент: Googlebot
Разрешить: /  

Косая черта (/) после Disallow указывает боту не индексировать какие-либо страницы на сайте.И хотя вы назначили директиву, которая будет применяться ко всем роботам поисковых систем, вы также явно разрешили роботу Googlebot индексировать ваш веб-сайт, добавив « Allow: / ».

Точно так же вы можете добавить директивы для любого количества пользовательских агентов.

Напомним, что вернемся к нашему примеру с Astra robots.txt, т. Е.

  Пользовательский агент: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php  

Для всех роботов поисковых систем задана директива: ничего не сканировать в папке « / wp-admin / », но следовать « admin-ajax».php ’в той же папке.

Просто, правда?

Что такое краулинговый бюджет?

Добавляя косую черту после Disallow , вы запрещаете роботу посещать какие-либо страницы сайта.

Итак, следующий очевидный вопрос: зачем кому-то мешать роботам сканировать и индексировать ваш сайт? В конце концов, когда вы работаете над поисковой оптимизацией сайта, вы хотите, чтобы поисковые системы сканировали ваш сайт, чтобы помочь вам в рейтинге.

Именно поэтому вам следует подумать об оптимизации ваших роботов.txt файл.

Есть идеи, сколько страниц у вас на сайте? От реальных страниц до тестовых страниц, страниц с дублированным контентом, страниц благодарности и т. Д. Мы полагаем, что много.

Когда бот сканирует ваш сайт, он просканирует каждую страницу. А если у вас несколько страниц, боту поисковой системы потребуется время, чтобы их просканировать.

(Источник: Seo Hacker)

Знаете ли вы, что это может негативно повлиять на рейтинг вашего сайта?

И это связано с бюджетом сканирования бота поисковой системы .’

ОК. Что такое краулинговый бюджет?

Бюджет сканирования — это количество URL-адресов, которые поисковый бот может сканировать за сеанс. Каждому сайту будет выделен определенный бюджет сканирования. И вам нужно убедиться, что краулинговый бюджет расходуется наилучшим образом для вашего сайта.

Если на вашем веб-сайте несколько страниц, вам определенно нужно, чтобы бот сначала сканировал ваши самые ценные страницы. Таким образом, необходимо явно упомянуть об этом в файле robots.txt файл.

Ознакомьтесь с ресурсами, доступными в Google, чтобы узнать, что означает краулинговый бюджет для робота Googlebot.

Как создать файл Robots.txt в WordPress?

Теперь, когда мы рассмотрели, что такое файл robots.txt и насколько он важен, давайте создадим его в WordPress.

У вас есть два способа создать файл robots.txt в WordPress. Один использует плагин WordPress, а другой — вручную загружает файл в корневую папку вашего сайта.

Метод 1. Создайте роботов.txt с использованием плагина Yoast SEO

Чтобы помочь вам оптимизировать свой сайт WordPress, вы можете использовать плагины SEO. Большинство этих плагинов имеют собственный генератор файлов robots.txt.

В этом разделе мы создадим его с помощью плагина Yoast SEO. Используя плагин, вы можете легко создать файл robots.txt из своей панели управления WordPress.

Шаг 1. Установите плагин

Зайдите в Плагины> Добавить новый . Затем найдите, установите и активируйте плагин Yoast SEO, если у вас его еще нет.

Шаг 2. Создайте файл robots.txt

После активации плагина перейдите в Yoast SEO> Инструменты и нажмите Редактор файлов .

Поскольку мы создаем файл впервые, нажмите Создать файл robots.txt .

Вы заметите файл, созданный с некоторыми директивами по умолчанию.

По умолчанию генератор файлов robots.txt Yoast SEO добавляет следующие директивы:

  Пользовательский агент: *
Запретить: / wp-admin /
Разрешить: / wp-admin / admin-ajax.php
  

При желании вы можете добавить другие директивы в robots.txt. Когда вы закончите, нажмите Сохранить изменения в robots.txt .

Вперед, введите свое доменное имя, а затем « /robots.txt ». Если вы обнаружите, что в браузере отображаются директивы по умолчанию, как показано на изображении ниже, вы успешно создали файл robots.txt.

Мы также рекомендуем добавить URL-адрес карты сайта в файл robots.txt.

Например, если URL вашей карты сайта — https: // yourdomain.ru / sitemap.xml, а затем рассмотрите возможность включения файла Sitemap : https://yourdomain.com/sitemap.xml в файл robots.txt.

Другой пример: вы хотите создать директиву, запрещающую боту сканировать все изображения на вашем веб-сайте. Допустим, мы хотим ограничить это только роботом GoogleBot.

В таком случае наш robots.txt будет иметь следующий вид:

  Пользовательский агент: Googlebot
Запретить: / uploads /

Пользовательский агент: *
Разрешить: / uploads /
  

И на всякий случай, если вам интересно, как узнать имя папки с изображениями, просто щелкните правой кнопкой мыши любое изображение на своем веб-сайте, выберите «Открыть в новой вкладке» и запишите URL-адрес в браузере.Вуаля!

Метод 2. Создание файла Robots.txt вручную с помощью FTP

Следующий метод — создать файл robots.txt на вашем локальном компьютере и загрузить его в корневую папку вашего сайта WordPress.

Вам также потребуется доступ к вашему хостингу WordPress с помощью FTP-клиента, такого как Filezilla. Учетные данные, необходимые для входа, будут доступны в панели управления хостингом, если у вас их еще нет.

Помните, что файл robots.txt должен быть загружен в корневую папку вашего веб-сайта.То есть его не должно быть ни в каком подкаталоге.

Итак, после входа в систему с помощью FTP-клиента вы сможете увидеть, существует ли файл robots.txt в корневой папке вашего веб-сайта.

Если файл существует, просто щелкните файл правой кнопкой мыши и выберите параметр редактирования.

Внесите изменения и нажмите «Сохранить».

Если файл не существует, вам нужно его создать. Вы можете создать его с помощью простого текстового редактора, такого как Блокнот, и добавить директивы в файл.

Например, включите следующие директивы,

  Пользовательский агент: *
Запретить: / wp-admin /
Разрешить: /wp-admin/admin-ajax.php  

… и сохраните файл как robots.txt.

Теперь, используя свой FTP-клиент, нажмите « File Upload » и загрузите файл в корневую папку веб-сайта.

Чтобы проверить, успешно ли был загружен ваш файл, введите свое доменное имя, а затем «/robots.txt».

Вот как вы загружаете файл robots.txt вручную на свой сайт WordPress!

Плюсы и минусы Robots.txt

Плюсы файла robots.txt

  1. Он помогает оптимизировать бюджеты сканирования поисковых систем, говоря им не тратить время на страницы, которые вы не хотите индексировать. Это помогает гарантировать, что поисковые системы будут сканировать наиболее важные для вас страницы.
  2. Это помогает оптимизировать ваш веб-сервер, блокируя ботов, которые тратят ресурсы.
  3. Это помогает скрыть страницы с благодарностью, целевые страницы, страницы входа и многое другое, что не нужно индексировать поисковыми системами.

Минусы файла robots.txt

  1. Теперь вы знаете, как получить доступ к файлу robots.txt для любого веб-сайта. Все очень просто. Просто введите доменное имя и затем «/robots.txt». Однако это также представляет определенный риск. Файл robots.txt может содержать URL-адреса некоторых ваших внутренних страниц, которые вы не хотели бы индексировать поисковыми системами.
    Например, может существовать страница входа, которую вы не хотели бы индексировать. Однако упоминание об этом в файле robots.txt позволяет злоумышленникам получить доступ к странице. То же самое происходит, если вы пытаетесь скрыть некоторые личные данные.
  2. Хотя создать файл robots.txt довольно просто, если вы ошибетесь хотя бы с одним символом, это испортит все ваши усилия по поисковой оптимизации.

Куда поместить файл Robots.txt

Мы полагаем, что теперь вы хорошо знаете, куда нужно добавить файл robots.txt.

Файл robots.txt всегда должен находиться в корне вашего веб-сайта. Если ваш домен — yourdomain.com, то URL-адрес вашего файла robots.txt будет https://vashdomen.com/robots.txt.

Помимо включения файла robots.txt в корневой каталог, следует придерживаться следующих рекомендаций:

  1. Обязательно назовите файл robots.txt
  2. Имя чувствительно к регистру. Так что сделайте это правильно, или это не сработает
  3. Каждая директива должна быть на новой строке
  4. Включите символ «$» для обозначения конца URL-адреса
  5. Используйте отдельные пользовательские агенты только один раз
  6. Используйте комментарии для объясните своих роботов.txt людям, начав строку с хеша (#)

Как проверить свой файл Robots.txt

Теперь, когда вы создали файл robots.txt, пора протестировать его с помощью тестера robots.txt.

Инструмент, который мы рекомендуем, находится в консоли поиска Google.

Чтобы получить доступ к этому инструменту, нажмите Открыть тестер robots.txt.

Мы предполагаем, что ваш веб-сайт добавлен в Google Search Console. Если это не так, нажмите « Добавить свойство сейчас » и выполните простые шаги, чтобы добавить свой веб-сайт в Google Search Console.

После этого ваш веб-сайт появится в раскрывающемся списке под заголовком «, выберите свойство ».

Выберите веб-сайт, и инструмент автоматически загрузит файл robots.txt с вашего веб-сайта и выделит ошибки и предупреждения, если таковые имеются.

Robots.txt Часто задаваемые вопросы

Хотя в этой статье мы рассмотрели большинство часто задаваемых вопросов, есть еще один часто задаваемый вопрос.

Вам нужен файл Robots.txt для вашего сайта WordPress?

Да, вам нужен робот.txt на вашем сайте WordPress. Независимо от того, есть ли у вас файл robots.txt или нет, поисковые системы все равно будут сканировать и индексировать ваш сайт. Но, рассмотрев, что такое robots.txt, как он работает и сколько обходится бюджету, почему бы вам не включить его?

Файл robots.txt сообщает поисковым системам, что сканировать и, что более важно, что не сканировать.

Основная причина для включения файла robots.txt — учет негативных последствий краулингового бюджета.

Как указывалось ранее, у каждого веб-сайта есть определенный бюджет сканирования.Это сводится к количеству страниц, которые бот просматривает за сеанс. Если бот не завершит сканирование всех страниц вашего сайта во время сеанса, он вернется и возобновит сканирование в следующем сеансе.

И это замедляет индексирование вашего сайта.

Быстрое решение этой проблемы — запретить поисковым роботам сканировать ненужные страницы, мультимедийные файлы, плагины, папки тем и т. Д., Тем самым сэкономив квоту сканирования.

Последние мысли

При работе над поисковой оптимизацией вашего веб-сайта мы придаем большое значение оптимизации содержания, поиску правильных ключевых слов, работе с обратными ссылками, созданию карты сайта.xml, среди прочих факторов. Элемент SEO, на который некоторые веб-мастера обращают меньше внимания, — это файл robots.txt.

Файл robots.txt может не иметь большого значения, когда вы начинаете работу со своим веб-сайтом. Но по мере роста вашего веб-сайта и увеличения количества страниц он приносит большие дивиденды, если мы начнем следовать лучшим практикам в отношении robots.txt.

Мы надеемся, что эта статья помогла вам получить полезную информацию о том, что такое robots.txt и как создать его на своем веб-сайте.Итак, какие директивы вы установили в своем файле robots.txt?

Как использовать robots.txt

Для чего нужен файл robots?

Когда поисковая система просматривает (посещает) ваш веб-сайт, первое, что она ищет, — это ваш файл robots.txt. Этот файл сообщает поисковым системам, что они должны и не должны индексировать (сохранять и делать общедоступными в качестве результатов поиска). Он также может указывать на расположение вашей XML-карты сайта. Затем поисковая система отправляет своего «бота», или «робота», или «паука» для сканирования вашего сайта в соответствии с указаниями роботов.txt (или не отправлять, если сказали, что не могут).

Бот Google называется Googlebot, а бот Microsoft Bing — Bingbot. Многие другие поисковые системы, такие как Excite, Lycos, Alexa и Ask Jeeves, также имеют своих собственных ботов. Большинство ботов поступают из поисковых систем, хотя иногда другие сайты рассылают ботов по разным причинам. Например, некоторые сайты могут попросить вас разместить код на своем веб-сайте, чтобы подтвердить, что вы являетесь его владельцем, а затем они отправят бота, чтобы узнать, разместили ли вы код на своем сайте.

Имейте в виду, что robots.txt работает как знак «Вход воспрещен». Он сообщает роботам, хотите ли вы, чтобы они сканировали ваш сайт или нет. Фактически он не блокирует доступ. Достопочтенные и законные боты будут соблюдать вашу директиву относительно того, могут они посещать или нет. Боты-мошенники могут просто игнорировать robots.txt.

Прочтите официальную позицию Google по файлу robots.txt.

Откуда берутся роботы.txt идти?

Файл robots.txt находится в корневой папке вашего документа.

Вы можете просто создать пустой файл и назвать его robots.txt . Это уменьшит количество ошибок сайта и позволит всем поисковым системам ранжировать все, что они хотят.

Блокировка роботов и поисковых систем от сканирования

Если вы хотите, чтобы запретил ботам посещать ваш сайт, а запретил поисковым системам ранжировать вас, используйте этот код:

# Код, запрещающий работу поисковых систем!
Пользовательский агент: *
Disallow: /

Вы также можете запретить роботам сканировать части вашего сайта, разрешив им сканировать другие разделы.В следующем примере поисковым системам и роботам предлагается не сканировать папку cgi-bin, папку tmp, папку нежелательной почты и все, что находится в этих папках на вашем веб-сайте.

# Блокирует роботов из определенных папок / каталогов
Пользовательский агент: *
Disallow: / cgi-bin /
Disallow: / tmp /
Disallow: / junk /

В приведенном выше примере http: // www.yoursitesdomain.com/junk/index.html будет одним из заблокированных URL-адресов, но http://www.yoursitesdomain.com/index.html и http://www.yoursitesdomain.com/someotherfolder/ можно будет сканировать.

Рекомендуемое содержимое справки

Как работают SEO-инструменты Just Host


Что такое SEO и чем оно может вам помочь


Часто задаваемые вопросы по Just Host SEO Tools


Соответствующее содержимое справки

Почему мой сайт не первый результат в Google или другой поисковой системе?


Эта статья покажет способ защиты определенных страниц вашего веб-сайта с помощью SSL.Это может иметь преимущества для SEO и может использоваться на страницах, содержащих формы, корзины покупок или на любой другой странице, где пользователи могут вводить конфиденциальную информацию.


Предотвращение спама Эти шаги помогут вам предотвратить публикацию спама пользователями и роботами в вашем блоге WordPress. На панели инструментов WordPress выберите «Настройки» на панели навигации слева.С G


Согласно ICANN, ваша контактная информация включена в запись домена в базе данных WHOIS. Требуемая информация включает ваше полное имя, почтовый адрес, адрес электронной почты и номер голосового телефона

.

Мой сайт WordPress работает медленно или кажется неработающим.


Как использовать Google AdWords?


Как настроить Dreamweaver 8 для FTP?


Как просмотреть информационную страницу php?

Статья базы знаний 156351 просмотр Теги: php phpinfo

Как использовать роботов.txt | Поддержка Bluehost



Для чего нужен файл роботов?

Когда поисковая система просматривает (посещает) ваш веб-сайт, первое, что она ищет, — это ваш файл robots.txt. Этот файл сообщает поисковым системам, что они должны и не должны индексировать (сохранять и делать общедоступными в качестве результатов поиска). Он также может указывать на расположение вашей XML-карты сайта. Затем поисковая система отправляет своего «бота», или «робота», или «паука» для сканирования вашего сайта, как указано в файле robots.txt (или не отправлять его, если вы сказали, что они не могут).

Бот Google называется Googlebot, а бот Microsoft Bing — Bingbot. Подобно Excite, Lycos, Alexa и Ask Jeeves, многие другие поисковые системы также имеют своих собственных ботов. Большинство ботов поступают из поисковых систем, хотя иногда другие сайты рассылают ботов по разным причинам. Например, некоторые сайты могут попросить вас разместить код на своем веб-сайте, чтобы подтвердить, что вы являетесь его владельцем, а затем они отправят бота, чтобы узнать, разместили ли вы код на своем сайте.

Имейте в виду, что robots.txt работает как знак «Вход воспрещен».Он сообщает роботам, хотите ли вы, чтобы они сканировали ваш сайт или нет. Фактически он не блокирует доступ. Достопочтенные и законные боты будут соблюдать вашу директиву относительно того, могут они посещать или нет. Боты-мошенники могут просто игнорировать robots.txt.

Для получения дополнительной информации ознакомьтесь с официальной позицией Google в отношении файла robots.txt.

Куда идет robots.txt?

Файл robots.txt находится в корневой папке вашего документа. Вы можете просто создать пустой файл и назвать его robots.txt . Это уменьшит количество ошибок сайта и позволит всем поисковым системам ранжировать все, что они хотят.

Блокировка сканирования роботов и поисковых систем

Если вы хотите, чтобы запретил ботам посещать ваш сайт, а запретил поисковым системам ранжировать вас, используйте этот код:

  # Код, запрещающий поисковые системы!
Пользовательский агент: *
Disallow: /  

Вы также можете запретить роботам сканировать части вашего сайта, разрешив им сканировать другие разделы.В следующем примере поисковым системам и роботам предлагается не сканировать папку cgi-bin, папку tmp и папку нежелательной почты, а также все, что находится в этих папках на вашем веб-сайте.

  # Блокирует роботов из определенных папок / каталогов
Пользовательский агент: *
Disallow: / cgi-bin /
Запретить: / tmp /
Disallow: / junk /  

В приведенном выше примере http://www.yoursitesdomain.com/junk/index.html будет одним из заблокированных URL-адресов, http://www.yoursitesdomain.com/index.html и http: // www.yoursitesdomain.com/someotherfolder/ можно будет сканировать.

Примечание: Этот файл robot.txt работает как знак « Вход запрещен, ». Он сообщает роботам, хотите ли вы, чтобы они сканировали ваш сайт или нет. Фактически он не блокирует доступ. Достопочтенные и законные боты будут соблюдать вашу директиву относительно того, могут они посещать или нет. Боты-мошенники могут просто игнорировать robots.txt. Как объясняется ниже, вы ДОЛЖНЫ использовать инструменты для веб-мастеров для Bingbot и Googlebot, поскольку они не уважают роботов.txt файл.

Google и сеть Bing

Вы можете создать учетные записи Google и Bing Network для веб-мастеров и настроить свои домены на меньшую задержку сканирования. Прочтите официальную позицию Google по файлу robots.txt. Вы ДОЛЖНЫ использовать инструменты Google для веб-мастеров, чтобы установить большинство параметров для GoogleBot.

Важное примечание: GoogleBot и сеть Bingbot НЕ поддерживают стандартные файлы robots.txt, и ограничение скорости сканирования этих ботов должно выполняться напрямую с помощью google / bing.

Мы по-прежнему рекомендуем настроить файл robots.txt. Это снизит скорость, с которой сканеры будут инициировать запросы к вашему сайту, и сократит ресурсы, требуемые от системы, что позволит обслуживать больше легитимного трафика.

Если вы хотите уменьшить трафик от поисковых роботов, таких как Яндекс или Baidu, обычно это нужно делать с помощью чего-то вроде блока .htaccess.

Для получения дополнительных сведений по этим темам перейдите по ссылкам, указанным ниже:

РОБОТОВ.TXT-файл — синтаксис, директивы и примеры | Общие | Справочный центр

Файл ROBOTS.TXT показывает поисковым системам, какие файлы в каталоге сайта можно индексировать, а какие ресурсы индексировать нельзя.

Файл использует синтаксис Robots Exclusion Standard , чтобы показать, какие файлы разрешено индексировать, а какие нет.

Поскольку связь между проиндексированными веб-страницами и трафиком посетителей очевидна, важность robots.txt в качестве инструмента настройки индексации имеет большое значение.

Небольшая ошибка в синтаксисе robots.txt может сделать многие полезные веб-страницы невидимыми в результатах поисковой системы, что приведет к таким негативным последствиям, как уменьшение трафика, продаж и популярности.

Различные роботы по-разному интерпретируют один и тот же синтаксис

Хотя уважаемые веб-роботы следуют директивам из файла robots.txt , каждый робот может интерпретировать директивы по-разному.Вам необходимо знать правильный синтаксис для обращения к различным веб-роботам, поскольку некоторые из них могут не понимать определенные инструкции.

Директивы в ROBOTS.TXT не имеют запрещенного действия

Не все роботы взаимодействуют со стандартом — роботы, ищущие адреса электронной почты, спамеров, вредоносное ПО, и роботы, сканирующие уязвимости в системе безопасности, могут даже целенаправленно сканировать те части веб-сайта, которые им запрещают сканировать.

Вы не должны использовать robots.txt как средство, чтобы скрыть свои веб-страницы от результатов поиска Google.Это связано с тем, что другие страницы могут содержать ссылки на страницу и индексироваться путем отслеживания ссылок, таким образом пропуская запрет в robots.txt .

Ни при каких обстоятельствах не следует рассматривать robots.txt как инструмент безопасности сайта по двум причинам:

  • Сам файл находится в свободном доступе, и любой может увидеть, какие ресурсы вы не хотите индексировать;
  • Как мы уже сказали, директивы в файле не являются обязательными;

Почему на каждом сайте должны быть РОБОТЫ.TXT-файлов?

Во-первых, наличие этого файла не имеет негативных последствий для сайта.

Создание самого файла и его содержимого — очень простая задача, как вы увидите позже.

Правильно настроенный файл robots.txt может помочь вам не превышать определенные ограничения плана хостинга, такие как ограничение ЦП и бесплатный трафик (например, в WordPress вы можете отключить ненужную индексацию административного каталога wp-admin и основных файлов в wp-включает каталог .

Куда положить файл ROBOTS.TXT?

Файл необходимо поместить в основную папку сайта. Если вы хотите защитить файл в подкаталоге, вам не нужно создавать новый robots.txt , но укажите полный путь к файлу в основном файле robots.txt :

Запретить: /sub-directory/file.html

Если робот не найдет robots.txt в корневой папке, он не будет следовать директивам других роботов .txt файлов, расположенных в подкаталогах.

Правильный синтаксис файла ROBOTS.TXT

Имя файла robots.txt чувствительно к регистру шрифтов (верхний / нижний регистр), и единственный правильный синтаксис — robots.txt (все другие варианты, такие как Robots.txt, robots.TXT, ROBOTS.TXT не правы).

Каждый домен / субдомен использует свой собственный файл robots.txt :

blog.example.com/robots.txt

пример.ru / robots.txt

robots.txt позволяет указать путь к файлу карты сайта .xml :

Карта сайта: http://www.example.com/directory/sitemap_index.xml

Как создать файл ROBOTS.TXT?

robots.txt — это простой текстовый файл. Вы можете создать его с помощью текстового редактора на своем компьютере и загрузить через FTP в основную папку на сайте.

В cPanel вы можете создать роботов.txt в файловом менеджере следующим образом:

Откройте диспетчер файлов и перейдите в основную папку сайта.

Щелкните ссылку + Файл в верхнем левом углу:

В маленьком окне введите имя файла robots.txt и нажмите кнопку Create New File :

Новый файл появится в списке каталогов:

Выберите файл и щелкните Редактировать в верхнем меню.

Введите код — убедитесь, что синтаксис правильный, и нажмите кнопку Сохранить изменения .

В браузере введите URL-адрес: http://example.com/robots.txt , чтобы увидеть содержимое файла.

Примеры использования файла ROBOTS.TXT

Все роботы могут индексировать все файлы, потому что подстановочный знак * означает все, а Запрещает без значения означает Не запрещено :

  Пользовательский агент: *
Disallow:  

Тот же результат может быть достигнут с пустыми или отсутствующими роботами .txt файл.

Все роботы исключены со всего сайта с помощью следующего кода:

  Пользовательский агент: *
Disallow: /  

Всем роботам запрещено посещать эти каталоги:

  Пользовательский агент: *
Disallow: / cgi-bin /
Запретить: / tmp /
Disallow: / junk /  

Всем роботам не разрешено индексировать этот файл:

  Пользовательский агент: *
Запретить: /directory/file.html  

Обратите внимание, что все остальные файлы в указанном каталоге будут обработаны.

Только указанный робот не может посещать сайт:

  Пользовательский агент: BadBot
Disallow: /  

Этим роботам не разрешено посещать указанный каталог:

  Пользовательский агент: BadBot
Пользовательский агент: Googlebot
Disallow: / private /  

Примечание : замените BadBot фактическим именем бота.

Как использовать комментарии — после символа # в начале строки или после директивы:

  User-agent: * # соответствует всем ботам
Запретить: / # держать их подальше  

Также можно перечислить некоторых роботов с их собственными правилами.

Пример с несколькими пользовательскими агентами:

  User-agent: googlebot # все сервисы Google
Disallow: / private / # отключает этот каталог

User-agent: googlebot-news # только служба новостей
Disallow: / # запрещает все

User-agent: * # каждый робот
Disallow: / something / # Отключить этот каталог  

Нестандартные расширения файла ROBOTS.TXT

Директива о задержке сканирования не является частью стандартного протокола и интерпретируется иначе, чем поисковые системы:

  Пользовательский агент: *
Задержка сканирования: 10  

Директива Allow полезна, когда кто-то приказывает роботам избегать просмотра всего каталога, но все же хочет, чтобы некоторые HTML-документы в этом каталоге сканировались и индексировались.

Чтобы быть совместимым со всеми роботами, если мы хотим разрешить отдельные файлы в другом каталоге, который не разрешен, нам сначала нужно установить Allow , а затем Disallow директивы, например:

  Разрешить: /directory1/myfile.html
Запретить: / directory1 /  

Карта сайта директива

Некоторые роботы поддерживают директиву Sitemap , определяя несколько файлов Sitemap в одном файле robots.txt в следующем формате:

  Карта сайта: http: // www.example.com/dir/sitemaps/profiles-sitemap.xml
Карта сайта: http://www.example.com/dir/sitemap_index.xml  

Хост директива

Некоторые роботы поддерживают директиву Host , позволяя нескольким зеркальным сайтам указывать свой предпочтительный домен:

Хост: example.com

или

Хост: www.example.com

Примечание : Директива Host поддерживается не всеми роботами, и ее следует вставлять внизу роботов .txt после директивы задержки сканирования .

.

Добавить комментарий

Ваш адрес email не будет опубликован.