Bitrix robots txt: Карта сайта

Правильный robots.txt 1C Битрикс — Тюнинг-Софт

Пример правильного и оптимального robots.txt для 1С Битрикс, с учетом параметров, css, js, постраничной навигации и т.д.

User-Agent: *
Disallow: /*nav-*
Disallow: /bitrix/
Disallow: /upload/
Disallow: /local/
Disallow: /search/
Disallow: /compare/
Disallow: /personal/
Disallow: /rss/
Disallow: /auth/
Disallow: /login/
Disallow: /webstat/
Disallow: /desktop_app/
Disallow: /ajax/
Disallow: /test/
Disallow: /404.php
Disallow: /*index*.php$
Disallow: */index.php
Disallow: /*?*
Allow: /bitrix/components/
Allow: /bitrix/templates/
Allow: /local/components/
Allow: /local/templates/
Allow: /bitrix/cache/
Allow: /bitrix/css/
Allow: /bitrix/js/
Allow: /bitrix/images/
Allow: /bitrix/panel/
Allow: /upload/iblock/
Allow: /upload/medialibrary/
Allow: /upload/resize_cache/main/
Allow: /upload/resize_cache/iblock/
Allow: /upload/resize_cache/medialibrary/
Allow: /*?question=*
Allow: /*?review_id=*
Allow: /*. css
Allow: /*.js
Host: https://tuning-soft.ru

Sitemap: https://tuning-soft.ru/sitemap.xml

Подробный разбор правил robots.txt

Это означает, что данные правила применяются ко всем поисковым роботам.

User-Agent: *

Запрещает индексировать новую постраничную навигацию D7.

Disallow: /*nav-*

Данный набор правил запрещает индексировать всякие служебные папки движка, админку, загрузки, модули, результаты поиска, сравнение, персональный раздел, авторизацию, статистику хоста, десктопное приложение, аяксы, тестовые разделы, ошибку 404, т.е. всякий ненужный в результатах поиска мусор.

Disallow: /bitrix/
Disallow: /upload/
Disallow: /local/
Disallow: /search/
Disallow: /compare/
Disallow: /personal/
Disallow: /rss/
Disallow: /auth/
Disallow: /login/
Disallow: /webstat/
Disallow: /desktop_app/
Disallow: /ajax/
Disallow: /test/
Disallow: /404. php

Запрещает индексировать дубли страниц index.php, index1.php, index2.php и т.д.

Disallow: /*index*.php$
Disallow: */index.php

Запрещает индексировать по умолчанию все параметры типа: ?PAGEN_1, ?sort=asc&order=desc

Disallow: /*?*

Разрешаем индексировать в публичной, доступной всем части сайта: компоненты, шаблоны, изображения, кэш, css, js и т.д.

Тут обратите внимание, выше папки /bitrix/ + /local/ полностью запрещено индексировать, но правилами ниже по коду можно переопределять или дополнять разрешения, т.к. в них есть как служебные, так и публичные данные, необходимые и поисковиками и пользователям.

Allow: /bitrix/components/
Allow: /bitrix/templates/
Allow: /local/components/
Allow: /local/templates/
Allow: /bitrix/cache/
Allow: /bitrix/css/
Allow: /bitrix/js/
Allow: /bitrix/images/
Allow: /bitrix/panel/

Здесь аналогично, выше папка /upload/ полностью запрещена для индексации, а ниже по коду открываем для робота отдельные, необходимые папки, это изображения главного модуля, модуля инфоблоки, медиабиблиотека и динамический ресайз превьюшек.

Allow: /upload/iblock/
Allow: /upload/medialibrary/
Allow: /upload/resize_cache/main/
Allow: /upload/resize_cache/iblock/
Allow: /upload/resize_cache/medialibrary/

Данные параметры вопросов и отзывов относятся к моим решениям, они лишь для примера, в каком месте нужно добавлять параметры для индексации своего проекта, их лучше удалить.

Обратите внимание, выше мы закрывали все параметры директивой Disallow: /*?* в этом месте добавляйте только необходимые параметры, которые должны быть разрешены для индексации, все остальные параметры необходимо закрывать, это все мусор, который замедляет индексацию, лишние итерации поисковика и нагрузка на сайт, вплоть до падения сервера.

Allow: /*?question=*
Allow: /*?review_id=*

Это разрешает индексировать все публичные css и js, это важно при проверке проекта на Удобство просмотра на мобильных устройствах или в Google PageSpeed Insights может всплыть закрытый стиль, из-за которого у проекта могут быть проблемы.

Allow: /*.css
Allow: /*.js

Здесь указываем хост проекта, для https именно так, с указанием протокола.

Host: https://tuning-soft.ru

Здесь указываем путь к карте сайта проекта, обратите внимание, нужно отступить одну строку.


Sitemap: https://tuning-soft.ru/sitemap.xml

Постраничная навигация/пагинация

Очень спорный момент, вы часто можете встретить правила типа:

Disallow: /*nav-*
Disallow: /*?PAGEN
Disallow: /*PAGEN_1=
Disallow: /*SHOWALL

Данные правила запрещают индексировать постраничку, это правильно, но если у сайта есть карта sitemap.xml, если карты сайта нет, то постраничка должна быть открыта для индексирования, иначе робот может не найти другие страницы, что в постраничке окажутся на 2-й и далее страницах, а при наличии карты сайта все будет проиндексировано.

Порядок в коде

Еще хочу сказать, как например мне удобно ориентироваться в карте и копировать ее из проекта в проект, ежегодно что-то добавлять в нужное место, не копаясь в сотнях строк непонятных правил.

1-й пример, все запрещающие правила для проекта я добавляю выше строки Disallow: /bitrix/

User-Agent: *
Disallow: /shop/*&amp*
Disallow: /shop/*nav-*
Disallow: /demo/
Disallow: /inc/
Disallow: /yenisite.resizer2/
Disallow: /bitrix/

2-й пример: все разрешающие правила для параметров проекта я добавляю внизу перед Allow: /*.css

Allow: /*?question=*
Allow: /*?review_id=*
Allow: /*.css
Allow: /*.js

Два параметра для вопросов и отзывов у себя можете удалить, две строчки, я пока еще с ними экспериментирую, их и не так много, парочка параметров обычно максимум набирается.

Советы

Все закрытые, системные, административные скрипты и папки закрывайте формой входа на сайт, правила в файле robots.txt все равно не запрещают роботу ходить по сайту и сканировать все что доступно по ссылке, просканирует и загрузит в базу вообще все, хоть всю админку, а в результатах поиска будет показывать что в

robots. txt разрешено показывать, но может и всплыть когда-нибудь дамп вашей базы или файл сброса пароля админа ✌😊

Закрывайте от индексации все порты на сервере, все ссылки, которыми мы в Яндекс.Почте обмениваемся, индексируются поисковиком, стоило один раз скинуть клиенту лично на почту ссылку с портом, как через неделю весь сайт на порту был проиндексирован, а исходный сайт был исключен из результатов поиска, как дубль.

GOOGLE & robots.txt для 1С-Битрикс / likes 3 / блог студии Клондайк!

В течении этой недели многие web-мастера получили от Google письма и сообщения следующего содержания (см. рис. 1, рис. 2).

Рис. 1.

Рис. 2.

Мы уже писали о том что Google начал оценивать удобство пользования сайтом на мобильных устройствах и предоставили один из инструментов оптимизации. Для оценки удобства просмотра сайта на мобильном устройстве роботу Google нужны JS и CSS файлы влияющие на отображение страницы, а из-за настроек robots. txt он не может этого сделать.

Дело в том что в стандартных настройках robots.txt для 1С-Битрикс закрывается директория /bitrix/, а в ней хранится кеш JS и CSS файлов!

Сам 1С-Битрикс в одной из статей на habrahabr приводит пример дополнительных настроек robots.txt.

1C-Битрикс советует открыть пять разделов:

Allow: /bitrix/cache/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/components/
Allow: /bitrix/panel/

Но при соблюдении современных стандартов разработки эти правила избыточны, на своих проектах мы используем следующий стандарт дополнительных настроек файла robots.txt для Google.

Резонный вопрос — «Почему не подходит вариант от самого 1С-Битрикс?»

Пройдемся по каждой строчке.

  1. «Allow: /bitrix/cache/» — открывается доступ ко всему кешу, но помимо JS и CSS там хранится уйма *.php файлов с кешем и индексировать их не нужно.
  2. «Allow: /bitrix/js/» — открывается доступ к JS базовой поставки БУС, но JS используемый в публичной части будет закеширован и сменит прописку на — /bitrix/cache/js/.
  3. «Allow: /bitrix/templates/» — открывается доступ к шаблонам сайта, но это OLD_SCHOOL, уже 2 с лишним года доступна папка /local/ в которой находится весь custom разработчика, в том числе шаблоны сайтов, компоненты, CSS, JS и прочие файлы. Этой директивой можно воспользоваться на древних проектах, собранных без использования /local/.
  4. «Allow: /bitrix/components/» — открывается доступ к компонентам, во первых есть /local/, во вторых если в компоненте подключается CSS, то он кешируется, подключается к общей CSS таблице и хранится тут — /bitrix/cache/css/, со скриптами аналогично.
  5. «Allow: /bitrix/panel/» — открывается доступ к файлам панели управления. Тут совсем ничего не понятно, кто-то будет давать Google индексировать интерфейс Эрмитаж? =)

Из всего вышеперечисленного делаем вывод что предложенный 1С-Битрикс’ом вариант не подходит, для себя мы оставили только следующее:

Allow: /bitrix/cache/js/
Allow: /bitrix/cache/css/

К сожалению в автоматически генерируемом robots.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *