Правильный Robots.txt для MODx (2020) — как сделать?
Сайты на системе администрирования MODx встречаются не так часто, информацию по правильной настройке SEO для этой системы найти сложнее. В этой статье рассмотрим один из наиболее важных вопросов оптимизации сайта — составление правильного файла robots.txt. С одной стороны, размещение текстового файла в корне сайта является одной из самых простых задач оптимизации. С другой стороны, малейшая ошибка в файле роботс может привести к нехорошим последствиям вплоть до закрытия всего сайта от индексации и, следовательно, исчезновения его из поиска.
Более подробно о составлении robots.txt и значении всех его директив я писал здесь. Я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо. Ниже представлены коды Robots, которые являются базовыми, универсальными для любого сайта на соответствующей версии MODx. В то же время, нужно понимать, что у каждого сайта существуют свои особенности, разработчик мог внести изменения в архитектуру папок сайта для своего удобства таким образом, что файл будет важно скорректировать. Поэтому лучше всего, если файл robots проверит и скорректирует специалист по SEO конкретно для вашего сайта.
Правильный Robots.txt для MODx
Команды подходят как для MODx Revolution, так и для MODx Evolution. В некоторых статьях попадалась информация с файлами robots, отличающимися для Revo и Evo. Однако основная причина отличий в файлах — разные источники и непонимание автора, что данные команды обозначают.
User-agent: * # правила для всех роботов Disallow: /cgi-bin # папка на хостинге Disallow: /manager/ # авторизация Disallow: /assets/ # папка с системными файлами modx Disallow: /core/ # папка с системными файлами modx Disallow: /connectors/ # папка с системными файлами modx Disallow: /index.php # дубли страниц index.php Disallow: *?* # ссылки с параметрами Disallow: *utm*= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Disallow: *from= # ссылки с метками from Allow: /assets/*.jpg # здесь и далее открываем для индексации изображения, файлы и скрипты Allow: /assets/*.jpeg Allow: /assets/*.gif Allow: /assets/*.png Allow: /assets/*.pdf Allow: /assets/*.doc Allow: /assets/*.docx Allow: /assets/*.xls Allow: /assets/*.xlsx Allow: /assets/*.ppt Allow: /assets/*.pptx Allow: /assets/*.js Allow: /assets/*.css Allow: *?page= # открываем для индексации страницы пагинации (и проверьте, чтобы для них был настроен canonical) # Укажите один или несколько файлов Sitemap Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал # Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают. Host: www.site.ru
В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.
Оцените статью
Загрузка…Друзья, буду благодарен за ваши вопросы, дополнения и рекомендации по теме статьи. Пишите ниже в комментариях.
Буду благодарен, если поставите оценку статье.
Правильный robots.txt для MODX Revo
MODX RevoАвтор Алексей На чтение 2 мин. Опубликовано
Последнее изменение поста: 24 октября 2018 в 0:49
Сегодня мы составим правильный robots.txt для MODX Revo. Данный файл в первую очередь создается для того что бы закрыть дубли страниц от индексации в поисковых системах.
Как создать robots.txt для MODX Revo
Перед тем как начать вы должны включить ЧПУ MODX в настройках сайта.
robots.txt можно создать 2-мя способами:
Первый — прямо на компьютере при помощи блокнота создать текстовый документ с именем robots и расширением txt.
Второй — непосредственно в самом modx (создать документ — и в настройках выбрать тип содержимого txt)
Выбирайте любой способ, который больше нравится. Ну а теперь самое главное.
Правильный robots.txt для MODX Revo
User-agent: * Disallow: /cgi-bin Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Allow: /core/cache/phpthumb/*.jpeg Allow: /core/cache/phpthumb/*.png Allow: /core/cache/phpthumb/*.svg Host: сайт.ru Sitemap: http://сайт.ru/sitemap.xml
Краткий разбор «роботс» для CMS MODX
Disallow — запрещает индексирование
Allow — разрешает индексирование
- cgi-bin — данная папка есть практически на каждом хостинге и в ней зачастую хранятся файлы конфигураций
- index.php — это дубль главной страницы сайта
- с помощью *? мы удаляем дубли для всех страниц
С остальным думаю понятно, если нет то спрашивайте в комментариях и если есть предложения по модернизации robots.txt тоже указывайте в комментариях.
Создание и настройка robots.txt для MODX Revolution
Самый простой и универсальный способ создания файла robots.txt это создать его непосредственно на своём компьютере, а затем загрузить в корень сайта. Просто откройте текстовый редактор, создайте файл с именем robots и задайте ему расширение txt.
Другой способ создать robots.txt для MODX Revolution — создать его непосредственно из «админки». Сразу скажу, что «универсального» или «правильного» файла robots.txt не существует. Вы наполняете его в соответствии с вашими потребностями. Ниже я приведу пример такого файла и прокомментирую его содержимое.
User-agent: * Disallow: /cgi-bin/ Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Allow: /core/cache/phpthumb/*.jpeg Allow: /core/cache/phpthumb/*.png Allow: /core/cache/phpthumb/*.svg Host: [URL-сайта] Sitemap: [URL-сайта]/sitemap.xml
Первая строчка (User-agent: *) говорит нам о том, что настройки применяются ко всем поисковым роботам.
Строки, начинающиеся с Disallow, запрещают индексирование указанных каталогов. Какие каталоги мы закрыли?
cgi-bin — папка для CGI-скриптов, может содержать файлы конфигурации;
manager — каталог админ-панели MODX;
assets/components — каталог с дополнениями;
core — каталог ядра CMS;
connectors — каталог точек входа для AJAX-запросов;
index.php — дубль главной страницы сайта;
Ну а *? поможет избавиться от дублей страниц.
Отметим, что даже если вы не собираетесь ничего закрывать, оставьте в файле строку
Disallow:
Дело в том, что инструкция Disallow является обязательной в robots.txt, и без неё робот может «не понять» файл.
Строки, которые начинаются с Allow, открывают доступ к определенным частям сайта. На самом деле, поисковый робот сканирует всё, что не помечено Disallow, но что делать, если нужно открыть доступ к определенным файлам или подкаталогам в закрытом каталоге? Тогда и используется Allow. Так, хотя мы и закрыли доступ к папке core, но разрешаем сканирование изображений в /core/cache/phpthumb/.
Директива Host нужна для поискового робота Яндекса. Если вы используете протокол HTTPS, то URL сайта в этой строке нужно указать с ним. При использовании HTTP протокол указывать не нужно. Однако, в свете последних событий, использование директивы Host выглядит не обязательным.
Наконец, мы указываем поисковым работам точное расположение файла sitemap.xml.
После окончания редактирования положите файл robots.txt в корень сайта (обычно каталог public_html).
MODX Revolution. Создание файла robots.txt
Файл robots.txt запрещает (разрешает) индексирование и посещение поисковыми роботами файлов из указанных в нём директорий. Давайте создадим файл robots.txt для MODX Revo.
Войдите в панель администратора: ваш_домен/manager/
В левой части находим вкладку: Файлы → Filesystem. Правой кнопкой мыши нажимаем на Filesystem и выбираем Создать файл:
В открывшемся окне в поле Имя файла необходимо прописать robots.txt, в поле Содержимое:
User-agent: * Disallow: /cgi-bin Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Host: mysite.ru Sitemap: http://mysite.ru/sitemap.xml
Для понимания:
User-agent: * — для всех поисковых роботов;
Disallow: — закрыть для индексирования;
/cgi-bin — каталог, который содержит (или не содержит — пустой) серверные скрипты. Как правило, есть на всех хостингах;
/manager/, /assets/components/, /core/, /connectors/ — директории, которые поисковые роботы не будут индексировать;/index.php — это дубль главной страницы сайта;
*? — удаляем дубли для всех страниц;
mysite.ru — поменяйте на ваш домен.
Сохраните файл и проверьте его по адресу: https://ваш_домен/robots.txt
СВами
MODX Revolution. Настройка ЧПУ
MODX Revolution. Настройка файла .htaccess, ЧПУ и SEO
Яндекс, файл robots.txt и поисковая индексация сайта
Настройка правильных файлов robots.txt и .htaccess для MODX Revolution
Для удачного SEO продвижения веб-сайта на Modx Revolution необходимо правильно настроить файл robots.txt
Файл robots.txt для Modx — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере.
Файл .htaccess — файл дополнительной конфигурации для веб-сервера Apache и ему подобных.
Настройка файлов:
Изначально необходимо сделать так, что бы все странички были без добавочных окончаний типа .html .php, а смотрелись к примеру вот так:
http://yotadom.com/index
http://yotadom.com/about
Контейнеры в свою очередь без слешей в конце, вот таким образом:
http://modx.cc/novosti
Для этого входим:
Система — Типы содержимого далее text/html и в text extensions стираем .html, сохраняем.
Далее:
Система→Настройки системы→Дружественные URL по фильтру и в Суффикс контейнера стираем слеш.
Настройка файла .htaccess для ModxRevo
В случае если движок расположен не в корневой директории, а в подпапке, то будет:
<IfModulemod_rewrite.c> Options +FollowSymlinks RewriteEngine On RewriteBase /subdirectory/
Веб-сайт обязан располагать лишь одним именем с www или без www, раскоментируйте необходимые строки в корневом файле .htaccess
К примеру, если без www, то:
RewriteCond %{HTTP_HOST} . RewriteCond %{ HTTP_HOST } !^example-domain-please-change\.com [NC] RewriteRule (.*) http://www.example-domain-please-change.com/$1 [R=301,L]
Добавляем строчки для переадресации со странички со слешем в конце, для того что бы не 404 открывалась:
# Remove trailing slash RewriteRule^(manager)/*$ — [L] # exclude manager folder RewriteCond %{REQUEST_URI} (.*)/ RewriteRule ^(.*)/$ http://example.com/$1 [R=301,L]
В случае если в начале и конце странички 404 появляются каки-то символы, необходимо добавить в файл .htaccess еще строки:
SetEnv force-no-vary SetEnv downgrade-1.0
В случае если есть сложности с кодировкой, то нужно добавить:
AddDefaultCharset utf8
ROBOTS.TXT
User-agent: * Disallow: /assets/ Disallow: /connectors/ Disallow: /core/ Disallow: /manager/ Disallow: /? Disallow: /*?id= Host: modx.cc
MODx robots txt
Файл robots.txt содержит инструкции для поисковых роботов, которые указывают на структуру сайта и помогают им определить, какой контент необходимо проиндексировать, а какой должен быть закрыт от индексации.
Рекомендуется закрывать от индексации весь мусор на сайте и весь дублирующий контент, или контент который не представляет для пользователя никакого интереса. К примеру, я закрываю результаты поиска на сайте, по скольку это дублирующая информация, а также все системыне файлы движка.
Далее я предлагаю ознакомиться с корректным содержимым файла robots.txt:
User-agent: Yandex
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /assets/packages/
Disallow: /assets/tvs/
Disallow: /install/
Disallow: /manager/
User-agent: Google
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /assets/packages/
Disallow: /assets/tvs/
Disallow: /install/
Disallow: /manager/
User-agent: Mail.ru
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /assets/packages/
Disallow: /assets/tvs/
Disallow: /install/
Disallow: /manager/
User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /assets/packages/
Disallow: /assets/tvs/
Disallow: /install/
Disallow: /manager/
Host: http://site.ru
Sitemap: http://site.ru/sitemap.xml
Я рекомендую указывать инструкции для каждого поисковика, который представляет для вас интерес по отдельности, а также для указать инструкцию для всех других поисковиков.
User-agent — указывает на поисковик, дял которого пишется инструкция.
Allow — разрешает индексацию.
Disallow — запрещает индексацию.
Host — указывает на основной хост.
Sitemap — указывает поисковику на xml карту сайта.
SEO MODX Revolution — доработка и настройка мета-теги
Здравствуйте уважаемые посетители Блога DP!
Сегодня я поделюсь небольшими базовыми трюками для MODX SEO. Перед тем как создавать новый сайт на MODX Revo, рекомендую внести небольшие доработки, что бы в дальнейшем к ним не возвращаться человеку кто будет заниматься СЕО оптимизацией. Из статьи Вы узнаете о следующем:
- robots txt что это? И как применить в modx
- мета теги modx быстрая генерация
- настройка дополнений SEO Tab и SEO Pro
- modx sitemap
robots.txt для modx
Robots.txt — это простой текстовый файл. Файл регулирует параметры индексации сайта для роботов поисковых систем. Часто используется для запрета дублей и внутренних страниц, которые не должны попасть в поиск
Сделаем редактирование Robots.txt через админку MODX Revo следующим способом:
- Создайте новый шаблон и дайте ему произвольное название:
напримерRobots.txt
а в поле «Код шаблона» вывести тег контента ресурса[[*content]]
- Далее создайте новый документ (новую страницу) с названием robots — без расширения «.txt», в меню «Шаблон» выберите только что созданный шаблон с названием «Robots.txt»
Перейдите на вкладу «Настройки» и измените там «Тип содержимого» на «Text» далее снимите галочку с «Использовать HTML-редактор», нажмите сохранить. Чтобы полностью отключился HTML-редактор нужно обновить страницу документа.
- В содержимое ресурса (новой страницы robots) вставьте базовое содержимое для Robots.txt Modx
User-agent: * Disallow: /manager/ Disallow: /assets/components Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: /account* Disallow: *? Host: [[++site_url]] Sitemap: [[++site_url]]sitemap.xml
site_url — подставляет автоматически текущий домен сайта.
Перейдите в «Системные настройки → Настройка форм» создайте новый профиль «Редактирование страниц»
Нажмите правой кнопкой на созданный профиль и выберите «Редактировать», в окне выберите Действие «Создать ресурс» Шаблон «Robots.txt» и сохраните
Снимите галочки напротив:
- longtitle
- description
- introtext
- link_attributes
- menutitle
Вернемся на страницу robots и увидим, что там теперь нет ничего лишнего:
Первичная настройка Роботс.тхт готова! В дальнейшем чтобы его настроить на рабочем сайте, нужно пользоваться Яндекс, Гугл Вебмастером, сканерами страниц, или сео сервисами, которые позволяют искать дубли и неправильные страницы массово, например: приложения Netpeak Spider, SEO Screaming Frog или сервис Serpstat. Любое другое приложение или сервис с такой функцией также подходит. Важно запретить индексацию некачественных страниц как можно раньше, все делается просто по примеру приведённому в статье. Если Вам сложно и есть желание сделать, пишите комментарий и я подскажу как настроить Роботс в Вашем проекте, на любом сайте не зависимо от CMS.
Мета теги Modx
В Modx уже заложен огромный потенциал для СЕО, но как это часто бывает, наполнением занимается контент-менеджер, офисный сотрудник, который имеет Гумонитарное образование и вообще не в курсе куда жать, и как правильно работать с сайтом на Modx. Я стараюсь интуитивно дорабатывать стандартный интерфейс Modx. Давайте настроем понятные мета-теги для Modx Revo.
- Следуйте Системные настройки → «Управление словарями» там отфильтруйте и выберите core → resource → ru
- Измените/переименуйте значения (удобнее всего пользоваться поиском справа):
resource_pagetitle = Заголовок h2
resource_longtitle = Расширенный заголовок meta name=»Title»
resource_description = meta name=»Description»
resource_summary = meta name=»Keywords» — необязательно
- Переходим на страницу документа и видим, что стандартные описания изменились на более понятные, теперь нужно вставить в чанк head код который будет выводить нужные нам поля в качестве title и description, но чтобы все заработало, для начала нужно установить плагины.
Title [[*longtitle:empty=`[[*pagetitle]]`]]
description [[*description:notempty=``]]
keywords [[*introtext:notempty=``]]
Установка SEO Pro и SEO Tab
выберите приложения → установщик → загрузить дополнение → в поиск введите SEO и загрузите SEO Pro и SEO Tab → и установите
Перейдите в Системные настройки → сделайте поиск по ключу «seopro» меняйте:
seopro.allowbranding → Нет
(В последней версии нету 1.2. Удалит из кода ссылку на сайт разработчика модуля)
seopro.fields → pagetitle:70,longtitle:70,description:155,introtext:255,alias:2023,menutitle:2023
(Здесь мы добавили мета тег для ключевых слов, данный тег Поисковыми Системами уже давно не учитывается — рекомендую оставлять пустым, но может кому то пригодится)
seopro.usesitename → Нет
(Отключаем автоматическую подстановку в Тайтл названия сайта, тем самым более точно учитываем кол-во символов)
Вы должны вручную создать ресурс в MODX
- Template: (пустой). Установите галку скрыть из меню.
- Перейдите на вкладку «Настройки» и установите тип содержимого: XML.
- Кеширование и Текстовый редактор снять галки.
- В поле «Содержимое» добавьте снипед вызова плагина SEOTab:
[[!StercSeoSiteMap]]
По умолчанию снипед делает вызов со следующими параметрами:
[[!StercSeoSiteMap? &contexts=`web` &allowSymlinks=`0` &outerTpl=`sitemap/outertpl` &rowTpl=`sitemap/rowtpl`]]
Snippet StercSeoSiteMap
можно настроить используя свойства из таблицы, для простого сайта достаточно вызова по умолчанию и настраивать что-то дополнительно ненужно.
Таблица свойств SiteMap.XmL
:
Параметр | Значение по умолчанию | Описание |
contexts | web | Один или несколько контекстов, разделение запятая. |
allowSymlinks | 0 | Установите это значение 1, если вы хотите включить символические ссылки в свой файл Sitemap. |
outerTpl | sitemap/outertpl | Можно изменить обертку чанка rowTpl (см. Ниже). |
rowTpl | sitemap/rowtpl | Чанк вывода ресурса в карту сайта. |
type | Укажите тип карты сайта, можно отдельно создать Sitemap сайта и Sitemap для картинок. Возможные значения: index/images. | |
indexOuterTpl | sitemap/index/outertpl | Обертка чанка карты индекса сайта |
indexRowTpl | sitemap/index/rowtpl | Используется, чтобы изменить rowTpl, который повторяется для каждого файла Sitemap. |
imagesOuterTpl | sitemap/images/outertpl | Используйте, чанк обертку Sitemap для изображений. |
imagesRowTpl | sitemap/images/rowtpl | Чанк который повторяется для каждого ресурса, включен в Sitemap для изображений, может содержать несколько изображений. |
imageTpl | sitemap/images/imagetpl | Изменить imageTpl, который повторяется для каждого включеного ресурса с картинками |
templates | Укажите список идентификаторов шаблона с разделителями-запятыми для создания шаблона для сайта. Чтобы исключить шаблоны из файла Sitemap ставьте минус перед id «-«. Пример: &templates=-1,2,3 |