Modx robots txt – начальная seo оптимизация сайта: правильный robots, настройка htaccess, установка счетчика яндекс метрики и др.

Правильный Robots.txt для MODx (2020) — как сделать?

Сайты на системе администрирования MODx встречаются не так часто, информацию по правильной настройке SEO для этой системы найти сложнее. В этой статье рассмотрим один из наиболее важных вопросов оптимизации сайта — составление правильного файла robots.txt. С одной стороны, размещение текстового файла в корне сайта является одной из самых простых задач оптимизации. С другой стороны, малейшая ошибка в файле роботс может привести к нехорошим последствиям вплоть до закрытия всего сайта от индексации и, следовательно, исчезновения его из поиска.

Более подробно о составлении robots.txt и значении всех его директив я писал здесь. Я не буду подробно останавливаться на значении каждого правила. Ограничусь тем, что кратко прокомментирую что для чего необходимо. Ниже представлены коды Robots, которые являются базовыми, универсальными для любого сайта на соответствующей версии MODx. В то же время, нужно понимать, что у каждого сайта существуют свои особенности, разработчик мог внести изменения в архитектуру папок сайта для своего удобства таким образом, что файл будет важно скорректировать. Поэтому лучше всего, если файл robots проверит и скорректирует специалист по SEO конкретно для вашего сайта.

Правильный Robots.txt для MODx

Команды подходят как для MODx Revolution, так и для MODx Evolution. В некоторых статьях попадалась информация с файлами robots, отличающимися для Revo и Evo. Однако основная причина отличий в файлах — разные источники и непонимание автора, что данные команды обозначают.

User-agent: *               # правила для всех роботов
Disallow: /cgi-bin          # папка на хостинге
Disallow: /manager/         # авторизация
Disallow: /assets/          # папка с системными файлами modx
Disallow: /core/            # папка с системными файлами modx
Disallow: /connectors/      # папка с системными файлами modx
Disallow: /index.php        # дубли страниц index.php
Disallow: *?*               # ссылки с параметрами
Disallow: *utm*=            # ссылки с utm-метками
Disallow: *openstat=        # ссылки с метками openstat
Disallow: *from=            # ссылки с метками from
Allow: /assets/*.jpg        # здесь и далее открываем для индексации изображения, файлы и скрипты
Allow: /assets/*.jpeg 
Allow: /assets/*.gif 
Allow: /assets/*.png 
Allow: /assets/*.pdf 
Allow: /assets/*.doc 
Allow: /assets/*.docx 
Allow: /assets/*.xls 
Allow: /assets/*.xlsx 
Allow: /assets/*.ppt 
Allow: /assets/*.pptx 
Allow: /assets/*.js 
Allow: /assets/*.css
Allow: *?page=              # открываем для индексации страницы пагинации (и проверьте, чтобы для них был настроен canonical)

# Укажите один или несколько файлов Sitemap
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap.xml.gz

# Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS 
# то пишем протокол, если нужно указать порт, указываем). Команда стала необязательной. Ранее Host понимал 
# Яндекс и Mail.RU. Теперь все основные поисковые системы команду Host не учитывают.
Host: www.site.ru

В примере я не добавляю правило Crawl-Delay, т.к. в большинстве случаев эта директива не нужна. Однако если у вас крупный нагруженный ресурс, то использование этой директивы поможет снизить нагрузку на сайт со стороны роботов Яндекса, Mail.Ru, Bing, Yahoo и других (Google не учитывает). Подробнее про это читайте в статье Robots.txt.

Оцените статью

Загрузка…

Друзья, буду благодарен за ваши вопросы, дополнения и рекомендации по теме статьи. Пишите ниже в комментариях.
Буду благодарен, если поставите оценку статье.

Правильный robots.txt для MODX Revo

robots.txt для MODXMODX Revo

Автор Алексей На чтение 2 мин. Опубликовано

Последнее изменение поста: 24 октября 2018 в 0:49

Сегодня мы составим правильный robots.txt для MODX Revo. Данный файл в первую очередь создается для того что бы закрыть дубли страниц от индексации в поисковых системах.

Как создать robots.txt для MODX Revo

Перед тем как начать вы должны включить ЧПУ MODX в настройках сайта.

robots.txt можно создать 2-мя способами:

Первый — прямо на компьютере при помощи блокнота создать текстовый документ с именем robots и расширением txt.

Второй — непосредственно в самом modx (создать документ — и в настройках выбрать тип содержимого txt)

Выбирайте любой способ, который больше нравится. Ну а теперь самое главное.

Правильный robots.txt для MODX Revo

User-agent: *

Disallow: /cgi-bin
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?

Allow: /core/cache/phpthumb/*.jpeg
Allow: /core/cache/phpthumb/*.png
Allow: /core/cache/phpthumb/*.svg

Host: сайт.ru
Sitemap: http://сайт.ru/sitemap.xml

Краткий разбор «роботс» для CMS MODX

Disallow — запрещает индексирование

Allow — разрешает индексирование

  • cgi-bin — данная папка есть практически на каждом хостинге и в ней зачастую хранятся файлы конфигураций
  • index.php — это дубль главной страницы сайта
  • с помощью *? мы удаляем дубли для всех страниц

С остальным думаю понятно, если нет то спрашивайте в комментариях и если есть предложения по модернизации robots.txt тоже указывайте в комментариях.

Создание и настройка robots.txt для MODX Revolution

Создание и настройка robots.txt для MODX Revolution

Создание и настройка robots.txt для MODX RevolutionПосле создания файла sitemap.xml самое время сказать поисковым роботам, где нужно и где не нужно искать на нашем сервере (в том числе тот же sitemap.xml). Создание файла robots.txt для этих нужд при использовании MODX Revolution, в целом, не сильно отличается от прочих случаев. Однако, мы можем упростить поисковым роботам жизнь, если учтём в robots.txt каталоги этой CMS.

Самый простой и универсальный способ создания файла robots.txt это создать его непосредственно на своём компьютере, а затем загрузить в корень сайта. Просто откройте текстовый редактор, создайте файл с именем robots и задайте ему расширение txt.

Другой способ создать robots.txt для MODX Revolution — создать его непосредственно из «админки». Сразу скажу, что «универсального» или «правильного» файла robots.txt не существует. Вы наполняете его в соответствии с вашими потребностями. Ниже я приведу пример такого файла и прокомментирую его содержимое.

User-agent: *

Disallow: /cgi-bin/
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?

Allow: /core/cache/phpthumb/*.jpeg
Allow: /core/cache/phpthumb/*.png
Allow: /core/cache/phpthumb/*.svg

Host: [URL-сайта]
Sitemap: [URL-сайта]/sitemap.xml

Первая строчка (User-agent: *) говорит нам о том, что настройки применяются ко всем поисковым роботам.

Строки, начинающиеся с Disallow, запрещают индексирование указанных каталогов. Какие каталоги мы закрыли?

cgi-bin — папка для CGI-скриптов, может содержать файлы конфигурации;

manager — каталог админ-панели MODX;

assets/components — каталог с дополнениями;

core — каталог ядра CMS;

connectors — каталог точек входа для AJAX-запросов;

index.php — дубль главной страницы сайта;

Ну а *? поможет избавиться от дублей страниц.

Отметим, что даже если вы не собираетесь ничего закрывать, оставьте в файле строку

Disallow:

Дело в том, что инструкция Disallow является обязательной в robots.txt, и без неё робот может «не понять» файл.

Строки, которые начинаются с Allow, открывают доступ к определенным частям сайта. На самом деле, поисковый робот сканирует всё, что не помечено Disallow, но что делать, если нужно открыть доступ к определенным файлам или подкаталогам в закрытом каталоге? Тогда и используется Allow. Так, хотя мы и закрыли доступ к папке core, но разрешаем сканирование изображений в /core/cache/phpthumb/.

Директива Host нужна для поискового робота Яндекса. Если вы используете протокол HTTPS, то URL сайта в этой строке нужно указать с ним. При использовании HTTP протокол указывать не нужно. Однако, в свете последних событий, использование директивы Host выглядит не обязательным.

Наконец, мы указываем поисковым работам точное расположение файла sitemap.xml.

После окончания редактирования положите файл robots.txt в корень сайта (обычно каталог public_html).

MODX Revolution. Создание файла robots.txt

Файл robots.txt запрещает (разрешает) индексирование и посещение поисковыми роботами файлов из указанных в нём директорий. Давайте создадим файл robots.txt для MODX Revo.

Войдите в панель администратора: ваш_домен/manager/

В левой части находим вкладку: Файлы → Filesystem. Правой кнопкой мыши нажимаем на Filesystem и выбираем Создать файл:

MODX Revolution. Создание файла robots.txt

В открывшемся окне в поле Имя файла необходимо прописать robots.txt, в поле Содержимое:

User-agent: *
Disallow: /cgi-bin
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?

Host: mysite.ru
Sitemap: http://mysite.ru/sitemap.xml

MODX Revolution. Создание файла robots.txt

Для понимания:

User-agent: * — для всех поисковых роботов;

Disallow: — закрыть для индексирования;

/cgi-bin — каталог, который содержит (или не содержит — пустой) серверные скрипты. Как правило, есть на всех хостингах;

/manager/, /assets/components/, /core/, /connectors/ — директории, которые поисковые роботы не будут индексировать;

/index.php — это дубль главной страницы сайта;

*? — удаляем дубли для всех страниц;

mysite.ru — поменяйте на ваш домен.

Сохраните файл и проверьте его по адресу: https://ваш_домен/robots.txt

MODX Revolution. Создание файла robots.txt

СВами

MODX Revolution. Настройка ЧПУ

MODX Revolution. Настройка файла .htaccess, ЧПУ и SEO

Яндекс, файл robots.txt и поисковая индексация сайта

Настройка правильных файлов robots.txt и .htaccess для MODX Revolution

Для удачного SEO продвижения веб-сайта на Modx Revolution необходимо правильно настроить файл robots.txt

и файл .htaccess.

Файл robots.txt для Modx — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере.
Файл .htaccess
— файл дополнительной конфигурации для веб-сервера Apache и ему подобных.

Настройка файлов:

Изначально необходимо сделать так, что бы все странички были без добавочных окончаний типа .html .php, а смотрелись к примеру вот так:

http://yotadom.com/index
http://yotadom.com/about

Контейнеры в свою очередь без слешей в конце, вот таким образом:

http://modx.cc/novosti

Для этого входим:

Система — Типы содержимого далее text/html и в text extensions стираем .html, сохраняем.

Далее:

Система→Настройки системы→Дружественные URL по фильтру и в Суффикс контейнера стираем слеш.

Настройка файла .htaccess для ModxRevo

В случае если движок расположен не в корневой директории, а в подпапке, то будет:

<IfModulemod_rewrite.c>
Options +FollowSymlinks
RewriteEngine On
RewriteBase /subdirectory/

Веб-сайт обязан располагать лишь одним именем с www или без www, раскоментируйте необходимые строки в корневом файле .htaccess

К примеру, если без www, то:

RewriteCond %{HTTP_HOST} .
RewriteCond %{ HTTP_HOST } !^example-domain-please-change\.com [NC]
RewriteRule (.*) http://www.example-domain-please-change.com/$1 [R=301,L]

Добавляем строчки для переадресации со странички со слешем в конце, для того что бы не 404 открывалась:

# Remove trailing slash
RewriteRule^(manager)/*$ — [L] # exclude manager folder
RewriteCond %{REQUEST_URI} (.*)/
RewriteRule ^(.*)/$ http://example.com/$1 [R=301,L]

В случае если в начале и конце странички 404 появляются каки-то символы, необходимо добавить в файл .htaccess еще строки:

SetEnv force-no-vary
SetEnv downgrade-1.0

В случае если есть сложности с кодировкой, то нужно добавить:

AddDefaultCharset utf8

ROBOTS.TXT

User-agent: *
Disallow: /assets/
Disallow: /connectors/
Disallow: /core/
Disallow: /manager/
Disallow: /?
Disallow: /*?id=
Host: modx.cc

MODx robots txt

Файл robots.txt содержит инструкции для поисковых роботов, которые указывают на структуру сайта и помогают им определить, какой контент необходимо проиндексировать, а какой должен быть закрыт от индексации.

Рекомендуется закрывать от индексации весь мусор на сайте и весь дублирующий контент, или контент который не представляет для пользователя никакого интереса. К примеру, я закрываю результаты поиска на сайте, по скольку это дублирующая информация, а также все системыне файлы движка.

Далее я предлагаю ознакомиться с корректным содержимым файла robots.txt:

User-agent: Yandex
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /assets/packages/
Disallow: /assets/tvs/
Disallow: /install/
Disallow: /manager/

User-agent: Google
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /assets/packages/
Disallow: /assets/tvs/
Disallow: /install/
Disallow: /manager/

User-agent: Mail.ru
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /assets/packages/
Disallow: /assets/tvs/
Disallow: /install/
Disallow: /manager/

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /assets/packages/
Disallow: /assets/tvs/
Disallow: /install/
Disallow: /manager/

Host: http://site.ru
Sitemap: http://site.ru/sitemap.xml

Я рекомендую указывать инструкции для каждого поисковика, который представляет для вас интерес по отдельности, а также для указать инструкцию для всех других поисковиков.

User-agent — указывает на поисковик, дял которого пишется инструкция.

Allow — разрешает индексацию.

Disallow — запрещает индексацию.

Host — указывает на основной хост.

Sitemap — указывает поисковику на xml карту сайта.


SEO MODX Revolution — доработка и настройка мета-теги

Здравствуйте уважаемые посетители Блога DP! 

Сегодня я поделюсь небольшими базовыми трюками для MODX SEO. Перед тем как создавать новый сайт на MODX Revo, рекомендую внести небольшие доработки, что бы в дальнейшем к ним не возвращаться человеку кто будет заниматься СЕО оптимизацией. Из статьи Вы узнаете о следующем:

  1. robots txt что это? И как применить в modx
  2. мета теги modx быстрая генерация
  3. настройка дополнений SEO Tab и SEO Pro
  4. modx sitemap

robots.txt для modx

Robots.txt — это простой текстовый файл. Файл регулирует параметры индексации сайта для роботов поисковых систем. Часто используется для запрета дублей и внутренних страниц, которые не должны попасть в поиск

Сделаем редактирование Robots.txt через админку MODX Revo следующим способом:

  1. Создайте новый шаблон и дайте ему произвольное название: 
    например Robots.txt а в поле «Код шаблона» вывести тег контента ресурса[[*content]]MODX REVO Robots txt
  2. Далее создайте новый документ (новую страницу) с названием robots — без расширения «.txt», в меню «Шаблон» выберите только что созданный шаблон с названием «Robots.txt»MODX REVO Robots txt
  3. Перейдите на вкладу «Настройки» и измените там «Тип содержимого» на «Text» далее снимите галочку с «Использовать HTML-редактор», нажмите сохранить. Чтобы полностью отключился HTML-редактор нужно обновить страницу документа.

    MODX REVO Robots txt
  4. В содержимое ресурса (новой страницы robots) вставьте базовое содержимое для Robots.txt Modx
    User-agent: *
    Disallow: /manager/
    Disallow: /assets/components
    Disallow: /core/
    Disallow: /connectors/
    Disallow: /index.php
    Disallow: /account*
    Disallow: *?
    Host: [[++site_url]]
    Sitemap: [[++site_url]]sitemap.xml

    site_url — подставляет автоматически текущий домен сайта. 

  5. Перейдите в «Системные настройки → Настройка форм» создайте новый профиль «Редактирование страниц»
     

     

    MODX REVO Robots txt
  6. Нажмите правой кнопкой на созданный профиль и выберите «Редактировать», в окне выберите Действие «Создать ресурс» Шаблон «Robots.txt» и сохраните

     

    MODX REVO Robots txt

     

  7. Снимите галочки напротив:

  • longtitle
  • description
  • introtext
  • link_attributes
  • menutitle

MODX REVO Robots txtВернемся на страницу robots и увидим, что там теперь нет ничего лишнего: MODX REVO Robots txt

Первичная настройка Роботс.тхт готова! В дальнейшем чтобы его настроить на рабочем сайте, нужно пользоваться Яндекс, Гугл Вебмастером, сканерами страниц, или сео сервисами, которые позволяют искать дубли и неправильные страницы массово, например: приложения Netpeak Spider, SEO Screaming Frog или сервис Serpstat. Любое другое приложение или сервис с такой функцией также подходит. Важно запретить индексацию некачественных страниц как можно раньше, все делается просто по примеру приведённому в статье. Если Вам сложно и есть желание сделать, пишите комментарий и я подскажу как настроить Роботс в Вашем проекте, на любом сайте не зависимо от CMS.

Мета теги Modx

В Modx уже заложен огромный потенциал для СЕО, но как это часто бывает, наполнением занимается контент-менеджер, офисный сотрудник, который имеет Гумонитарное образование и вообще не в курсе куда жать, и как правильно работать с сайтом на Modx. Я стараюсь интуитивно дорабатывать  стандартный интерфейс Modx. Давайте настроем понятные мета-теги для Modx Revo.

  1.  Следуйте Системные настройки → «Управление словарями» там отфильтруйте и выберите core → resource → ru MODX REVO SEO
  2. Измените/переименуйте значения (удобнее всего пользоваться поиском справа):

    resource_pagetitle = Заголовок h2
    resource_longtitle = Расширенный заголовок meta name=»Title»
    resource_description = meta name=»Description»
    resource_summary = meta name=»Keywords» — необязательно
     

  3. Переходим на страницу документа и видим, что стандартные описания изменились на более понятные, теперь нужно вставить в чанк head код который будет выводить нужные нам поля в качестве title и description, но чтобы все заработало, для начала нужно установить плагины.

Title [[*longtitle:empty=`[[*pagetitle]]`]] description [[*description:notempty=``]] keywords [[*introtext:notempty=``]]

Установка SEO Pro и SEO Tab


выберите приложения → установщик → загрузить дополнение → в поиск введите SEO и загрузите SEO Pro и SEO Tab → и установите
  MODX REVO SEO

Перейдите в Системные настройки → сделайте поиск по ключу «seopro» меняйте:

seopro.allowbranding → Нет 

(В последней версии нету 1.2. Удалит из кода ссылку на сайт разработчика модуля)

seopro.fields → pagetitle:70,longtitle:70,description:155,introtext:255,alias:2023,menutitle:2023

(Здесь мы добавили мета тег для ключевых слов,  данный тег Поисковыми Системами уже давно не учитывается — рекомендую оставлять пустым, но может кому то пригодится)

seopro.usesitename → Нет

(Отключаем автоматическую подстановку в Тайтл названия сайта, тем самым более точно учитываем кол-во символов)

 

MODX REVO Robots txtMODX REVO Robots txtMODX REVO Robots txt

Вы должны вручную создать ресурс в MODX

  1. Template: (пустой). Установите галку скрыть из меню.
  2. Перейдите на вкладку «Настройки» и установите тип содержимого: XML.
  3. Кеширование и Текстовый редактор снять галки.
  4. В поле «Содержимое» добавьте снипед вызова плагина SEOTab:
[[!StercSeoSiteMap]]

По умолчанию снипед делает вызов со следующими параметрами:

[[!StercSeoSiteMap? &contexts=`web` &allowSymlinks=`0` &outerTpl=`sitemap/outertpl` &rowTpl=`sitemap/rowtpl`]]

Snippet StercSeoSiteMap можно настроить используя свойства из таблицы, для простого сайта достаточно вызова по умолчанию и настраивать что-то дополнительно ненужно. 

Таблица свойств SiteMap.XmL:

Параметр

Значение по умолчанию

Описание

contexts

web

Один или несколько контекстов, разделение запятая.

allowSymlinks

0

Установите это значение 1, если вы хотите включить символические ссылки в свой файл Sitemap.

outerTpl

sitemap/outertpl

Можно изменить обертку чанка rowTpl (см. Ниже).

rowTpl

sitemap/rowtpl

Чанк вывода ресурса в карту сайта.

type

 

Укажите тип карты сайта, можно отдельно создать Sitemap сайта и Sitemap для картинок. Возможные значения: index/images.

indexOuterTpl

sitemap/index/outertpl

Обертка чанка карты индекса сайта

indexRowTpl

sitemap/index/rowtpl

Используется, чтобы изменить rowTpl, который повторяется для каждого файла Sitemap.

imagesOuterTpl

sitemap/images/outertpl

Используйте, чанк обертку Sitemap для изображений.

imagesRowTpl

sitemap/images/rowtpl

Чанк который повторяется для каждого ресурса, включен в Sitemap для изображений, может содержать несколько изображений.

imageTpl

sitemap/images/imagetpl

Изменить imageTpl, который повторяется для каждого включеного ресурса с картинками

templates

 

Укажите список идентификаторов шаблона с разделителями-запятыми для создания шаблона для сайта. Чтобы исключить шаблоны из файла Sitemap ставьте минус перед id «-«. Пример: &templates=-1,2,3

Если Вам нужна SEO оптимизация картинок — это можно сделать здесь ↓ ↓ ↓

SEO оптимизация картинок

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *