Robots.txt как создать и правильно настроить: полная инструкция
Robots_txt – отдельный особенного назначения файл, применяющийся для регулировки индексации ресурса современными поисковиками. Он обязательно должен находиться в корневом каталоге собственного сайта. Этот файл всегда содержит разнообразные разделы, где имеются и директивы. Они предназначаются для закрытия, а также открытия доступа к страничкам и раздела ресурса индексирующим ботам.
Одновременно с этим, роботы поисковиков применяют отдельные разнообразные алгоритмы, касающиеся процессов обработки этой разновидности файла. Они могут в значительной степени отличаться, как говорится, друг от друга. Совершенно никакие настройки в этом файле не могут воздействовать на обработку ссылок, присутствующих на страницах ресурса с остальных сайтов.
Функции файла: какие они?
Главная функция этой разновидности файла заключается в размещении обозначений для индексации самыми разнообразными поисковыми роботами. Главные директивы – это:
- Allow – допускает индексацию конкретного раздела или отдельного файла.
- Disallow – обозначает запрет индексации.
- User-agent. Это вариант предназначается для определения того, к каким конкретно поисковым роботам стоит отнести те или другие запрещающие, а также разрешающие директивы.
В обязательном порядке, необходимо помнить о том, что сами инструкции этого файла носят именно рекомендательный характер. Все это обозначает то, что они в разнообразных ситуациях могут быть прогнозированы и самими поисковыми роботами.
Чтобы установить запрет на индексацию для такого главного робота ПС, как Яндекс, к примеру, только в такой директории, как /private/, рекомендовано указание в файле последующей фразы: Disallow: /private/.
Где размещается, и как создается файл?
Файл этого вида всегда должен обладать таким расширением, как txt. В результате того, как он будет создан, производится закачивание в корневой катало ресурса с применением любой разновидности FTP-клиента. В обязательном порядке дополнительно рекомендована проверка наличия или доступности этого файла. Адрес для осуществления проверки следующий: site.com/robots.txt. В ситуации, когда перейти по этому самому адресу, ресурс в браузере должен отображаться в полноценно объеме.
Какие существуют требования к этому файлу?
Каждый профессиональный вебмастер в этой ситуации, при любых обстоятельствах должен осознавать, что отсутствие этого файла в соответствующем корневом каталоге самого сайта, а также его некорректная настройка представляются под видом потенциальной угрозы для последующей посещаемости ресурса. В результате всего этого, портал может быть и просто недоступен в поиске.
Согласно существующим на сегодняшний день стандартам, в этом самом файле запрещается применение кириллических символов. В связи с этим, для правильной работы с подобной разновидностью доменами, рекомендовано использование Punycode. Одновременно с этим, кодировка адресов страничек в обязательном порядке должна отвечать кодировке использующейся структуре ресурса.
Остальные директивы этого файла: какие они?
- Host. Это отдельная разновидность директивы, применяющаяся всеми без исключения поисковыми роботами существующих на сегодняшний день ПС. Она позволяет обозначить зеркало ресурса, которое должно оказаться основным в таком процессе, как индексация. Все это, дополнительно позволяет избежать факта попадания страничек разнообразных зеркал в индекс одного единственного портала. Исключается и возникновение дублей непосредственно в самой поисковой выдаче. В ситуации, когда в файле указано не одно значение такой директивы, тогда поисковый робот, которым осуществляется индексация, применяет только один единственный вариант. А вот оставшиеся виды просто будут прогнозированными.
- Sitemap. Директива требуется для обеспечения правильной и максимально быстрой индексации ресурса. Речь идет о специальном файле, именуемом, как карта сайта. Не исключается присутствие и группы этих самых файлов. Эта разновидности директивы, в действительности является именно межсекционной. Все это в обязательном порядке будет учтено поисковым роботом при непосредственном размещении в таком файле, как robots.txt. Хотя чаще всего подобная директива размещается именно в конце. При непосредственной обработке этой разновидности директивы поисковыми роботами не только запоминается все, но и осуществляется передача соответствующей информации. Подобные данные должны находиться в основе создания последующей сессии загрузки странички ресурса для осуществления индексации.
- Clean-param. Это отдельная дополнительная разновидность директивы. Она предназначается для поисковых роботов системы Яндекс. Существующие на сегодняшний день ресурсы зачастую обладают более сложной структурой. Нередко применяются и всевозможные динамические параметры. С их использованием допускается передача каких-то дополнительных данных о реферерах, а также о сессиях пользователей и т.
Стандарт использования файла такого вида, как Robots_txt, требуется, чтобы после каждой взятой в отдельности директивы, был вставлен пустой перевод строчки. Используются и специального назначения символы. К примеру, некоторые виды используются для размещения комментарий.
Как сделать robots.txt для WordPress.Создаем правильный robots.txt для сайта на WordPress
Приветствую, друзья! В этом уроке мы поговорим о создании файла robots.txt, который показывает роботам поисковых систем, какие разделы Вашего сайта нужно посещать, а какие нет.
Фактически, с помощью этого служебного файла можно указать, какие разделы будут индексироваться в поисковых системах, а какие нет.
Создание файла robots.txt
1. Создайте обычный текстовый файл с названием robots в формате .txt.
2. Добавьте в него следующую информацию :
User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login. php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= Host: site.com Sitemap: http://site.com/sitemap.xml
3. Замените в в текстовом файле строчку site.com на адрес Вашего сайта.
4. Сохраните изменения и загрузите файл robots.txt (с помощью FTP) в корневую папку Вашего сайта.
5. Готово.
Для просмотра и скачки примера, нажмите кнопку ниже и сохраните файл (Ctrl + S на клавиатуре).
Скачать пример файла robots.txt
Разбираемся в файле robots.
txt (директивы)Давайте теперь более детально разберем, что именно и зачем мы добавили в файл robots.txt.
User-agent — директива, которая используется для указания названия поискового робота. С помощью этой директивы можно запретить или разрешить поисковым роботам посещать Ваш сайт. Примеры:
Запрещаем роботу Яндекса просматривать папку с кэшем:
User-agent: Yandex Disallow: /wp-content/cache
Разрешаем роботу Bing просматривать папку themes (с темами сайта):
User-agent: bingbot Allow: /wp-content/themes
Allow и Disallow — разрешающая и запрещающая директива. Примеры:
Разрешим боту Яндекса просматривать папку wp-admin:
User-agent: Yandex Allow: /wp-admin
Запретим всем ботам просматривать папку wp-content:
User-agent: * Disallow: /wp-content
В нашем robots. txt мы не используем директиву Allow, так как всё, что не запрещено боту с помощью Disallow — по умолчанию будет разрешено.
Host — директива, с помощью которой нужно указать главное зеркало сайта, которое и будет индексироваться роботом.
Sitemap — используя эту директиву, нужно указать путь к карте сайта. Напомню, что карта сайта является очень важным инструментом при продвижении сайта! Обязательно указывайте её в этой директиве!
Если остались какие-то вопросы — задавайте их в комментарий. Если же информации в этом уроке для Вас оказалось недостаточно, рекомендую почитать подробнее о всех директивах и способах их использования перейдя по этой ссылке.
Использование инструмента Robots.txt в программе All-in-One SEO
Документация AIOSEO
Документация, справочные материалы и учебные пособия для AIOSEO
Уведомление: Для этого элемента нет устаревшей документации, поэтому вы видите текущую документацию.
Посмотрите наше видео о том, как использовать инструмент Robots.txt здесь.
Вы хотите создать файл robots.txt для своего сайта? Эта статья поможет.
Модуль robots.txt в All in One SEO позволяет управлять файлом robots.txt, который создает WordPress.
Это позволяет лучше контролировать инструкции, которые вы даете поисковым роботам в отношении вашего сайта.
В этой статье
- О файле Robots.txt в WordPress
- Использование редактора Robots.txt во All-in-One SEO
- Правила Robots.txt по умолчанию в WordPress
- Добавление правил с помощью конструктора правил с помощью Редактирование правил
- Редактор правил
- Удаление правила в конструкторе правил
- Редактор robots.txt для WordPress Multisite
О файле robots.txt в WordPress
Во-первых, важно понимать, что WordPress создает динамический файл robots.txt для каждого сайта WordPress.
Этот файл robots.txt по умолчанию содержит стандартные правила для любого сайта, работающего на WordPress.
Во-вторых, поскольку WordPress генерирует динамический файл robots.txt, на вашем сервере нет статического файла. Содержимое robots.txt хранится в вашей базе данных WordPress и отображается в веб-браузере. Это совершенно нормально и намного лучше, чем использование физического файла на вашем сервере.
Наконец, All-in-One SEO не создает файл robots.txt, он просто предоставляет очень простой способ добавления пользовательских правил в файл robots.txt по умолчанию, который генерирует WordPress.
Использование редактора Robots.txt в программе All in One SEO
Чтобы начать работу, нажмите Tools в меню All in One SEO .
Вы должны увидеть Редактор Robots.txt и первым параметром будет Enable Custom Robots.txt . Щелкните переключатель, чтобы включить пользовательский редактор robots.txt.
ВАЖНО :
Вам не нужно включать Custom Robots.txt, если у вас нет особой причины для добавления пользовательского правила robots.
По умолчанию файл robots.txt, сгенерированный WordPress, идеально подходит для 99% всех сайтов. Функция Custom Robots.txt предназначена для тех пользователей, которым нужны настраиваемые правила для блокировки доступа к настраиваемым каталогам на их сервере.
Вы должны увидеть раздел Robots.txt Preview в нижней части экрана, в котором показаны правила по умолчанию, добавленные WordPress.
Правила Robots.txt по умолчанию в WordPress
Правила по умолчанию, которые отображаются в разделе предварительного просмотра Robots.txt (показан на снимке экрана выше), просят роботов не сканировать ваши основные файлы WordPress. Поисковым системам нет необходимости напрямую обращаться к этим файлам, потому что они не содержат релевантного контента сайта.
Если по какой-то причине вы хотите удалить правила по умолчанию, добавленные WordPress, вам нужно будет использовать фильтр-хук robots_txt в WordPress.
Добавление правил с помощью построителя правил
Построитель правил используется для добавления ваших собственных правил для определенных путей на вашем сайте.
Например, если вы хотите добавить правило для блокировки всех роботов из временного каталога, вы можете добавить его с помощью конструктора правил.
Чтобы добавить правило, введите пользовательский агент в поле User Agent . Использование * применит правило ко всем пользовательским агентам.
Далее выберите Разрешить или Запретить , чтобы разрешить или заблокировать пользовательский агент.
Затем введите путь к каталогу или имя файла в поле Путь к каталогу .
Наконец, нажмите кнопку Сохранить изменения .
Если вы хотите добавить больше правил, нажмите кнопку Добавить правило , повторите шаги, описанные выше, и нажмите кнопку Сохранить изменения .
Ваши правила появятся в разделе Robots.txt Preview и в файле robots.txt, который вы можете просмотреть, нажав кнопку Открыть кнопку Robots. txt .
Редактирование правил с помощью конструктора правил
Чтобы изменить любое добавленное правило, просто измените детали в конструкторе правил и нажмите кнопку Сохранить изменения .
Удаление правила в конструкторе правил
Чтобы удалить добавленное правило, щелкните значок корзины справа от правила.
Редактор Robots.txt для мультисайтов WordPress
Существует также редактор Robots.txt для многосайтовых сетей. Подробности можно найти в нашей документации по редактору Robots.txt для многосайтовых сетей здесь.
Вот видео о том, как использовать инструмент Robots.txt в All in One SEO:
Уведомление: В настоящее время вы просматриваете устаревшую документацию.
Модуль robots.txt в All in One SEO позволяет настроить файл robots.txt для вашего сайта, который заменит файл robots.txt по умолчанию, созданный WordPress. Создав файл robots.txt с All in One SEO Pack, вы сможете лучше контролировать инструкции, которые вы даете поисковым роботам в отношении вашего сайта. Как и WordPress, All in One SEO генерирует динамический файл, поэтому на вашем сервере нет статического файла. Содержимое файла robots.txt хранится в вашей базе данных WordPress.
Правила по умолчанию
Правила по умолчанию, которые отображаются в окне «Создать файл Robots.txt» (показано на снимке экрана выше), просят роботов не сканировать ваши основные файлы WordPress. Поисковым системам нет необходимости обращаться к этим файлам напрямую, потому что они не содержат никакого релевантного контента сайта. Если по какой-то причине вы хотите удалить правила по умолчанию, добавленные WordPress, вам нужно будет использовать фильтр-хук robots_txt в WordPress.
Добавление правил
Конструктор правил используется для добавления ваших собственных правил для определенных путей на вашем сайте. Например, если вы хотите добавить правило для блокировки всех роботов из временного каталога, вы можете использовать конструктор правил, чтобы добавить это правило, как показано ниже. Чтобы добавить правило:
- Войдите в пользовательский агент. Использование * применит правило ко всем пользовательским агентам
- Выберите тип правила, чтобы разрешить или заблокировать робота
- Введите путь к каталогу, например, /wp-content/plugins/
- Нажмите кнопку «Добавить правило»
- Правило появится в таблице, а в поле с вашим файлом robots.txt появится
Редактор Robots.txt для мультисайтов WordPress
Существует также редактор Robots.txt для многосайтовых сетей. Подробности можно найти здесь. ПРИМЕЧАНИЕ. Поскольку файл robots.txt, сгенерированный All-in-One SEO, представляет собой динамически генерируемую страницу, а не статический текстовый файл на вашем сервере, следует соблюдать осторожность при создании большого файла robots.
txt по двум причинам:- Большой robots.txt указывает на потенциально сложный набор правил, который может быть трудно поддерживать
- Google предложил максимальный размер файла 512 КБ, чтобы уменьшить нагрузку на серверы из-за длительного времени соединения.
Файл robots.txt в Yoast SEO • Yoast
Файл robots.txt сообщает поисковой системе, где на вашем сайте разрешен доступ. В этой статье мы объясним, как файл robots.txt работает с Yoast SEO.
Вы можете улучшить сканирование вашего сайта поисковыми системами с помощью настроек сканирования в Yoast SEO Premium! Они позволяют удалять ненужные URL-адреса, чтобы поисковые системы могли более эффективно сканировать ваш сайт!
Хотите узнать больше о том, что такое файл robots.txt и для чего он нужен? Ознакомьтесь с нашим полным руководством по robots.txt.
Директивы Yoast SEO по умолчанию
По умолчанию WordPress создает файл robots.txt со следующим содержимым:
Агент пользователя: * Запретить: /wp-admin/ Разрешить: /wp-admin/admin-ajax. php
Когда вы создаете robots.txt с помощью Yoast SEO, мы заменим WordPress по умолчанию следующим:
# START YOAST BLOCK # ------------------------------------------ Пользовательский агент: * Запретить: Карта сайта: https://www.example.com/sitemap_index.xml # ------------------------------------------ # КОНЕЦ ЗАМЕДЛЕННОГО БЛОКА
Эти директивы позволяют всем поисковым системам сканировать ваш сайт. Кроме того, мы добавляем ссылку на вашу карту сайта, чтобы поисковые системы и (в частности, Bing) могли найти ее и более эффективно сканировать ваш сайт.
Как создать файл robots.txt в Yoast SEO
Самый простой способ создать или отредактировать файл robots.txt — через Yoast SEO на панели управления WordPress. Для этого выполните следующие действия.
- Войдите на свой сайт WordPress.
Когда вы войдете в систему, вы окажетесь в своей «Панель управления».
- Нажмите «Yoast SEO» в меню администратора.
- Нажмите «Инструменты».
- Нажмите «Редактор файлов».
Это меню не появится, если в вашей установке WordPress отключено редактирование файлов. Включите редактирование файла или отредактируйте файл через FTP. Если вы не знаете, как использовать FTP, вам может помочь ваш хост-провайдер.
- Нажмите кнопку Создать файл robots.txt.
- Просмотрите (или отредактируйте) файл, созданный Yoast SEO.
Вы увидите направления, которые Yoast SEO добавляет в файл по умолчанию. Вы также можете отредактировать файл здесь.
Создание или редактирование на вашем сервере
Если файл robots.txt недоступен для записи или ваша установка WordPress отключила редактирование файла, создание или редактирование robots.txt с помощью Yoast SEO может завершиться ошибкой. В этом случае вы можете редактировать на уровне сервера.