Robots txt для сайта: Использование файла robots.txt — Вебмастер. Справка | Дропшиппинг

Содержание

Как настроить robots.txt | REG.RU

«robots.txt» — это специальный файл, позволяющий настроить порядок индексирования вашего сайта поисковыми роботами.

Вот некоторые настройки, которые можно произвести при помощи «robots.txt»:

закрыть от индексирования определённые страницы сайта;
запретить индексацию для конкретных роботов или вовсе закрыть сайт от индексации;
задать время (интервал) посещения страницы вашего сайта поисковыми роботами.

Настройка robots.txt

Файл «robots.txt» необходимо размещать в каталоге сайта. Если файла не существует, просто создайте его.

Как задать временной интервал обращения поисковых роботов?

Задать временной интервал обращения можно на странице Индексирование — Скорость обхода в Яндекс.Вебмастере. Подробнее читайте на странице справки Яндекса.

Обратите внимание:

— снижать скорость обхода сайта роботом нужно только в том случае, если создается избыточная нагрузка на сервер.

В других случаях менять параметр не требуется;

— снижение скорости обхода сайта роботом не влияет на поисковую выдачу в Яндексе.

Как закрыть индексацию папки, URL?

# закрываем индексацию страницы vip.html для Googlebot:
User-agent: Googlebot
Disallow: /vip.html  

# закрываем индексацию папки private всеми роботами:
User-agent: *
Disallow: /private/   

# разрешаем доступ только к страницам, начинающимся с '/shared' для Yandexbot
User-agent: Yandex
Disallow: /    
Allow: /shared

Директива «User-agent» определяет, для какого робота будут работать правила. Можно указать названия конкретных роботов, а можно задать правило для всех роботов.

Как полностью закрыть сайт от индексации?

Для запрета индексации вашего сайта всеми поисковыми роботами добавьте в файл «robots.txt» следующие строки:

User-agent: *
Disallow: /

Примечание

Не все поисковые роботы следуют правилам в «robots. txt». Так, например, «Googlebot» следует запрещающим правилам («Disallow»), но не следует директиве «Crawl-delay». Ограничивать «Googlebot» необходимо через Инструменты для веб-мастеров Google.

Справка Google: О файлах robots.txt

Для робота «YandexBot» максимально возможное ограничение через «robots.txt» составляет 2 секунды. Чтобы указать нужную частоту, с которой робот будет индексировать ваш сайт, воспользуйтесь Яндекс.Вебмастером.

Справка Yandex: Использование robots.txt

Помогла ли вам статья?

34 раза уже помогла

Автогенерация robots.txt и sitemap.xml

Файлы robots.txt и sitemap.xml – это самые важные для SEO-продвижения файлы сайта. В них содержатся команды для поисковых роботов. Благодаря им они понимают, какие страницы индексировать, а какие нет.

При создании интернет-магазина эти файлы создаются администратором сайта. Подробности читайте в документации 1С-Битрикс:

Генератор robots.txt
Генерация файла карты сайта

Далее вам нужно сгенерировать эти же файлы для каждого региона. Обычно файлы robots.txt и sitemap.xml для различных регионов создаются, настраиваются и редактируются вручную. В Аспро: Приорити реализована возможность автоматической генерации файлов. Это принципиально новое решение задачи, которое позволит вам сэкономить время SEO-специалиста и сократить количество ошибок, которые возможны при ручном создании robots.txt и sitemap.xml под каждый регион. Рассмотрим, как работает этот функционал, и как с его помощью научиться автоматически генерировать нужные файлы.

После того, как вы создали файлы robots.txt и sitemap.xml для основного домена, инструкции из них можно продублировать в файлы, настраивающие доступ поисковых роботов к поддоменам. И здесь вам понадобится функция генерации файлов.

Чтобы воспользоваться автоматической генерацией robots.txt, перейдите в административной части сайта в Аспро: Рriority (1) → Генерация файлов (2) → robots.txt (3). Включите региональность и выберите тип «на поддоменах» для возможности перегенерации robots.txt.

Используйте кнопку «Пересоздать robots.txt» для копирования основного файла robots.txt в директорию /aspro_regions/robots/ для каждого поддомена. Копии основного файла для поддоменов именуются по шаблону «robots_DOMAIN.txt». В каждой из них запись директивы Host будет изменена.

Также предусмотрена возможность пересоздания файла robots.txt только для конкретного поддомена. Для редактирования файла используйте одноименные кнопки.

Чтобы использовать автогенерацию на sitemap.xml, перейдите в Рабочий стол (1) → Аспро: Рriority → Генерация файлов (2)→ sitemap.xml (3).

Внимание! Для того, чтобы использовать автогенерацию на sitemap.xml необходимо установить модуль «Поисковой оптимизации». Если у вас нет этого модуля, перейдите в Рабочий стол → Настройки (1) → Настройки продукта (2) → Модули (3).

Найдите в списке модуль «Поисковая оптимизация (seo). Статистика и инструменты для поисковой оптимизации сайта» и нажмите кнопку «Установить» напротив него.

Вернемся к генерации файлов sitemap.xml. Кнопка «Пересоздать sitemap.xml» копирует все файлы в корне сайта с маской, указанной здесь же в поле «Адрес карты сайта», в директорию /aspro_regions/sitemap/ для каждого поддомена. Копии файлов для поддоменов имеют вид «файлы_по_маске_DOMAIN.xml». В этих копиях адрес сайта заменяется на значение, указанное в поле «Адрес сайта в карте сайта».

Зачем нужен robots.txt на веб-сайте?

Robots.txt это файл, предназначенный для поисковых роботов, в котором указаны ограничения для индексации содержимого сайта. Обычно используется для запрета обхода роботами технической и конфиденциальной информации, чтобы она не выводилась в поисковых системах. Находится он в корневом каталоге вашего сайта, например,

«/Web/user/htdocs/example.com/robots.txt»

В браузере его можно найти по адресу http://example.com/robots.txt.

Что писать в файл robots.txt?

В настоящее время в файле robots.txt имеется только три основных оператора:

Disallow: / path

allow: / путь

sitemap: http://example.com/sitemap.xml

+ еще

host: http://example.com (для Яндекса)

Содержимое файла robots.txt состоит из разделов, посвященных определенным роботам-сканерам. Если вам нечего скрывать от индексации, то ваш файл robots.txt выглядит так:

User-agent: *

Disallow:

Allow: /

Sitemap: http://example.com/sitemap.xml

Если вам нравится Google, а Yandex нет, напишите:

User-agent: *

Disallow:

User-agent: Googlebot

Disallow:

User-agent: Yandex

disallow: /

Обратите внимание, что вы должны завершить работу каждого раздела пустой строкой.

Из приведенных выше примеров вы узнали, что каждая поисковая система имеет свое имя. Вы можете найти имена роботов-сканеров, посетив раздел веб-мастера поисковой системы и записать их в виде User-agent: [имя робота] в начале раздела.

Имя робота «*» означает универсальный веб-робот, это означает, что, если ваш файл robots.txt не имеет раздела для конкретного робота, он будет использовать директивы «*», и, если у вас есть раздел для конкретного робота, он будет игнорировать раздел «*». Другими словами, если вы создаете раздел для робота, перед редактированием кода вы должны дублировать все инструкции из раздела «Все роботы» («user-agent: *»).

Теперь к директивам. Самая важная директива — Disallow: / path

«Disallow» означает, что робот не должен получать содержимое из URI, которые соответствуют «/ path».

URI всегда относятся к корню веб-пространства, поэтому, если вы копируете и вставляете URL-адреса http://example.com/content/, то удалите часть http://example.com, но не /content/

Т.е. получится Disallow: /content/

Далее идет Allow:

«allow» — разрешает индексировать путь /

Нужен чтобы уточнить Disallow: утверждения, к примеру запись

User-agent: Googlebot

Disallow: /

Allow: / content /

Позволяет роботу гугла сканировать только в пределах http://example.com/content/

Карта сайта Sitemap: http://example.com/sitemap.xml

Указывает местоположение карты сайта, на которой есть ссылки на все страницы сайта. Подобно оглавлению книги – карта сайта ускоряет поиск и индексацию страниц сайта.

Можно ли автоматически генерировать файл robots.txt?

Да, можно. Но это возможно в случае, если ваш CMS поддерживает соответствующие плагины. Так же есть специализированные сайты, которые помогут генерировать карту для вашего сайта. Но не забывайте своевременно ее обновлять.

robots.txt / wiki ТопЭксперт

robots.txt — файл в котором описан стандарт поведения для роботов поисковых систем на сайте.

Зачем он нужен?

Поисковые системы постоянно отправляют поисковых роботов в сеть, которые бродят в поисках новых страниц. Обнаружив новую страничку, робот переходит по всем находящимся в ней ссылкам и добавляет их в свою базу. Спустя какое-то время, при очередном апдейте, ссылки на все обнаруженные новые страницы (даже на те страницы, которые не предназначены для посетителей сайта, являются версией страницы для печати и т. д.) попадают в поисковую выдачу. Чтобы исключить индексацию роботами лишних страниц, требуется создать и настроить файл robots.txt и положить его в корневую директорию сайта (например: http://site.ru/robots.txt).

Как создать robots.txt?

Создать robots.txt очень просто — с помощью любого простого текстового редактора создаем новый текстовый файл и переименовываем его в robots.txt.

Как настроить robots.txt?

Для управления поведением поисковых роботов на сайте, существует специальная команда User-agent. Не стоит забывать что у каждой поисковой системы свои роботы и в большом количестве.

Ниже приведены основные примеры обращений к роботам

* — указывает на то, что после нее идет обращение ко всем поисковым роботам.


User-agent: *  # написанная после этой строки команда будет обращена ко всем поисковым роботам
User-agent: YandexBot  # обращение к основному поисковому роботу Яндекса
User-agent: Googlebot  # обращение к основному поисковому роботу Google


 User-agent: *
 Disallow: / # запрет доступа всем роботам к сайту

Disallow — команда запрета поисковым роботам.


 User-agent: *
 Disallow: /admin/ # запрет доступа всем роботам к директории /admin/

Allow — разрешает индексировать.


User-agent: Googlebot
Disallow: /strawberry/ # запрет доступа определенному роботу (в данном случае роботу Google) к каталогу /strawberry/
Disallow: /strawberry/images/ # а каталог /strawberry/images/ роботу Google мы позволяем индексировать

User-agent: YandexBot
Allow: / # а роботу Яндекса разрешаем индексировать все

Crawl-delay — указывает роботам время, которое надо выдержать между загрузкой страниц. Делается это для того, чтобы не нагружать сервер. Впрочем, сейчас поисковые машины задают по умолчанию время задержки 1–2 секунды.


User-agent: *
 Crawl-delay: 10

Sitemap — указывает адрес карты сайта.


Sitemap: http://site.ru/sitemap.xml # Указывает адрес карты вашего сайта

Управление файлами robots.txt — Commerce | Dynamics 365

07/02/2020
Чтение занимает 3 мин

В этой статье

Важно!

Dynamics 365 Retail теперь называется Dynamics 365 Commerce — это универсальное многоканальное решение для электронной коммерции, магазинов и центров обработки вызовов. Дополнительные сведения об этих изменениях см. в разделе Microsoft Dynamics 365 Commerce.

В этой теме описано, как управлять файлами robots.txt в Microsoft Dynamics 365 Commerce.

Стандарт исключения роботов, или robots.txt, является стандартом, который веб-сайты используют для связи с веб-роботами. Он инструктирует веб-роботов о любых областях веб-сайта, которые не должны быть посещены. Роботы часто используются поисковыми системами для индексирования веб-сайтов.

Чтобы исключить роботов с сервера, вы создаете файл на сервере. В этом файле указывается политика доступа для роботов. Файл должен быть доступен через HTTP по локальному URL-адресу /robots.txt. Файл robots.txt помогает поисковым системам индексировать содержимое вашего сайта.

Dynamics 365 Commerce позволяет загружать файл robots.txt для вашего домена. Для каждого домена в вашей среде Commerce вы можете загрузить один файл robots.txt и связать его с этим доменом.

Для получения дополнительной информации о файле robots.txt см. страницы о веб-роботах.

Отправка файла robots.txt

После того, как вы создали и отредактировали свой файл robots.txt в соответствии со стандартом исключения роботов, убедитесь, что файл доступен на компьютере, где вы будете использовать инструменты авторизации Commerce. Файл должен называться robots.txt. Для достижения наилучших результатов он должен быть в формате, который указан в стандарте. Каждый клиент Commerce несет ответственность за проверку и обслуживание содержимого своего файла robots.txt. Чтобы отправить файл robots.txt, вы должны войти в Commerce как системный администратор.

Чтобы отправить файл robots.txt в Commerce, выполните следующие действия.

Войдите в Commerce в качестве системного администратора.
В левой области переходов выберите Настройки клиента (рядом с символом шестеренки), чтобы развернуть его.
В разделе Настройки клиента выберите Robots.txt. Список всех доменов, связанных с вашей средой, отображается в основной части окна.
Выберите Управление, чтобы отправить файл robots.txt для домена в вашей среде.
В меню справа выберите кнопку Отправить (стрелка вверх) рядом с доменом, который связан с файлом robots.txt. Появляется диалоговое окно браузера файлов.
В диалоговом окне найдите и выберите файл robots.txt, который вы хотите отправить для связанного домена, а затем выберите Открыть для завершения отправки.

Примечание

Во время отправки Commerce проверяет, что файл является текстовым файлом, но он не проверяет содержимое файла.

Загрузка файла robots.txt

Чтобы загрузить файл robots.txt в Commerce, выполните следующие действия.

Войдите в Commerce в качестве системного администратора.
В левой области переходов выберите Настройки клиента (рядом с символом шестеренки), чтобы развернуть его.
В разделе Настройки клиента выберите Robots.txt. Список всех доменов, связанных с вашей средой, отображается в основной части окна.
Выберите Управление, чтобы загрузить файл robots.txt для домена в вашей среде.
В меню справа выберите кнопку Загрузить (стрелка вниз) рядом с доменом, который связан с файлом robots.txt. Появляется диалоговое окно браузера файлов.
В диалоговом окне перейдите в нужное место на локальном диске, подтвердите или введите имя файла, а затем выберите Сохранить для завершения загрузки.

Примечание

Эта процедура может быть использована для загрузки только файлов robots.txt, которые ранее были загружены через инструменты разработки Commerce.

Удаление файла robots.txt

Чтобы удалить файл robots.txt в Commerce, выполните следующие действия.

Войдите в Commerce в качестве системного администратора.
В левой области переходов выберите Настройки клиента (рядом с символом шестеренки), чтобы развернуть его.
В разделе Настройки клиента выберите Robots.txt. Список всех доменов, связанных с вашей средой, отображается в основной части окна.
Выберите Управление, чтобы удалить файл robots.txt для домена в вашей среде.
В меню справа выберите кнопку Удалить (символ корзины) рядом с доменом, который связан с файлом robots.txt. Отображается окно браузера файлов.
В окне браузера фалов найдите и выберите файл robots.txt, который вы хотите удалить для домена, а затем выберите Открыть. Появляется окно предупреждающих сообщений.
В поле сообщения выберите Удалить, чтобы подтвердить удаление файла robots.txt.

Примечание

Эта процедура может быть использована для удаления только файлов robots.txt, которые ранее были загружены через инструменты разработки Commerce.

Дополнительные ресурсы

Настройка доменного имени

Развертывание нового клиента электронной коммерции

Создание сайта электронной коммерции

Связывание сайта Dynamics 365 Commerce с интернет-каналом

Пакетная отправка перенаправлений URL-адресов

Настройка клиента B2C в модуле Commerce

Настройка специальных страниц для входа пользователей

Настройка нескольких клиентов B2C в среде Commerce

Добавление поддержки сети доставки контента (CDN)

Включение обнаружения магазинов на основе местоположения

Директивы и настройки файла Robots.txt: что нужно знать

Для индексации сайта роботы поисковых систем определяют, к каким разделам у них есть доступ. Эти данные прописаны в текстовом файле robots.txt. Он работает в качестве преграды для поисковых алгоритмов и указывает, какие страницы могут смотреть роботы, а какие для них закрыты. Глубину ограничений настраивают с помощью директив. Роботы воспринимают их как инструкции к действию. И если они видят команду Disallow с указанием разделов сайта, то не будут их индексировать. В этой статье расскажем, как настраивать директивы для Яндекса и Google и как составить правильный robots.txt.

Почему индексация сайта зависит от файла robots.txt

Если не хотите, чтобы частные и корпоративные данные попадали в поисковые системы, нужно закрыть к ним доступ. Поэтому в robots.txt стоит прописать запрет на доступ к панели администратора и конфиденциальным данным.

Неверно составленный файл испортит индексацию в поисковиках. Стоит неправильно указать директивы роботс для сайта, и из поисковой выдачи вылетит половина страниц и разделов, приносящих трафик. Составление правильного синтаксиса — еще одно требование при работе с robots.txt. Появление ошибки в командах и спецсимволах приводит к тому, что во время анализа и проверки ресурса робот не поймет ограничений и проиндексирует страницу, которую вы хотели закрыть. Или наоборот — закроется посещаемый раздел, и сайт лишится трафика. Мы уже писали о том, как повысить трафик за счет работы с релевантностью страницы.

Какие бывают директивы и как их настраивать

User-agent

Определяет, для каких поисковых алгоритмов составлен роботс. Эту команду указывают первой при создании файла. Как и остальные директивы User-agent составляется по шаблону. Вот правильный порядок — название директивы, двоеточие, пробел, значение команды. В случае с User-agent значением будет название поисковых роботов.

Примеры синтаксиса:

Disallow

Запрещает роботам индексировать указанные страницы и подразделы. Чтобы закрыть весь ресурс от поисковых алгоритмов, в значении команды поставьте символ «/». В данном примере запрет касается подраздела «page», который расположен следом за правильным URL-адресом сайта. Например, http://directive.ru/page.

Синтаксис директивы можно настраивать символом «*». Нужно поставить его перед «/» и прописать формат документов, которые необходимо запретить для индексации. Например, «doc» или «pdf». Все документы с этим форматом роботы будут игнорировать.

Allow

Разрешает доступ к страницам. Для этой команды актуальны все настройки Disallow. В этом примере мы запретили поисковым алгоритмам индексировать весь сайт с помощью Disallow, кроме разделов, которые начинаются с /page ( Allow).

Можно настраивать взаимодействие разрешающей и запрещающей директив с таким синтаксисом:

Доступ к страницам /blog закрыт, а подраздел /blog/page работы проиндексируют.

Sitemap

Указывает путь к XML-карте сайта. Если их несколько, для каждой новой используйте отдельную команду. О том, как настраивать карту сайта и почему она важна для SEO, читайте здесь.

Clean-param

Команда убирает лишние страницы, которые повторяют содержание индексируемых разделов. Clean-param очищает URL, удаляя ненужные метки, фильтры, информацию о сессиях и т.д. Возьмем такую страницу:

И настроим директиву:

Роботы во время проверки уберут из индексации выбранный динамический URL для всех страниц /page.

Crawl-delay

Указывает алгоритмам Яндекса, сколько секунд нужно подождать перед загрузкой очередного раздела. Команда спасает ваш сервер от дополнительной нагрузки, когда роботы часто заходят на ресурс. Синтаксис самый простой:

Правильная настройка robots.txt

Можно использовать шаблоны, где указаны стандартные настройки без анализа особенностей вашего ресурса. Вслепую загружать такой файл на сайт не стоит — роботы могут криво проиндексировать его.

Настраивать robots.txt всегда лучше самостоятельно. Четко проверяйте, какие страницы нужно закрыть для индексирования, и не допускайте ошибок в командах. Синтаксис файла роботс устроен по простым и понятным законам — не нарушайте их, чтобы алгоритмы верно проиндексировали ваш ресурс.

Расскажем, как указать правильные настройки в чек-листе:

Одна строка — одна директива. Проверка этого принципа — первая цель после того, как составлен роботс.
Значение команды пишите в одной строчке.
Составляйте их без точек с запятой, кавычек и заглавных букв.
То же самое для меток слежения (*utm, *clid и т.д.).
Настройка Host, Clean-param и Crawl-delay для Гугла производится в Google Search Console.
Основное правило составления файла — никаких пустых строк. Они появляются только между директивами User-agent и между завершающей User-agent и Sitemap.
Разрешите доступ ко всем файлам JS и CSS из системных папок. Необходимо для корректной индексации.
Укажите в Allow известные форматы изображений (*.jpg, *.png и т.д.). Это перестраховка для того, чтобы страницу не проиндексировали без картинки.
Аккуратно настраивайте доступ ко всем страницам со служебной информацией, секретными и персональными данными. Их лучше закрыть от роботов.
Для Яндекса укажите корректный Host, следите за синтаксисом.

Как добавить robots.txt и где лежит файл

Роботс составляют в простой текстовой программе — блокноте. Анализ работы поисковых алгоритмов показал, что лучше собирать файл прямо там, а не в других редакторах. Блокнот поддерживает кодировку UTF-8, а некоторые программы работают с другими настройками. А их поисковики могут некорректно проиндексировать.

Обязательно нужно указать имя файла — robots.txt. Сохраняем его и размещаем строго в корневом каталоге сайта. Файл должен открываться, например, по адресу — http://www.directive.ru/robots.txt. Подраздел — http://www.directive.ru/blog/robots.txt — не подойдет, в этом случае роботы его не проиндексируют.

Настраивать роботс можно и после загрузки на сайт. Если допустили ошибку и заметили после анализа, ее легко поправить в файле.

Проверка синтаксиса

После размещения robots.txt в корневом каталоге стоит провести анализ настройки директив. Даже если вы не в первый раз составляете список команд для роботов, лучше воспользоваться проверкой файла на предмет ошибок. Правильный синтаксис — залог успешного индексирования. Например, одна ошибка в команде Host будет стоить вам трафика.

Для анализа используйте Вебмастеры Яндекса и Google. Нужно указать адрес ресурса и в пустое поле скопировать текст из роботса. Проверка займет пару секунд, и сервис сообщит о найденных ошибках.

Вывод

После проверки robots.txt работа с ним не завершена. Вносите изменения после появления новых страниц. Проводите анализ сайта, составляйте новые ограничения, настраивайте синтаксис и следите, чтобы роботы четко индексировали ресурс. После каждого изменения проводите проверку.

Закажи юзабилити-тестирование прямо сейчас

Заказать

Как настроить robots.txt самому

Robots.txt — это текстовый файл, который должен быть на каждом сайте и содержать в себе инструкции для поисковых систем. Простым языком robots.txt — это набор инструкций для поисковых роботов с директивами, что можно индексировать «Allow» или что нельзя «Disallow».

Эти директивы очень важны в первую очередь для исключения из поисковой выдачи ненужных страниц (например вход в систему управления).

Как создать robots.txt

Так как это обычных текстовый файл его можно создать в любом текстовом редакторе, например в блокноте. Главное сохранить его в виде текстового файла с названием robots и расширением .txt Это предельно просто и вопросов не должно возникнуть даже у новичков.

Как правильно настроить robots.txt

Правильная настройка позволит избежать попадания приватной информации с вашего сайта в поисковую выдачу поисковых систем. Но нужно понимать, что это в первую очередь набор инструкций для поисковых систем, а не гарант безопасности. Ели вы хотите правильно настроить robots.txt для вашего сайта, для начала давайте разберемся с правилами и синтаксисом его заполнения.

#	Директива	Что означает
1	User-agent:	Указывает на робота для которого написаны данные правила
2	Disallow	Запрещает к индексированию файл, раздел, страницу….
3	Allow	Разрешает индексировать разделы, страницы, документы, фото….
4	Clean-param	Говорит роботу о том, что URL страницы содержит параметры которые не нужно учитывать (например UTM-метки)
5	Crawl-delay	Просит робота задать минимальный промежуток времени (в секундах) между загрузкой одной и началом загрузки следующей страницы.
6	Host	Указывает на главное зеркало сайта (если сайт работает с ssl сертификатом то обязательно нужно указать https://…..)

Рассмотрим пример настройки:

User-Agent: * # Параметр * указывает на обращение ко всем.   

Disallow: */index.php # Тут мы указываем что во всех директориях запрещены к индексации все файлы index.php

Disallow: /admin/ # Этой директивой мы запрещаем к индексации каталог admin

Allow: /*.js

Allow: /*.css

Allow: /*.jpg

Allow: /*.jpeg

Allow: /*.gif

Allow: /*.png  # А этими директивами мы разрешаем индексировать все файлы с расширениями .png .gif .js ….

Host: https://top-masters.net #Указываем гловное зеркало нашего сайта

Sitemap: https://top-masters.net/sitemap.xml # Указываем адрес до карты нашего сайта.

В заключении

Файл robots.txt — Один из самых нужных инструментов взаимодействия с поисковыми системами, а так же один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно.

Если у вас есть вопросы — пишите в комментариях. Рекомендуйте статью друзьям и не забывайте подписываться на блог.

# # robots.txt # # Этот файл предназначен для предотвращения сканирования и индексации определенных частей # вашего сайта поисковыми роботами и пауками, управляемыми такими сайтами, как Yahoo! # и Google. Сообщая этим «роботам», куда нельзя заходить на вашем сайте, # вы экономите трафик и ресурсы сервера. # # Этот файл будет проигнорирован, если он не находится в корне вашего хоста: # Используется: http://example.com/robots.txt # Игнорируется: http://example.com/site/robots.txt # # Дополнительную информацию о стандарте robots.txt см. В следующих статьях: # http: // www.robotstxt.org/robotstxt.html Пользовательский агент: * Задержка сканирования: 10 # CSS, JS, изображения Разрешить: /misc/*.css$ Разрешить: /misc/*.css? Разрешить: /misc/*.js$ Разрешить: /misc/*.js? Разрешить: /misc/*.gif Разрешить: /misc/*.jpg Разрешить: /misc/*.jpeg Разрешить: /misc/*.png Разрешить: /modules/*.css$ Разрешить: /modules/*.css? Разрешить: /modules/*.js$ Разрешить: /modules/*.js? Разрешить: /modules/*.gif Разрешить: /modules/*.jpg Разрешить: /modules/*.jpeg Разрешить: /modules/*.png Разрешить: /profiles/*.css$ Разрешить: /profiles/*.css? Разрешить: /profiles/*.js$ Разрешить: / profiles / *.js? Разрешить: /profiles/*.gif Разрешить: /profiles/*.jpg Разрешить: /profiles/*.jpeg Разрешить: /profiles/*.png Разрешить: /themes/*.css$ Разрешить: /themes/*.css? Разрешить: /themes/*.js$ Разрешить: /themes/*.js? Разрешить: /themes/*.gif Разрешить: /themes/*.jpg Разрешить: /themes/*.jpeg Разрешить: /themes/*.png # Каталоги Disallow: / включает / Запретить: / misc / Запретить: / modules / Запретить: / profiles / Запретить: / scripts / Запретить: / themes / # Файлов Запретить: /CHANGELOG.txt Запретить: /cron.php Запретить: /INSTALL.mysql.txt Запретить: / УСТАНОВИТЬ.pgsql.txt Запретить: /INSTALL.sqlite.txt Запретить: /install.php Запретить: /INSTALL.txt Запрещено: /LICENSE.txt Запретить: /MAINTAINERS.txt Запретить: /update.php Запретить: /UPGRADE.txt Запретить: /xmlrpc.php # Пути (чистые URL) Запретить: / admin / Запретить: / комментарий / ответ / Запретить: / filter / tips / Запретить: / узел / добавить / Запретить: / search / Запретить: / пользователь / регистрация / Запретить: / пользователь / пароль / Запретить: / пользователь / логин / Запретить: / пользователь / выход из системы / # Пути (без чистых URL) Запретить: /? Q = admin / Запретить: /? Q = комментарий / ответ / Запретить: /? Q = filter / tips / Запретить: /? Q = узел / добавить / Запретить: /? Q = search / Запретить: /? Q = пользователь / пароль / Запретить: /? Q = пользователь / регистрация / Запретить: /? Q = пользователь / логин / Запретить: /? Q = пользователь / выход из системы / # Правила модуля Biblio для предотвращения рекурсивного поиска ботами.Запретить: / biblio / export / Disallow: / biblio? * Запретить: / biblio? Page = * & * Disallow: / публикации / экспорт / Disallow: / публикации? * Запретить: / публикации? Page = * & * Запретить: / user / * / biblio * Разрешить: / biblio? Page = * Разрешить: / публикации? Page = *

Элементарное SEO: все о robots.txt

SEO — это повышение рейтинга ваших страниц в результатах поиска. Но на вашем веб-сайте есть определенные страницы, на которые вы не хотите, чтобы пользователи попадали из результатов поиска. Файл robots.txt используется для исключения таких страниц из результатов поиска.

Поисковые системы используют ботов или роботов, чтобы сканировать веб-сайты и узнавать о них, чтобы они знали, какие веб-сайты должны отображаться по определенному ключевому слову. Когда такие боты попадают на веб-сайт, первое, что они ищут, — это файл robots.txt, поскольку он содержит инструкции от владельца веб-сайта. Теперь есть хорошие боты и плохие боты. Особенно плохие, такие как вредоносные боты, которые ищут уязвимости в системе безопасности, не обращают внимания на файл robots.txt.

Какова роль роботов.текст?

Он содержит две важные информации. Каким ботам разрешено сканировать этот веб-сайт и какие страницы этого сайта сканировать нельзя.

Как создать robots.txt?

Его можно создать с помощью любого текстового редактора. Имя этого файла чувствительно к регистру, поэтому оно должно быть только строчными. Файл robots.txt следует поместить в корневую папку вашего веб-сайта вместе с индексом или страницей приветствия, чтобы путь к этому файлу всегда был www.yourdomainname.com/robots.txt .

Обычно имеет две команды. User-agent должен указать бота, к которому применяются следующие инструкции. Disallow указывает страницы, которые запрещены.

Ниже приведен простой пример файла robots.txt.

User-agent: *
Disallow: /

Итак, в приведенном выше примере « * » рядом с User-agent говорит, что следующие команды применяются ко всем видам ботов, которые попадают на этот сайт.
«/» рядом с Disallow означает, что все подкаталоги в корневой папке доступны только ботам. Это означает, что никакие боты не должны сканировать страницы внутри корневой папки.

Вот несколько примеров. Чтобы разрешить избранным ботам и не пускать остальных,

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

Чтобы ограничить сканирование выбранных каталогов на веб-сайте, команды будут такими:

User-agent: *
Disallow: / directory /

Чтобы заблокировать файлы определенного типа,

Пользовательский агент: Googlebot
Disallow: / *.gif $

Чтобы заблокировать определенный каталог и все, что в нем,

Агент пользователя: Googlebot-Image
Disallow: /images/dogs.jpg

Альтернативный метод — META TAG :
Вы также можете включить robots в заголовок каждой страницы вашего сайта. Синтаксис:

Атрибут FOLLOW / NOFOLLOW предназначен для ссылок на этой странице.Если это NOFOLLOW , то боты не должны переходить по ссылкам на этой странице. Если метатег не включен, это подразумевает INDEX и FOLLOW, поэтому нет необходимости явно упоминать это.

Как и в случае с Zoho Sites, вы можете получить доступ к спецификации поискового робота на странице настроек SEO.

Введенные здесь команды будут автоматически сохранены в файле robots.txt вашего веб-сайта и доступны по адресу www.yourdomainname.com /robots.txt .

Просмотры сообщений: 1,510

Роботы.txt — Что это такое? Как это использовать? // WEBRIS

Короче говоря, файл Robots.txt управляет доступом поисковых систем к вашему сайту.

Этот текстовый файл содержит «директивы», которые диктуют поисковым системам, какие страницы должны «Разрешить» или «Запретить» доступ поисковой системе.

Скриншот нашего файла Robots.txt

Добавление неправильных директив здесь может негативно повлиять на ваш рейтинг, поскольку это может помешать поисковым системам сканировать страницы (или весь ваш) веб-сайт.

3 подсказки для 3-х потенциальных клиентов от Google

Мы помогли сотням веб-сайтов получить больше потенциальных клиентов с помощью поиска Google. Нажмите ниже, чтобы получить бесплатную инструкцию.

Что такое «роботы» (в отношении SEO)?

Роботы — это приложения, которые «ползут» по веб-сайтам, документируя (то есть «индексируя») информацию, которую они охватывают.

Что касается файла Robots.txt, эти роботы называются пользовательскими агентами.

Вы также можете услышать их зовут:

Пауки
Боты
Веб-сканеры

Это , а не официальные имена User-agent сканеров поисковых систем. Другими словами, вы не должны «запрещать» «краулер», вам нужно будет получить официальное название поисковой системы (краулер Google называется «Googlebot»).

Вы можете найти полный список веб-роботов здесь.

Изображение предоставлено

На этих ботов влияют разные способы, включая контент, который вы создаете, и ссылки, ведущие на ваш сайт.

Ваш файл Robots.txt позволяет напрямую общаться с роботами поисковых систем , давая им четкие указания о том, какие части вашего сайта вы хотите сканировать (или не сканировать).

Как использовать файл Robots.txt?

Вам необходимо понимать «синтаксис», в котором создается файл Robots.txt.

1. Определите User-agent

Укажите имя робота, о котором вы говорите (например, Google, Yahoo и т. Д.). Опять же, вам нужно обратиться за помощью к полному списку пользовательских агентов.

2. Запретить

Если вы хотите заблокировать доступ к страницам или разделу своего веб-сайта, укажите здесь URL-путь.

3. Разрешить

Если вы хотите разблокировать путь URL-адреса в заблокированном родительском элементе напрямую, введите здесь путь к подкаталогу этого URL-адреса.

Файл Robots.txt из Википедии.

Короче говоря, вы можете использовать robots.txt, чтобы сообщить этим сканерам: «Индексируйте эти страницы, но не индексируйте другие».

Почему Роботы.txt так важен

Может показаться нелогичным «блокировать» страницы от поисковых систем. Для этого есть ряд причин и случаев:

1. Блокировка конфиденциальной информации

Справочники — хороший пример.

Вероятно, вы захотите скрыть те, которые могут содержать конфиденциальные данные, например:

/ тележка /
/ cgi-bin /
/ scripts /
/ wp-admin /

2. Блокировка страниц низкого качества

Компания Google неоднократно заявляла, что очень важно «очищать» свой веб-сайт от страниц низкого качества.Наличие большого количества мусора на вашем сайте может снизить производительность.

Для получения более подробной информации ознакомьтесь с нашим аудитом контента.

3. Блокировка повторяющегося контента

Вы можете исключить любые страницы, содержащие дублированный контент. Например, если вы предлагаете «печатные версии» некоторых страниц, вы не хотите, чтобы Google индексировал повторяющиеся версии, поскольку дублированный контент может повредить вашему рейтингу.

Однако имейте в виду, что люди по-прежнему могут посещать эти страницы и ссылаться на них, поэтому, если информация относится к тому типу, который вы не хотите, чтобы другие видели, вам нужно будет использовать защиту паролем, чтобы сохранить ее конфиденциальность.

Это потому, что, вероятно, есть страницы, содержащие конфиденциальную информацию, которую вы не хотите показывать в поисковой выдаче.

Разрешить и запретить форматы Robots.txt

Robots.txt на самом деле довольно прост в использовании.

Вы буквально говорите роботам, какие страницы нужно «разрешить» (что означает, что они будут их индексировать), а какие — «запретить» (которые они будут игнорировать).

Вы будете использовать последний только один раз, чтобы перечислить страницы, которые не должны сканировать пауки.Команда «Разрешить» используется только в том случае, если вы хотите, чтобы страница сканировалась, но ее родительская страница «Запрещена».

Вот как выглядит robot.txt для моего сайта:

Начальная команда user-agent сообщает всем веб-роботам (т. Е. *), А не только для определенных поисковых систем, что эти инструкции применимы к ним.

Как настроить Robots.txt для вашего веб-сайта

Во-первых, вам нужно будет записать ваши директивы в текстовый файл.

Затем загрузите текстовый файл в каталог верхнего уровня вашего сайта — его нужно добавить через Cpanel.

Изображение предоставлено

Ваш живой файл всегда будет располагаться сразу после «.com /» в вашем URL-адресе. Наш, например, находится по адресу https://webris.org/robot.txt.

Если бы он был расположен по адресу www.webris.com/blog/robot.txt, сканеры даже не стали бы его искать, и ни одна из его команд не была бы выполнена.

Если у вас есть поддомены, убедитесь, что у них есть собственные robots.txt файлы. Например, в нашем поддомене training.webris.org есть собственный набор директив — это невероятно важно проверять при проведении аудита SEO.

Тестирование файла Robots.txt

Google предлагает бесплатный тестер robots.txt, который можно использовать для проверки.

Он находится в Google Search Console под Crawl> Robots.txt Tester.

Использование Robots.txt для улучшения SEO

Теперь, когда вы понимаете этот важный элемент SEO, проверьте свой собственный сайт, чтобы убедиться, что поисковые системы индексируют нужные вам страницы и игнорируют те, которые вы хотите исключить из результатов поиска.

В дальнейшем вы можете продолжать использовать robot.txt для информирования поисковых систем о том, как они должны сканировать ваш сайт.

Как robots.txt может помочь или помешать вашему SEO?

Простое объяснение файла Robots.txt для маркетологов

Файл robots.txt, также известный как протокол исключений для роботов, является важной частью вашего веб-сайта. Он содержит инструкции для роботов поисковых систем, которые сканируют ваш сайт. Совершите ошибку, и вы можете испортить или даже испортить видимость вашей поисковой системы.

В этом руководстве по robots.txt я объясню, что, почему и как использует robots.txt для не-специалистов по SEO, чтобы вы могли задать правильные вопросы или обсудить его со своими специалистами.

Что такое robots.txt?

Любой достойный веб-мастер знает, насколько важен файл robots.txt. По сути, это список инструкций для роботов поисковых систем (или веб-сканеров), он указывает любые области вашего веб-сайта, которые вы не хотите сканировать (и потенциально индексировать) поисковыми системами.Ошибка может привести к тому, что ваш веб-сайт полностью исчезнет из результатов поиска или вообще не появится!

Как работает robots.txt?

При сканировании вашего сайта роботы поисковой системы в первую очередь обращаются к поиску вашего файла robots.txt. Это сообщит ему, где разрешено сканировать (посещать) и индексировать (сохранять) в результатах поисковой системы.

Файл robots.txt любого веб-сайта будет находиться в одном и том же месте — по адресу domain.com/robots.txt (очевидно, «домен.com ’следует изменить на ваш реальный домен).

Чтобы убедиться, что у вас есть файл robots.txt, просто перейдите на свой веб-сайт и добавьте /robots.txt в конце своего домена:

Затем поисковый робот учтет инструкции из вашего файла robots.txt и пропустит все страницы, которые вы просили исключить из своего сканирования.

Когда полезен файл robots.txt?

Файлы

Robots.txt полезны в следующих случаях:

Если вы хотите, чтобы поисковые системы игнорировали любые повторяющиеся страницы s на вашем веб-сайте
Если вы, , не хотите, чтобы поисковые системы индексировали ваш внутренний поиск страниц результатов
Если вы, , не хотите, чтобы поисковые системы индексировали определенные области вашего веб-сайта или весь веб-сайт
Если вы, , не хотите, чтобы поисковые системы индексировали определенные файлы на вашем веб-сайте (изображения, PDF-файлы и т. Д.))
Если вы, , хотите сообщить поисковым системам, где находится ваша карта сайта

Файл robot.txt может быть полезным дополнением к вашему веб-сайту по нескольким причинам, в том числе:

Дублированный контент

У вас может быть дублированный контент на вашем веб-сайте. Это не редкость и может быть вызвано такими элементами, как динамические URL-адреса, где один и тот же контент обслуживается различными URL-адресами в зависимости от того, как к нему пришел пользователь.

Хотя это не редкость, поисковые системы не одобряют дублирование контента, и его следует по возможности избегать или исключать.Файл robots.txt позволяет сделать это, дав указание поисковым роботам не сканировать повторяющиеся версии.

В этих ситуациях также имеет смысл использовать канонические теги.

Результаты внутреннего поиска

Если на вашем веб-сайте есть функция внутреннего поиска, вы можете исключить страницы результатов внутреннего поиска из поисковых систем.

Это связано с тем, что страницы результатов поиска на вашем сайте вряд ли принесут пользу кому-либо, кроме поисковика, который их создает, и лучше, чтобы ваши списки результатов поиска Google были наполнены высококачественным контентом, который служит цели любому, кто его найдет. .

Игнорирование защищенных паролем областей, файлов или интрасетей

Вы можете дать указание поисковым роботам игнорировать определенные области или файлы на вашем веб-сайте, например интрасети сотрудников.

У вас могут быть юридические причины для этого, например, защита данных о сотрудниках, или может оказаться, что эти области просто не имеют отношения к сторонним поисковикам, поэтому вы не хотите, чтобы они появлялись в результатах поиска.

Расположение XML Sitemap

Еще один инструмент, используемый роботами поисковых систем при сканировании вашего сайта, — это XML-карта сайта . Это обычная текстовая версия вашей карты сайта, в которой перечислены местоположения всех страниц вашего сайта.

В вашем файле robots.txt должно быть указано расположение XML-карты сайта, что позволит роботам поисковой системы более эффективно сканировать.

Любая инструкция, которую вы добавляете в файл robots.txt для исключения страниц из индексации, переопределяет XML-карту сайта, которая по-прежнему показывает эти страницы.

Создание файла Robots.txt

Если у вас еще нет robots.txt, вы должны сделать это в срочном порядке. Это важная часть вашего веб-сайта. Вы можете попросить своего веб-разработчика настроить это для вас или, если у вас есть соответствующие ноу-хау, следуйте этим инструкциям:

Создайте новый текстовый файл и сохраните его под именем « » — вы можете использовать программу «Блокнот» на ПК с Windows или TextEdit для Mac, а затем «Сохранить как» файл с разделителями текста.
Загрузите его в корневой каталог вашего веб-сайта — это обычно папка корневого уровня, называемая «htdocs» или «www», что позволяет отображать ее сразу после имени вашего домена.
Если вы используете субдомены, вам необходимо создать файл robots.txt для каждого субдомена.

Общие инструкции файла Robots.txt

Ваш файл robots.txt будет зависеть от ваших требований.

Таким образом, не существует установленного «идеального» файла robots.txt, но есть несколько общих инструкций, которые могут иметь отношение к вам и которые вы могли бы включить в свой файл. Это объясняется более подробно ниже.

Настройка пользовательского агента

Ваши роботы.txt необходимо начинать с команды «User-agent:». Он используется для предоставления инструкций конкретному сканеру поисковой системы или всем, например, User-agent: Googlebot . Робот Googlebot — это поисковый робот Google, и эта команда просто означает «Google: следуйте приведенным ниже инструкциям».

Если вы хотите дать команду , все сканеры просто используют User-agent: *

Вы можете найти полный список сканеров поисковых систем, если хотите дать указание конкретному из них заменить символ * в команде User-agent :.

Исключение страниц из индексации

После команды User-agent вы можете использовать инструкции Allow: и Disallow:, чтобы указать поисковым роботам, какие страницы или папки не индексировать.

Например, чтобы разрешить сканирование всего на вашем веб-сайте (всеми поисковыми роботами), но исключить определенные страницы (например, страницу условий и страницу входа администратора на вашем веб-сайте), вы должны указать в своем файле robots.txt файл:

Кроме того, если вы не хотите, чтобы определенные типы файлов на вашем веб-сайте сканировались, например, инструкции в формате PDF или формы заявок, вы можете использовать Disallow: / * pdf $

Карта сайта Расположение

Как обсуждалось ранее, сообщение поисковым роботам, где находится ваша XML-карта сайта, является хорошей практикой SEO для вашего сайта.Вы можете указать это в своем файле robots.txt с помощью:

Этот набор команд позволит сканировать все, что есть на вашем веб-сайте, всеми сканерами поисковых систем.

Распространенные ошибки в файлах Robots.txt

Очень важно, чтобы вы полностью понимали инструкции, которые используются в файле robots.txt. Сделайте это неправильно, и вы можете испортить или уничтожить вашу видимость поиска.

Например, если вы используете следующие команды в своем файле robots.txt, вы даете указание ВСЕМ поисковым роботам игнорировать домен ВСЕГО .

Также стоит помнить, что файл robots.txt не предназначен для обеспечения безопасности вашего веб-сайта. Если на вашем сайте есть области, которые необходимо защитить, вы не можете полагаться на файл robots.txt, чтобы скрыть их. Фактически, добавление их местоположения в ваш файл robots.txt было бы небезопасным по своей сути. Вместо этого вам нужно убедиться, что все области веб-сайта, которые необходимо защитить, защищены паролем.
Помните, что файл robots.txt является руководством, и не гарантируется, что все поисковые роботы будут всегда следовать этим инструкциям.

Если вы все еще не уверены, мы настоятельно рекомендуем использовать это подробное руководство в Инструментах Google для веб-мастеров, которое охватывает более сложные команды и тестирует то, что у вас уже есть.

Спасибо Бену Вуду за то, что поделился своими советами и мнениями в этом посте. Бен — менеджер SEM в Ноттингемском агентстве Hallam Internet. Вы можете подписаться на него в Twitter, подключиться к LinkedIn или Google+.

Средство проверки и тестирования Robots.txt

Файл robots.txt

Файл robots.txt — это простой текстовый файл, используемый для информирования робота Googlebot об областях домена, которые могут сканироваться сканером поисковой системы, и тех, которые не могут. Кроме того, ссылку на карту сайта XML также можно включить в файл robots.txt. Перед тем, как бот поисковой системы начнет индексировать , он сначала ищет в корневом каталоге файл robots.txt и считывает указанные там спецификации.Для этого текстовый файл необходимо сохранить в корневом каталоге домена и присвоить ему имя: robots.txt .

Файл robots.txt можно просто создать с помощью текстового редактора. Каждый файл состоит из двух блоков. Сначала указывается пользовательский агент, к которому должна применяться инструкция, затем следует команда «Disallow», после которой перечисляются URL-адреса, которые должны быть исключены из сканирования. Пользователь должен всегда проверять правильность файла robots.txt перед его загрузкой в корневой каталог веб-сайта.Даже малейшая ошибка может привести к тому, что бот проигнорирует спецификации и, возможно, включит страницы, которые не должны отображаться в индексе поисковой системы.

Этот бесплатный инструмент от Ryte позволяет протестировать файл robots.txt. Вам нужно только ввести соответствующий URL-адрес и выбрать соответствующий пользовательский агент. При нажатии на «Начать тест» инструмент проверяет, разрешено ли сканирование по указанному вами URL. Вы также можете использовать Ryte FREE для проверки множества других факторов на своем веб-сайте! Вы можете анализировать и оптимизировать до 100 URL-адресов с помощью Ryte FREE.Просто нажмите здесь, чтобы получить БЕСПЛАТНУЮ учетную запись »

Самая простая структура файла robots.txt выглядит следующим образом:

Пользовательский агент: * Disallow:

Этот код дает роботу Googlebot разрешение сканировать все страницы. Чтобы бот не сканировал весь веб-сайт, вы должны добавить в файл robots.txt следующее:

Пользовательский агент: * Disallow: /

Пример: Если вы хотите запретить сканирование каталога / info / роботом Googlebot, вы должны ввести следующую команду в файле robots.txt файл:

Пользовательский агент: Googlebot Disallow: / info /

Дополнительную информацию о файле robots.txt можно найти здесь:

Управление файлами Robots.txt и Sitemap

03.06.2009
7 минут на чтение

В этой статье

Руслана Якушева

Набор инструментов поисковой оптимизации IIS включает функцию исключения роботов , которую можно использовать для управления содержимым роботов.txt для вашего веб-сайта и включает в себя функцию Sitemap и Sitemap Indexes , которую вы можете использовать для управления файлами Sitemap. В этом пошаговом руководстве объясняется, как и зачем использовать эти функции.

Фон

Поисковые роботы

будут тратить на ваш веб-сайт ограниченное время и ресурсы. Поэтому очень важно сделать следующее:

Запретить поисковым роботам индексировать контент, который не важен или который не должен отображаться на страницах результатов поиска.
Направьте поисковые роботы на контент, который вы считаете наиболее важным для индексации.

Для решения этих задач обычно используются два протокола: протокол исключения роботов и протокол Sitemaps.

Протокол исключения роботов используется для того, чтобы сообщить сканерам поисковых систем, какие URL-адреса НЕ следует запрашивать при сканировании веб-сайта. Инструкции по исключению помещаются в текстовый файл с именем Robots.txt, который находится в корне веб-сайта.Большинство сканеров поисковых систем обычно ищут этот файл и следуют содержащимся в нем инструкциям.

Протокол Sitemaps используется для информирования сканеров поисковых систем об URL-адресах, доступных для сканирования на вашем веб-сайте. Кроме того, файлы Sitemap используются для предоставления некоторых дополнительных метаданных об URL-адресах сайта, таких как время последнего изменения, частота изменений, относительный приоритет и т. Д. Поисковые системы могут использовать эти метаданные при индексировании вашего веб-сайта.

Предварительные требования

1.Настройка веб-сайта или приложения

Для выполнения этого пошагового руководства вам понадобится размещенный веб-сайт IIS 7 или выше или веб-приложение, которым вы управляете. Если у вас его нет, вы можете установить его из галереи веб-приложений Microsoft. В этом пошаговом руководстве мы будем использовать популярное приложение для ведения блогов DasBlog.

2. Анализ веб-сайта

Если у вас есть веб-сайт или веб-приложение, вы можете проанализировать его, чтобы понять, как обычная поисковая система будет сканировать его содержимое.Для этого выполните действия, описанные в статьях «Использование анализа сайта для сканирования веб-сайта» и «Использование отчетов анализа сайта». Когда вы проведете свой анализ, вы, вероятно, заметите, что у вас есть определенные URL-адреса, которые доступны для сканирования поисковыми системами, но нет никакой реальной пользы от их сканирования или индексации. Например, страницы входа или страницы ресурсов не должны даже запрашиваться сканерами поисковых систем. Подобные URL-адреса следует скрыть от поисковых систем, добавив их в файл Robots.txt файл.

Управление файлом Robots.txt

Вы можете использовать функцию исключения роботов IIS SEO Toolkit для создания файла Robots.txt, который сообщает поисковым системам, какие части веб-сайта не должны сканироваться или индексироваться. Следующие шаги описывают, как использовать этот инструмент.

Откройте консоль управления IIS, набрав INETMGR в меню «Пуск».
Перейдите на свой веб-сайт, используя древовидное представление слева (например, веб-сайт по умолчанию).
Щелкните значок Search Engine Optimization в разделе «Управление»:
На главной странице SEO щелкните ссылку задачи « Добавить новое правило запрета » в разделе Исключение роботов .

Добавление запрещающих и разрешающих правил

Диалоговое окно «Добавить запрещающие правила» откроется автоматически:

Протокол исключения роботов

использует директивы «Разрешить» и «Запрещать», чтобы информировать поисковые системы о путях URL, которые можно сканировать, и о тех, которые нельзя сканировать.Эти директивы могут быть указаны для всех поисковых систем или для определенных пользовательских агентов, идентифицированных HTTP-заголовком пользовательского агента. В диалоговом окне «Добавить запрещающие правила» вы можете указать, к какому искателю поисковой системы применяется директива, введя пользовательский агент искателя в поле «Робот (пользовательский агент)».

Древовидное представление пути URL-адреса используется для выбора запрещенных URL-адресов. Вы можете выбрать один из нескольких вариантов при выборе путей URL с помощью раскрывающегося списка «Структура URL»:

Физическое расположение — вы можете выбрать пути из физического макета файловой системы вашего веб-сайта.
From Site Analysis (название анализа) — вы можете выбрать пути из виртуальной структуры URL-адресов, которая была обнаружена при анализе сайта с помощью инструмента IIS Site Analysis.
<Запустить новый анализ сайта ...> — вы можете запустить новый анализ сайта, чтобы получить виртуальную структуру URL-адресов для вашего веб-сайта, а затем выбрать оттуда пути URL.

После выполнения шагов, описанных в разделе предварительных требований, вам будет доступен анализ сайта. Выберите анализ в раскрывающемся списке, а затем проверьте URL-адреса, которые необходимо скрыть от поисковых систем, установив флажки в дереве «Пути URL-адресов»:

После выбора всех каталогов и файлов, которые необходимо запретить, нажмите OK.Вы увидите новые запрещающие записи в главном окне функций:

Также будет обновлен файл Robots.txt для сайта (или создан, если он не существует). Его содержимое будет выглядеть примерно так:

  Агент пользователя: *
Запретить: /EditConfig.aspx
Запретить: /EditService.asmx/
Запретить: / images /
Запретить: /Login.aspx
Запретить: / scripts /
Запретить: /SyndicationService.asmx/

Чтобы увидеть, как работает Robots.txt, вернитесь к функции анализа сайта и повторно запустите анализ сайта.На странице «Сводка отчетов» в категории « ссылок » выберите « ссылок, заблокированных файлом Robots.txt ». В этом отчете будут показаны все ссылки, которые не были просканированы, поскольку они были запрещены только что созданным файлом Robots.txt.

Управление файлами Sitemap

Вы можете использовать функцию Sitemaps и Sitemap Indexes IIS SEO Toolkit для создания карт сайта на своем веб-сайте, чтобы информировать поисковые системы о страницах, которые следует сканировать и проиндексировать.Для этого выполните следующие действия:

Откройте диспетчер IIS, набрав INETMGR в меню Пуск .
Перейдите на свой веб-сайт с помощью древовидной структуры слева.
Щелкните значок Search Engine Optimization в разделе «Управление»:
На главной странице SEO щелкните ссылку задачи « Создать новую карту сайта » в разделе «Карты сайта и Индексы карты сайта ».
Диалоговое окно Добавить карту сайта откроется автоматически.
Введите имя файла карты сайта и нажмите ОК . Откроется диалоговое окно Добавить URL-адреса .

Добавление URL-адресов в карту сайта

Диалоговое окно Добавить URL-адреса выглядит следующим образом:

Файл Sitemap представляет собой простой XML-файл, в котором перечислены URL-адреса вместе с некоторыми метаданными, такими как частота изменений, дата последнего изменения и относительный приоритет. Используйте диалоговое окно Добавить URL-адреса , чтобы добавить новые записи URL-адресов в XML-файл Sitemap.Каждый URL-адрес в карте сайта должен иметь полный формат URI (т.е. он должен включать префикс протокола и имя домена). Итак, первое, что вам нужно указать, это домен, который будет использоваться для URL-адресов, которые вы собираетесь добавить в карту сайта.

Древовидное представление пути URL-адреса используется для выбора URL-адресов, которые следует добавить в карту сайта для индексации. Вы можете выбрать один из нескольких вариантов, используя раскрывающийся список «Структура URL»:

Физическое расположение — вы можете выбрать URL-адреса из физической структуры файловой системы вашего веб-сайта.
From Site Analysis (название анализа) — вы можете выбрать URL-адреса из виртуальной структуры URL-адресов, которая была обнаружена при анализе сайта с помощью инструмента Site Analysis.
<Запустить новый анализ сайта ...> — вы можете запустить новый анализ сайта, чтобы получить виртуальную структуру URL-адресов для вашего веб-сайта, а затем выбрать оттуда URL-пути, которые вы хотите добавить для индексации.

После того, как вы выполнили шаги в разделе предварительных требований, вам будет доступен анализ сайта.Выберите его из раскрывающегося списка, а затем проверьте URL-адреса, которые необходимо добавить в карту сайта.

При необходимости измените параметры Частота изменения , Дата последнего изменения и Приоритет , а затем нажмите ОК , чтобы добавить URL-адреса в карту сайта. Файл sitemap.xml будет обновлен (или создан, если он не существует), и его содержимое будет выглядеть следующим образом:

  
  
     http: // myblog / 2009/03/11 / Поздравляем, вы установилиDasBlogWithWebDeploy.aspx 
     2009-06-03T16: 05: 02 
     еженедельно 
     0,5 
  
  
     http: //myblog/2009/06/02/ASPNETAndURLRewriting.aspx 
     2009-06-03T16: 05: 01 
     еженедельно 
     0,5

Добавление местоположения карты сайта в Robots.txt файл

Теперь, когда вы создали карту сайта, вам нужно сообщить поисковым системам, где она находится, чтобы они могли начать ее использовать. Самый простой способ сделать это — добавить URL-адрес карты сайта в файл Robots.txt.

В функции Sitemaps и Sitemap Indexes выберите карту сайта, которую вы только что создали, а затем щелкните Добавить в Robots.txt на панели Actions :

Ваш файл Robots.txt будет выглядеть примерно так:

  Агент пользователя: *
Запретить: / EditService.asmx /
Запретить: / images /
Запретить: / scripts /
Запретить: /SyndicationService.asmx/
Запретить: /EditConfig.aspx
Запретить: /Login.aspx

Карта сайта: http: //myblog/sitemap.xml

Регистрация карты сайта в поисковых системах

Помимо добавления местоположения карты сайта в файл Robots.txt, рекомендуется отправить URL-адрес карты сайта в основные поисковые системы. Это позволит вам получать полезный статус и статистику о вашем веб-сайте с помощью инструментов веб-мастеров поисковой системы.

Сводка

В этом пошаговом руководстве вы узнали, как использовать функции исключения роботов и файлов Sitemap и Sitemap Indexes из набора инструментов поисковой оптимизации IIS для управления файлами Robots.txt и Sitemap на вашем веб-сайте. IIS Search Engine Optimization Toolkit предоставляет интегрированный набор инструментов, которые работают вместе, чтобы помочь вам создать и проверить правильность файлов Robots.txt и карты сайта до того, как поисковые системы начнут их использовать.

Что такое роботы.текст?

Robots.txt — это файл, связанный с вашим веб-сайтом, который используется для запроса различных поисковых роботов сканировать или не сканировать части вашего сайта.

Файл robots.txt в основном используется для указания, какие части вашего веб-сайта должны сканироваться пауками или поисковыми роботами. Он может указывать разные правила для разных пауков.

Googlebot — пример паука. Он развертывается Google для сканирования Интернета и записи информации о веб-сайтах, чтобы знать, насколько высоко ранжируются различные веб-сайты в результатах поиска.

Использование файла robots.txt на вашем веб-сайте является веб-стандартом. Пауки ищут файл robots.txt в каталоге хоста (или в основной папке) вашего веб-сайта. Этот текстовый файл всегда называется «robots.txt». Вы можете найти свой файл robots.txt по адресу:

yourwebsite.com/robots.txt

Большинство обычных пауков подчиняются указаниям, указанным в файлах robots.txt, но гнусные пауки не могут. Содержимое файлов robot.txt общедоступно. Вы можете попытаться заблокировать нежелательных пауков, отредактировав файл.htaccess, связанный с вашим сайтом.

Важно, чтобы маркетологи проверяли свой файл robots.txt, чтобы убедиться, что поисковым системам предлагается сканировать важные страницы. Если вы попросите поисковые системы не сканировать ваш сайт, он не будет отображаться в результатах поиска.

Вы также можете использовать файл robots.txt, чтобы показать поисковым роботам, где найти карту сайта вашего веб-сайта, что может сделать ваш контент более доступным для обнаружения.

Вы также можете указать задержку сканирования, или сколько секунд роботы должны ждать перед сбором дополнительной информации.Некоторым веб-сайтам может потребоваться использовать этот параметр, если боты съедают пропускную способность и заставляют ваш веб-сайт загружаться медленнее для посетителей.

Пример файла Robots.txt

Вот что может появиться в файле robots.txt:

User-agent: * Disallow: /ebooks/*.pdf Disallow: / staging /

User-agent: Googlebot-Image Disallow: / images /

Вот что означает каждая строка на простом английском языке.

User-agent: * — Первая строка объясняет, что следующие правила должны соблюдаться всеми поисковыми роботами.В данном контексте звездочка означает всех пауков.

Disallow: /ebooks/*.pdf — В сочетании с первой строкой эта ссылка означает, что все веб-сканеры не должны сканировать какие-либо файлы PDF в папке электронных книг на этом веб-сайте. Это означает, что поисковые системы не будут включать эти прямые ссылки PDF в результаты поиска.

Disallow: / staging / — В сочетании с первой строкой эта строка просит всех поисковых роботов не сканировать ничего в промежуточной папке веб-сайта.Это может быть полезно, если вы проводите тестирование и не хотите, чтобы поэтапный контент появлялся в результатах поиска.

User-agent: Googlebot-Image — здесь объясняется, что следующим правилам должен следовать только один конкретный сканер, сканер изображений Google. Каждый паук использует свое имя «пользовательского агента».

Disallow: / images / — вместе со строкой, расположенной непосредственно над этой, это просит поисковый робот Google Images не сканировать изображения в папке изображений.

Ресурсы Robots.txt

Синонимы

Стандарт исключения роботов

Начать отслеживание SERPS

Следите за ходом своей маркетинговой кампании, отслеживая рейтинг ваших ключевых слов в нескольких поисковых системах, на разных устройствах или на почтовых индексах ежедневно, еженедельно или ежемесячно.