Wix директива host: директивы, рекомендации, ошибки и примеры robots.txt для разных сайтов

Содержание

Файл robots txt для сайта на WordPress, Joomla, OpenCart, Bitrix

СОДЕРЖАНИЕ

Файл robots.txt для сайта

Где находится robots.txt на сайте?

Директивы robots.txt

Правило Disallow

Правило Allow

User-agent

Sitemap

Host

Crawl delay

Clean param

Самые частые вопросы

Как в robots.txt запретить индексацию?

Как в robots.txt указать главное зеркало?

Простейший пример правильного robots.txt

Закрытый от индексации сайт – как выглядит robots.txt?

Как указать главное зеркало для сайта на https robots.txt?

Наиболее частые ошибки в robots.txt

Онлайн-проверка файла robots.txt

Готовые решения для самых популярных CMS

robots.txt для WordPress

robots.txt для Joomla

robots.txt Wix

robots.txt для Opencart

robots.txt для Битрикс (Bitrix)

robots.txt для Modx

Выводы

Файл robots.txt для сайта

Robots.txt для сайта – это индексный текстовый файл в кодировке UTF-8.

Индексным его назвали потому, что в нем прописываются рекомендации для поисковых роботов – какие страницы нужно просканировать, а какие не нужно.

Если кодировка файла отличается от UTF-8, то поисковые роботы могут неправильно воспринимать находящуюся в нем информацию.

Файл действителен для протоколов http, https, ftp, а также имеет «силу» только в пределах хоста/протокола/номера порта, на котором размещен.

Где находится robots.txt на сайте?

У файла robots.txt может быть только одно расположение – корневой каталог на хостинге. Выглядит это примерно вот так: http://vash-site.xyz/robots.txt

Директивы файла robots txt для сайта

Обязательными составляющими файла robots.txt для сайта являются правило Disallow и инструкция User-agent. Есть и второстепенные правила.

Правило Disallow

Disallow – это правило, с помощью которого поисковому роботу сообщается информация о том, какие страницы сканировать нет смысла. И сразу же несколько конкретных примеров применения этого правила:

Пример 1 — разрешено индексировать весь сайт:

Пример 2 — полностью запретить индексацию сайта:

Продвижение сайтов в таком случае будет бесполезно. Применение этого примера актуально в том случае, если сайт «закрыт» на доработку (например, неправильно функционирует). В этом случае сайту в поисковой выдаче не место, поэтому его нужно через файл robots txt закрыть от индексации. Разумеется, после того, как сайт будет доработан, запрет на индексирование надо снять, но об этом забывают.

Пример 3 – запрещено сканирование всех документов, находящихся в папке /papka/:

Пример 4 – запретить индексацию страницы с конкретным URL:

Пример 5 – запрещено индексировать конкретный файл (в данном случае – изображение):

Пример 6 – как в robots txt закрыть от индексации файлы конкретного расширения (в данном случае — .gif):

Звездочка перед .gif$ сообщает, что имя файла может быть любым, а знак $ сообщает о конце строки. Т.е. такая «маска» запрещает сканирование вообще всех GIF-файлов.

Правило Allow в robots txt

Правило Allow все делает с точностью до наоборот – разрешает индексирование файла/папки/страницы.

И сразу же конкретный пример:

Мы с вами уже знаем, что с помощью директивы Disallow: / мы можем закрыть сайт от индексации robots txt. В то же время у нас есть правило Allow: /catalog, которое разрешает сканирование папки /catalog. Поэтому комбинацию этих двух правил поисковые роботы будут воспринимать как «запрещено сканировать сайт, за исключением папки /catalog»

Сортировка правил и директив Allow и Disallow производится по возрастанию длины префикса URL и применяется последовательно. Если для одной и той же страницы подходит несколько правил, то робот выбирает последнее подходящее из списка.

Рассмотрим 2 ситуации с двумя правилами, которые противоречат друг другу — одно правило запрещает индексировать папки /content, а другое – разрешает.

В данном случае будет приоритетнее директива Allow, т.к. оно находится ниже по списку:

А вот здесь приоритетным является директива Disallow по тем же причинам (ниже по списку):

User-agent в robots txt

User-agent — правило, являющееся «обращением» к поисковому роботу, мол, «список рекомендаций специально для вас» (к слову, списков в robots.txt может быть несколько – для разных поисковых роботов от Google и Яндекс).

Например, в данном случае мы говорим «Эй, Googlebot, иди сюда, тут для тебя специально подготовленный список рекомендаций», а он такой «ОК, специально для меня – значит специально для меня» и другие списки сканировать не будет.

Правильный robots txt для Google (Googlebot)

Примерно та же история и с поисковым ботом Яндекса. Забегая вперед, список рекомендаций для Яндекса почти в 100% случаев немного отличается от списка для других поисковых роботов (чем – расскажем чуть позже). Но суть та же: «Эй, Яндекс, для тебя отдельный список» — «ОК, сейчас изучим его».

И последний вариант – рекомендации для всех поисковых роботов (кроме тех, у которых отдельные списки). Через «звездочку» было решено сделать по одной простой причине – чтоб не перечислять «поименно» все 300 с чем-то роботов.

Т.е. если в одном и том же robots.txt есть 3 списка с User-agent: *, User-agent: Googlebot и User-agent: Yandex, это значит, первый является «одним для всех», за исключением Googlebot и Яндекс, т.к. для них есть «личные» списки.

Sitemap

Правило Sitemap — расположение файла с XML-картой сайта, в которой содержатся адреса всех страниц, являющихся обязательными к сканированию. Как правило, указывается адрес вида http://site.ua/sitemap.xml.

Т.е. каждый раз поисковый робот будет просматривать карту сайта на предмет появления новых адресов, а затем переходить по ним для дальнейшего сканирования, дабы освежить информацию о сайте в базах данных поисковой системы.

Правило Sitemap должно быть вписано в Robots.txt следующим образом:

Директива Host

Межсекционная директива Host в файле robots.txt так же является обязательной. Она необходима для поискового робота Яндекса — сообщает ему, какое из зеркал сайта нужно учитывать при индексировании. Именно поэтому для Яндекса формируется отдельный список правил, т.к. Google и остальные поисковые системы директиву Host не понимают. Поэтому если у вашего сайта есть копии или же сайт может открываться под разными URL адресами, то добавьте директиву host в файл robots txt, чтобы страницы сайта правильно индексировались.

«Зеркалом сайта» принято называть либо точную, либо почти точную «копию» сайта, которая доступна по другому адресу.

Адрес основного зеркала обязательно должно быть указано следующим образом:

— для сайтов, работающих по http — Host: site.ua или Host: http://site.ua (т.е. http:// пишется по желанию)

— для сайтов, работающих по https – Host: https://site.ua (т.е. https:// прописывается в обязательном порядке)

Пример директивы host в robots txt для сайта на протоколе HTTPS:

Crawl delay

В отличие от предыдущих, параметр Crawl-delay уже не является обязательным. Основная его задача – подсказать поисковому роботу, в течение скольких секунд будут грузиться страницы. Обычно применяется в том случае, если Вы используете слабые сервера. Актуален только для Яндекса.

Clean param

С помощью директивы Clean-param можно бороться с get-параметрами, чтобы не происходило дублирование контента, т.к. один и тот же контент бывает доступен по разным динамическим ссылкам (это те, которые со знаками вопроса). Динамические ссылки могут генерироваться сайтом в том случае, когда используются различные сортировки, применяются идентификаторы сессий и т.д.

Например, один и тот же контент может быть доступен по трем адресам:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

В таком случае директива Clean-param оформляется вот так:

Т.е. после двоеточия прописывается атрибут ref, указывающий на источник ссылки, и только потом указывается ее «хвост» (в данном случае — /catalog/get_phone.ua).

Самые частые вопросы

Как в robots.txt запретить индексацию?

Для этих целей придумано правило Disallow: т.е. копируем ссылку на документ/файл, который нужно закрыть от индексации, вставляем ее после двоеточия:

А затем удаляете адрес домена (в данном случае удалить надо вот эту часть — http://your-site.xyz). После удаления у нас останется ровно то, что и должно остаться:

User-agent: *

Disallow: /privance.html

Disallow: /foord.doc

Disallow: /barcode.jpg

Ну а если требуется закрыть от индексирования все файлы с определенным расширением, то правила будут выглядеть следующим образом:

User-agent: *

Disallow: /*.html

Disallow: /*.doc

Disallow: /*.jpg

Как в robots.txt указать главное зеркало?

Для этих целей придумана директива Host. Т.е. если адреса http://your-site.xyz и http://yoursite.com являются «зеркалами» одного и того же сайта, то одно из них необходимо указать в директиве Host. Пусть основным зеркалом будет http://your-site.xyz. В этом случае правильными вариантами будут следующие:

— если сайт работает по https-протоколу, то нужно делать только так:

User-agent: Yandex

Disallow: /privance.html

Disallow: /foord.doc

Disallow: /barcode.jpg

Host: https://your-site.xyz

— если сайт работает по http-протоколу, то оба приведенных ниже варианта будут верными:

User-agent: Yandex

Disallow: /privance.html

Disallow: /foord.doc

Disallow: /barcode.jpg

Host: http://your-site.xyz

User-agent: Yandex

Disallow: /privance.html

Disallow: /foord.doc

Disallow: /barcode.jpg

Host: your-site.xyz

Однако, следует помнить, директива Host является рекомендацией, а не правилом. Т.е. не исключено, что в Host будет указан один домен, а Яндекс посчитает за основное зеркало другой, если у него в панели вебмастера введены соответствующие настройки.

Простейший пример правильного robots.txt

В таком виде файл robots.txt можно разместить практически на любом сайте (с мельчайшими корректировками).

Давайте теперь разберем, что тут есть.

  1. Здесь 2 списка правил – один «персонально» для Яндекса, другой – для всех остальных поисковых роботов.
  2. Правило Disallow: пустое, а значит никаких запретов на сканирование нет.
  3. В списке для Яндекса присутствует директива Host с указанием основного зеркала, а также, ссылка на карту сайта.

НО… Это НЕ значит, что нужно оформлять robots.txt именно так. Правила должны быть прописаны строго индивидуально для каждого сайта. Например, нет смысла индексировать «технические» страницы (страницы ввода логина-пароля, либо тестовые страницы, на которых отрабатывается новый дизайн сайта, и т.д.). Правила, кстати, зависят еще и от используемой CMS.

Закрытый от индексации сайт – как выглядит robots.txt?

Даем сразу же готовый код, который позволит запретить индексацию сайта независимо от CMS:

Как указать главное зеркало для сайта на https robots.txt?

Очень просто:

Host: https://your-site.xyz

ВАЖНО!!! Для https-сайтов протокол должен указываться строго обязательно!

Наиболее частые ошибки в robots.txt

Специально для Вас мы приготовили подборку самых распространенных ошибок, допускаемых в robots.txt. Почти все эти ошибки объединяет одно – они допускаются по невнимательности.

1. Перепутанные инструкции:

Правильный вариант:

2. В один Disallow вставляется куча папок:

В такой записи робот может запутаться. Какую папку нельзя индексировать? Первую? Последнюю? Или все? Или как? Или что? Одна папка = одно правило Disallow и никак иначе.

3. Название файла допускается только одно — robots.txt, причем все буквы маленькие. Имена Robots.txt, ROBOTS.TXT и т.п. не допускаются.

4. Правило User-agent запрещено оставлять пустым. Либо указываем имя поискового робота (например, для Яндекса), либо ставим звездочку (для всех остальных).

5. Мусор в файле (лишние слэши, звездочки и т.д.).

6. Добавление в файл полных адресов скрываемых страниц, причем иногда даже без правила Disallow.

Неправильно:

http://mega-site.academy/serrot.html

Тоже неправильно:

Disallow: http://mega-site.academy/serrot.html

Правильно:

Disallow: /serrot.html

Онлайн-проверка файла robots.txt

Существует несколько способов проверки файла robots.txt на соответствие общепринятому в интернете стандарту.

Способ 1. Зарегистрироваться в панелях веб-мастера Яндекс и Google. Единственный минус – придется покопаться, чтоб разобраться с функционалом. Далее вносятся рекомендованные изменения и готовый файл закачивается на хостинг.

Способ 2. Воспользоваться онлайн-сервисами:

— https://services.sl-team.ru/other/robots/

— https://technicalseo.com/seo-tools/robots-txt/

— http://tools.seochat.com/tools/robots-txt-validator/

Итак, robots.txt сформирован. Осталось только проверить его на ошибки. Лучше всего использовать для этого инструменты, предлагаемые самими поисковыми системами.

Google Вебмастерс (Search Console Google): заходим в аккаунт, если в нем сайт не подтвержден – подтверждаем, далее переходим на Сканирование -> Инструмент проверки файла robots.txt.

Здесь можно:

  • моментально обнаружить все ошибки и потенциально возможные проблемы,
  • сразу же «на месте» внести поправки и проверить на ошибки еще раз (чтоб не перезагружать файл на сайт по 20 раз)
  • проверить правильность запретов и разрешений индексирования страниц.

Яндекс Вебмастер (прямая ссылка — http://webmaster.yandex.ru/robots.xml).

Является аналогом предыдущего, за исключением:

  • авторизация не обязательна;
  • подтверждение прав на сайт не обязательно;
  • доступна массовая проверка страниц на доступность;
  • можно убедиться, что все правила правильно восприняты Яндексом.

Готовые решения для самых популярных CMS

Правильный robots.txt для WordPress

User-agent: *

Disallow: /cgi-bin # классика жанра

Disallow: /? # любые параметры запроса на главной

Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

Disallow: *?s= # поиск

Disallow: *&s= # поиск

Disallow: /search # поиск

Disallow: /author/ # архив автора

Disallow: *?attachment_id= # страница вложения. Вообще-то на ней редирект…

Disallow: */feed # все фиды

Disallow: */rss # rss фид

Disallow: */embed # все встраивания

Disallow: */page/ # все виды пагинации

Allow: */uploads # открываем uploads

Allow: /*/*.js # внутри /wp- (/*/ — для приоритета)

Allow: /*/*.css # внутри /wp- (/*/ — для приоритета)

Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.svg # картинки в плагинах, cache папке и т.д.

Allow: /wp-*.pdf # файлы в плагинах, cache папке и т.д.

#Disallow: /wp/ # когда WP установлен в подкаталог wp

Sitemap: http://site.ru/sitemap.xml

Sitemap: http://site.ru/sitemap2.xml # еще один файл

#Sitemap: http://site.ru/sitemap.xml.gz # сжатая версия (.gz)

Host: www.site.ru # для Яндекса и Mail.RU. (межсекционная)

# Версия кода: 1.0

# Не забудьте поменять `site.ru` на ваш сайт.

Давайте разберем код файла robots txt для WordPress CMS:

User-agent: *

Здесь мы указываем, что все правила актуальны для всех поисковых роботов (за исключением тех, для кого составлены «персональные» списки). Если список составляется для какого-то конкретного робота, то * меняется на имя робота:

User-agent: Yandex

User-agent: Googlebot

Allow: */uploads

Здесь мы осознанно даем добро на индексирование ссылок, в которых содержится /uploads. В данном случае это правило является обязательным, т.к. в движке WordPress есть директория /wp-content/uploads (в которой вполне могут содержаться картинки, либо другой «открытый» контент), индексирование которой запрещено правилом Disallow: /wp-. Поэтому с помощью Allow: */uploads мы делаем исключение из правила Disallow: /wp-.

В остальном просто идут запреты на индексирование:

Disallow: /cgi-bin – запрет на индексирование скриптов

Disallow: /feed – запрет на сканирование RSS-фида

Disallow: /trackback – запрет сканирования уведомлений

Disallow: ?s= или Disallow: *?s= — запрет на индексирование страниц внутреннего поиска сайта

Disallow: */page/ — запрет индексирования всех видов пагинации

Правило Sitemap: http://site.ru/sitemap.xml указывает Яндекс-роботу путь к файлу с xml-картой. Путь должен быть прописан полностью. Если таких файлов несколько – прописываем несколько Sitemap-правил (1 файл = 1 правило).

В строке Host: site.ru мы специально для Яндекса прописали основное зеркало сайта. Оно указывается для того, чтоб остальные зеркала индексировались одинаково. Пустая строка перед Host: является обязательной.

Где находится robots txt WordPress вы все наверное знаете — так как и в другие CMS, данный файл должен находится в корневом каталоге сайта.

Файл robots.txt для Joomla

Joomla — почти самый популярный движок у вебмастеров, т.к. не смотря на широчайшие возможности и множества готовых решений, он поставляется бесплатно. Однако, штатный robots.txt всегда имеет смысл подправить, т.к. для индексирования открыто слишком много «мусора», но картинки закрыты (это плохо).

Вот так выглядит правильный robots.txt для Joomla :

User-agent: *

Disallow: /administrator/

Disallow: /bin/

Disallow: /cache/

Disallow: /cli/

Disallow: /components/

Disallow: /images/

Disallow: /includes/

Disallow: /installation/

Disallow: /language/

Disallow: /layouts/

Disallow: /libraries/

Disallow: /logs/

Disallow: /media/

Disallow: /modules/

Disallow: /plugins/

Disallow: /templates/

Disallow: /tmp/

robots.txt Wix

Платформа Wix автоматически генерирует файлы robots.txt персонально для каждого сайта Wix. Т.е. к Вашему домену добавляете /robots.txt (например: www.domain.com/robots.txt) и можете спокойно изучить содержимое файла robots.txt, находящегося на Вашем сайте.

Отредактировать robots.txt нельзя. Однако с помощью noindex можно закрыть какие-то конкретные страницы от индексирования.

robots.txt для Opencart

Стандартный файл robots.txt для OpenCart:

User-agent: *

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?filter_name=

Disallow: /*&filter_name=

Disallow: /*?filter_sub_category=

Disallow: /*&filter_sub_category=

Disallow: /*?filter_description=

Disallow: /*&filter_description=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*?page=

Disallow: /*&page=

Disallow: /wishlist

Disallow: /login

Disallow: /index.php?route=product/manufacturer

Disallow: /index.php?route=product/compare

Disallow: /index.php?route=product/category

 

User-agent: Yandex

Disallow: /*route=account/

Disallow: /*route=affiliate/

Disallow: /*route=checkout/

Disallow: /*route=product/search

Disallow: /index.php?route=product/product*&manufacturer_id=

Disallow: /admin

Disallow: /catalog

Disallow: /download

Disallow: /export

Disallow: /system

Disallow: /*?sort=

Disallow: /*&sort=

Disallow: /*?order=

Disallow: /*&order=

Disallow: /*?limit=

Disallow: /*&limit=

Disallow: /*?tracking=

Disallow: /*&tracking=

Disallow: /*route=product/search

Disallow: /*?page=

Disallow: /*&page=

Clean-param: tracking

Clean-param: filter_name

Clean-param: filter_sub_category

Clean-param: filter_description

Disallow: /wishlist

Disallow: /login

Disallow: /index.php?route=product/manufacturer

Disallow: /index.php?route=product/compare

Disallow: /index.php?route=product/category

Host: Vash_domen

Sitemap: http://Vash_domen/sitemap.xml

robots.txt для Битрикс (Bitrix)

1. Папки /bitrix и /cgi-bin должны быть закрыты, т.к. это чисто технический «хлам», который незачем светить в поисковой выдаче.

Disallow: /bitrix

Disallow: /cgi-bin

2. Папка /search тоже не представляет интереса ни для пользователей, ни для поисковых систем. Да и образование дублей никому не нужно. Поэтому тоже ее закрываем.

3. Про формы PHP-аутентификации и авторизации на сайте тоже забывать нельзя – закрываем.

Disallow: /auth/

Disallow: /auth.php

4. Материалы для печати (например, счета на оплату) тоже нет смысла светить в поисковой выдаче. Закрываем.

Disallow: /*?print=

Disallow: /*&print=

5. Один из жирных плюсов «Битрикса» в том, что он фиксирует всю историю сайта – кто когда залогинился, кто когда сменил пароль, и прочую конфиденциальную информацию, утечка которой не допустима. Поэтому закрываем:

Disallow: /*register=yes

Disallow: /*forgot_password=yes

Disallow: /*change_password=yes

Disallow: /*login=yes

Disallow: /*logout=yes

Disallow: /*auth=yes

6. Back-адреса тоже нет смысла индексировать. Эти адреса могут образовываться, например, при просмотре фотоальбома, когда Вы сначала листаете его «вперед», а потом – «назад». В эти моменты в адресной строке вполне может появиться что-то типа матерного ругательства: ?back_url_ =%2Fbitrix%2F%2F. Ценность таких адресов равна нулю, поэтому их тоже закрываем от индексирования. Ну а в качестве бонуса – избавляемся от потенциальных «дублей» в поисковой выдаче.

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

7. Папку /upload необходимо закрывать строго по обстоятельствам. Если там хранятся фотографии и видеоматериалы, размещенные на страницах, то ее скрывать не нужно, чтоб не срезать дополнительный трафик. Ну а если что-то конфиденциальное – однозначно закрываем:

Готовый файл robots.txt для Битрикс:

User-agent: *

Allow: /map/

Allow: /search/map.php

Allow: /bitrix/templates/

Disallow: */index.php

Disallow: /*action=

Disallow: /*print=

Disallow: /*/gallery/*order=

Disallow: /*/search/

Disallow: /*/slide_show/

Disallow: /*?utm_source=

Disallow: /*ADD_TO_COMPARE_LIST

Disallow: /*arrFilter=

Disallow: /*auth=

Disallow: /*back_url_admin=

Disallow: /*BACK_URL=

Disallow: /*back_url=

Disallow: /*backurl=

Disallow: /*bitrix_*=

Disallow: /*bitrix_include_areas=

Disallow: /*building_directory=

Disallow: /*bxajaxid=

Disallow: /*change_password=

Disallow: /*clear_cache_session=

Disallow: /*clear_cache=

Disallow: /*count=

Disallow: /*COURSE_ID=

Disallow: /*forgot_password=

Disallow: /*ID=

Disallow: /*index.php$

Disallow: /*login=

Disallow: /*logout=

Disallow: /*modern-repair/$

Disallow: /*MUL_MODE=

Disallow: /*ORDER_BY

Disallow: /*PAGE_NAME=

Disallow: /*PAGE_NAME=detail_slide_show

Disallow: /*PAGE_NAME=search

Disallow: /*PAGE_NAME=user_post

Disallow: /*PAGEN_

Disallow: /*print_course=

Disallow: /*print=

Disallow: /*q=

Disallow: /*register=

Disallow: /*register=yes

Disallow: /*set_filter=

Disallow: /*show_all=

Disallow: /*show_include_exec_time=

Disallow: /*show_page_exec_time=

Disallow: /*show_sql_stat=

Disallow: /*SHOWALL_

Disallow: /*sort=

Disallow: /*sphrase_id=

Disallow: /*tags=

Disallow: /access.log

Disallow: /admin

Disallow: /api

Disallow: /auth

Disallow: /auth.php

Disallow: /auto

Disallow: /bitrix

Disallow: /bitrix/

Disallow: /cgi-bin

Disallow: /club/$

Disallow: /club/forum/search/

Disallow: /club/gallery/tags/

Disallow: /club/group/search/

Disallow: /club/log/

Disallow: /club/messages/

Disallow: /club/search/

Disallow: /communication/blog/search.php

Disallow: /communication/forum/search/

Disallow: /communication/forum/user/

Disallow: /content/board/my/

Disallow: /content/links/my/

Disallow: /error

Disallow: /e-store/affiliates/

Disallow: /e-store/paid/detail.php

Disallow: /examples/download/download_private/

Disallow: /examples/my-components/

Disallow: /include

Disallow: /personal

Disallow: /search

Disallow: /temp

Disallow: /tmp

Disallow: /upload

Disallow: /*/*ELEMENT_CODE=

Disallow: /*/*SECTION_CODE=

Disallow: /*/*IBLOCK_CODE

Disallow: /*/*ELEMENT_ID=

Disallow: /*/*SECTION_ID=

Disallow: /*/*IBLOCK_ID=

Disallow: /*/*CODE=

Disallow: /*/*ID=

Disallow: /*/*IBLOCK_EXTERNAL_ID=

Disallow: /*/*SECTION_CODE_PATH=

Disallow: /*/*EXTERNAL_ID=

Disallow: /*/*IBLOCK_TYPE_ID=

Disallow: /*/*SITE_DIR=

Disallow: /*/*SERVER_NAME=

Sitemap: http://site.ru/sitemap_index.xml

Sitemap: http://site.ru/sitemap.xml

Host: site.ru

robots.txt для Modx и Modx Revo

CMS Modx Revo тоже не лишена проблемы дублей. Однако, она не так сильно обострена, как в Битриксе. Теперь о ее решении.

  1. Включаем ЧПУ в настройках сайта.
  2. закрываем от индексации:

Disallow: /index.php # т.к. это дубль главной страницы сайта

Disallow: /*? # разом решаем проблему с дублями для всех страниц

Готовый файл robots.txt для Modx и Modx Revo:

User-agent: *

Disallow: /*?

Disallow: /*?id=

Disallow: /assets

Disallow: /assets/cache

Disallow: /assets/components

Disallow: /assets/docs

Disallow: /assets/export

Disallow: /assets/import

Disallow: /assets/modules

Disallow: /assets/plugins

Disallow: /assets/snippets

Disallow: /connectors

Disallow: /core

Disallow: /index.php

Disallow: /install

Disallow: /manager

Disallow: /profile

Disallow: /search

Sitemap: http://site.ru/sitemap.xml

Host: site.ru

Выводы

Без преувеличения файл robots.txt можно назвать «поводырём для поисковых роботов Яндекс и Гугл» (разумеется, если он составлен правильно). Если файл robots txt отсутствует, то его нужно обязательно создать и загрузить на хостинг Вашего сайта. Справка Disallow правил описаны выше в этой статьей и вы можете смело их использоваться в своих целях.

Еще раз резюмируем правила/директивы/инструкции для robots.txt:

  1. User-agent — указывает, для какого именно поискового робота создан список правил.
  2. Disallow – «рекомендую вот это не индексировать».
  3. Sitemap – указывает расположение XML-карты сайта со всеми URL, которые нужно проиндексировать. В большинстве случаев карта расположена по адресу http://[ваш_сайт]/sitemap.xml.
  4. Crawl-delay — директива, указывающая период (в секундах), через который будет загружена страница сайта.
  5. Host – показывает Яндексу основное зеркало сайта.
  6. Allow – «рекомендую вот это проиндексировать, не смотря на то, что это противоречит одному из Disallow-правил».
  7. Clean-param — помогает в борьбе с get-параметрами, применяется для снижения рисков образования страниц-дублей.

Знаки при составлении robots.txt:

  1. Знак «$» для «звездочки» является «ограничителем».
  2. После слэша «/» указывается наименование файла/папки/расширения, которую нужно скрыть (в случае с Disallow) или открыть (в случае с Allow) для индексирования.
  3. Знаком «*» обозначается «любое количество любых символов».
  4. Знаком «#» отделяются какие-либо комментарии или примечания, оставленные вэб-мастером для себя, либо для кого-то другого. Поисковые роботы их не читают.

Что такое User agent disallow

Файл robots.txt для сайта

Robots.txt для сайта – это индексный текстовый файл в кодировке UTF-8.

Индексным его назвали потому, что в нем прописываются рекомендации для поисковых роботов – какие страницы нужно просканировать, а какие не нужно.

Если кодировка файла отличается от UTF-8, то поисковые роботы могут неправильно воспринимать находящуюся в нем информацию.

Файл действителен для протоколов http, https, ftp, а также имеет «силу» только в пределах хоста/протокола/номера порта, на котором размещен.

Где находится robots.txt на сайте?

У файла robots.txt может быть только одно расположение – корневой каталог на хостинге. Выглядит это примерно вот так: http://vash-site.xyz/robots.txt

Директивы файла robots txt для сайта

Обязательными составляющими файла robots.txt для сайта являются правило Disallow и инструкция User-agent. Есть и второстепенные правила.

Правило Disallow

Disallow – это правило, с помощью которого поисковому роботу сообщается информация о том, какие страницы сканировать нет смысла. И сразу же несколько конкретных примеров применения этого правила:

Пример 1 — разрешено индексировать весь сайт:

Пример 2 — полностью запретить индексацию сайта:

Продвижение сайтов в таком случае будет бесполезно. Применение этого примера актуально в том случае, если сайт «закрыт» на доработку (например, неправильно функционирует). В этом случае сайту в поисковой выдаче не место, поэтому его нужно через файл robots txt закрыть от индексации. Разумеется, после того, как сайт будет доработан, запрет на индексирование надо снять, но об этом забывают.

Пример 3 – запрещено сканирование всех документов, находящихся в папке /papka/:

Пример 4 – запретить индексацию страницы с конкретным URL:

Пример 5 – запрещено индексировать конкретный файл (в данном случае – изображение):

Пример 6 – как в robots txt закрыть от индексации файлы конкретного расширения (в данном случае — .gif):

Звездочка перед .gif$ сообщает, что имя файла может быть любым, а знак $ сообщает о конце строки. Т.е. такая «маска» запрещает сканирование вообще всех GIF-файлов.

Правило Allow в robots txt

Правило Allow все делает с точностью до наоборот – разрешает индексирование файла/папки/страницы.

И сразу же конкретный пример:

Мы с вами уже знаем, что с помощью директивы Disallow: / мы можем закрыть сайт от индексации robots txt. В то же время у нас есть правило Allow: /catalog, которое разрешает сканирование папки /catalog. Поэтому комбинацию этих двух правил поисковые роботы будут воспринимать как «запрещено сканировать сайт, за исключением папки /catalog»

Сортировка правил и директив Allow и Disallow производится по возрастанию длины префикса URL и применяется последовательно. Если для одной и той же страницы подходит несколько правил, то робот выбирает последнее подходящее из списка.

Рассмотрим 2 ситуации с двумя правилами, которые противоречат друг другу — одно правило запрещает индексировать папки /content, а другое – разрешает.

В данном случае будет приоритетнее директива Allow, т.к. оно находится ниже по списку:

А вот здесь приоритетным является директива Disallow по тем же причинам (ниже по списку):

User-agent в robots txt

User-agent — правило, являющееся «обращением» к поисковому роботу, мол, «список рекомендаций специально для вас» (к слову, списков в robots.txt может быть несколько – для разных поисковых роботов от Google и Яндекс).

Например, в данном случае мы говорим «Эй, Googlebot, иди сюда, тут для тебя специально подготовленный список рекомендаций», а он такой «ОК, специально для меня – значит специально для меня» и другие списки сканировать не будет.

Правильный robots txt для Google (Googlebot)

Примерно та же история и с поисковым ботом Яндекса. Забегая вперед, список рекомендаций для Яндекса почти в 100% случаев немного отличается от списка для других поисковых роботов (чем – расскажем чуть позже). Но суть та же: «Эй, Яндекс, для тебя отдельный список» — «ОК, сейчас изучим его».

И последний вариант – рекомендации для всех поисковых роботов (кроме тех, у которых отдельные списки). Через «звездочку» было решено сделать по одной простой причине – чтоб не перечислять «поименно» все 300 с чем-то роботов.

Т.е. если в одном и том же robots.txt есть 3 списка с User-agent: *, User-agent: Googlebot и User-agent: Yandex, это значит, первый является «одним для всех», за исключением Googlebot и Яндекс, т.к. для них есть «личные» списки.

Sitemap

Правило Sitemap — расположение файла с XML-картой сайта, в которой содержатся адреса всех страниц, являющихся обязательными к сканированию. Как правило, указывается адрес вида http://site.ua/sitemap.xml.

Т.е. каждый раз поисковый робот будет просматривать карту сайта на предмет появления новых адресов, а затем переходить по ним для дальнейшего сканирования, дабы освежить информацию о сайте в базах данных поисковой системы.

Правило Sitemap должно быть вписано в Robots.txt следующим образом:

Директива Host

Межсекционная директива Host в файле robots.txt так же является обязательной. Она необходима для поискового робота Яндекса — сообщает ему, какое из зеркал сайта нужно учитывать при индексировании. Именно поэтому для Яндекса формируется отдельный список правил, т.к. Google и остальные поисковые системы директиву Host не понимают. Поэтому если у вашего сайта есть копии или же сайт может открываться под разными URL адресами, то добавьте директиву host в файл robots txt, чтобы страницы сайта правильно индексировались.

«Зеркалом сайта» принято называть либо точную, либо почти точную «копию» сайта, которая доступна по другому адресу.

Адрес основного зеркала обязательно должно быть указано следующим образом:

— для сайтов, работающих по http — Host: site.ua или Host: http://site.ua (т.е. http:// пишется по желанию)

— для сайтов, работающих по https – Host: https://site.ua (т.е. https:// прописывается в обязательном порядке)

Пример директивы host в robots txt для сайта на протоколе HTTPS:

Crawl delay

В отличие от предыдущих, параметр Crawl-delay уже не является обязательным. Основная его задача – подсказать поисковому роботу, в течение скольких секунд будут грузиться страницы. Обычно применяется в том случае, если Вы используете слабые сервера. Актуален только для Яндекса.

Clean param

С помощью директивы Clean-param можно бороться с get-параметрами, чтобы не происходило дублирование контента, т.к. один и тот же контент бывает доступен по разным динамическим ссылкам (это те, которые со знаками вопроса). Динамические ссылки могут генерироваться сайтом в том случае, когда используются различные сортировки, применяются идентификаторы сессий и т.д.

Например, один и тот же контент может быть доступен по трем адресам:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

В таком случае директива Clean-param оформляется вот так:

Т.е. после двоеточия прописывается атрибут ref, указывающий на источник ссылки, и только потом указывается ее «хвост» (в данном случае — /catalog/get_phone.ua).

Самые частые вопросы

Как в robots.txt запретить индексацию?

Для этих целей придумано правило Disallow: т.е. копируем ссылку на документ/файл, который нужно закрыть от индексации, вставляем ее после двоеточия:

А затем удаляете адрес домена (в данном случае удалить надо вот эту часть — http://your-site.xyz). После удаления у нас останется ровно то, что и должно остаться:

Ну а если требуется закрыть от индексирования все файлы с определенным расширением, то правила будут выглядеть следующим образом:

Как в robots.txt указать главное зеркало?

Для этих целей придумана директива Host. Т.е. если адреса http://your-site.xyz и http://yoursite.com являются «зеркалами» одного и того же сайта, то одно из них необходимо указать в директиве Host. Пусть основным зеркалом будет http://your-site.xyz. В этом случае правильными вариантами будут следующие:

— если сайт работает по https-протоколу, то нужно делать только так:

— если сайт работает по http-протоколу, то оба приведенных ниже варианта будут верными:

Однако, следует помнить, директива Host является рекомендацией, а не правилом. Т.е. не исключено, что в Host будет указан один домен, а Яндекс посчитает за основное зеркало другой, если у него в панели вебмастера введены соответствующие настройки.

Простейший пример правильного robots.txt

В таком виде файл robots.txt можно разместить практически на любом сайте (с мельчайшими корректировками).

Давайте теперь разберем, что тут есть.

  1. Здесь 2 списка правил – один «персонально» для Яндекса, другой – для всех остальных поисковых роботов.
  2. Правило Disallow: пустое, а значит никаких запретов на сканирование нет.
  3. В списке для Яндекса присутствует директива Host с указанием основного зеркала, а также, ссылка на карту сайта.

НО… Это НЕ значит, что нужно оформлять robots.txt именно так. Правила должны быть прописаны строго индивидуально для каждого сайта. Например, нет смысла индексировать «технические» страницы (страницы ввода логина-пароля, либо тестовые страницы, на которых отрабатывается новый дизайн сайта, и т.д.). Правила, кстати, зависят еще и от используемой CMS.

Закрытый от индексации сайт – как выглядит robots.txt?

Даем сразу же готовый код, который позволит запретить индексацию сайта независимо от CMS:

Как указать главное зеркало для сайта на https robots.txt?

Очень просто:

Host: https://your-site.xyz

ВАЖНО!!! Для https-сайтов протокол должен указываться строго обязательно!

Наиболее частые ошибки в robots.txt

Специально для Вас мы приготовили подборку самых распространенных ошибок, допускаемых в robots.txt. Почти все эти ошибки объединяет одно – они допускаются по невнимательности.

1. Перепутанные инструкции:

Правильный вариант:

2. В один Disallow вставляется куча папок:

В такой записи робот может запутаться. Какую папку нельзя индексировать? Первую? Последнюю? Или все? Или как? Или что? Одна папка = одно правило Disallow и никак иначе.

3. Название файла допускается только одно — robots.txt, причем все буквы маленькие. Имена Robots.txt, ROBOTS.TXT и т.п. не допускаются.

4. Правило User-agent запрещено оставлять пустым. Либо указываем имя поискового робота (например, для Яндекса), либо ставим звездочку (для всех остальных).

5. Мусор в файле (лишние слэши, звездочки и т.д.).

6. Добавление в файл полных адресов скрываемых страниц, причем иногда даже без правила Disallow.

Неправильно:

http://mega-site.academy/serrot.html

Тоже неправильно:

Disallow: http://mega-site.academy/serrot.html

Правильно:

Disallow: /serrot.html

Онлайн-проверка файла robots.txt

Существует несколько способов проверки файла robots.txt на соответствие общепринятому в интернете стандарту.

Способ 1. Зарегистрироваться в панелях веб-мастера Яндекс и Google. Единственный минус – придется покопаться, чтоб разобраться с функционалом. Далее вносятся рекомендованные изменения и готовый файл закачивается на хостинг.

Способ 2. Воспользоваться онлайн-сервисами:

— https://services.sl-team.ru/other/robots/

— https://technicalseo.com/seo-tools/robots-txt/

— http://tools.seochat.com/tools/robots-txt-validator/

Итак, robots.txt сформирован. Осталось только проверить его на ошибки. Лучше всего использовать для этого инструменты, предлагаемые самими поисковыми системами.

Google Вебмастерс (Search Console Google): заходим в аккаунт, если в нем сайт не подтвержден – подтверждаем, далее переходим на Сканирование -> Инструмент проверки файла robots.txt.

Здесь можно:

  • моментально обнаружить все ошибки и потенциально возможные проблемы,
  • сразу же «на месте» внести поправки и проверить на ошибки еще раз (чтоб не перезагружать файл на сайт по 20 раз)
  • проверить правильность запретов и разрешений индексирования страниц.

Яндекс Вебмастер (прямая ссылка — http://webmaster.yandex.ru/robots.xml).

Является аналогом предыдущего, за исключением:

  • авторизация не обязательна;
  • подтверждение прав на сайт не обязательно;
  • доступна массовая проверка страниц на доступность;
  • можно убедиться, что все правила правильно восприняты Яндексом.

Готовые решения для самых популярных CMS

Правильный robots.txt для WordPress

Давайте разберем код файла robots txt для WordPress CMS:

User-agent: *

Здесь мы указываем, что все правила актуальны для всех поисковых роботов (за исключением тех, для кого составлены «персональные» списки). Если список составляется для какого-то конкретного робота, то * меняется на имя робота:

User-agent: Yandex

User-agent: Googlebot

Allow: */uploads

Здесь мы осознанно даем добро на индексирование ссылок, в которых содержится /uploads. В данном случае это правило является обязательным, т.к. в движке WordPress есть директория /wp-content/uploads (в которой вполне могут содержаться картинки, либо другой «открытый» контент), индексирование которой запрещено правилом Disallow: /wp-. Поэтому с помощью Allow: */uploads мы делаем исключение из правила Disallow: /wp-.

В остальном просто идут запреты на индексирование:

Disallow: /cgi-bin – запрет на индексирование скриптов

Disallow: /feed – запрет на сканирование RSS-фида

Disallow: /trackback – запрет сканирования уведомлений

Disallow: ?s= или Disallow: *?s= — запрет на индексирование страниц внутреннего поиска сайта

Disallow: */page/ — запрет индексирования всех видов пагинации

Правило Sitemap: http://site.ru/sitemap.xml указывает Яндекс-роботу путь к файлу с xml-картой. Путь должен быть прописан полностью. Если таких файлов несколько – прописываем несколько Sitemap-правил (1 файл = 1 правило).

В строке Host: site.ru мы специально для Яндекса прописали основное зеркало сайта. Оно указывается для того, чтоб остальные зеркала индексировались одинаково. Пустая строка перед Host: является обязательной.

Где находится robots txt WordPress вы все наверное знаете — так как и в другие CMS, данный файл должен находится в корневом каталоге сайта.

Файл robots.txt для Joomla

Joomla — почти самый популярный движок у вебмастеров, т.к. не смотря на широчайшие возможности и множества готовых решений, он поставляется бесплатно. Однако, штатный robots.txt всегда имеет смысл подправить, т.к. для индексирования открыто слишком много «мусора», но картинки закрыты (это плохо).

Вот так выглядит правильный robots.txt для Joomla :

robots.txt Wix

Платформа Wix автоматически генерирует файлы robots.txt персонально для каждого сайта Wix. Т.е. к Вашему домену добавляете /robots.txt (например: www.domain.com/robots.txt) и можете спокойно изучить содержимое файла robots.txt, находящегося на Вашем сайте.

Отредактировать robots.txt нельзя. Однако с помощью noindex можно закрыть какие-то конкретные страницы от индексирования.

robots.txt для Opencart

Стандартный файл robots.txt для OpenCart:

robots.txt для Битрикс (Bitrix)

1. Папки /bitrix и /cgi-bin должны быть закрыты, т.к. это чисто технический «хлам», который незачем светить в поисковой выдаче.

2. Папка /search тоже не представляет интереса ни для пользователей, ни для поисковых систем. Да и образование дублей никому не нужно. Поэтому тоже ее закрываем.

3. Про формы PHP-аутентификации и авторизации на сайте тоже забывать нельзя – закрываем.

4. Материалы для печати (например, счета на оплату) тоже нет смысла светить в поисковой выдаче. Закрываем.

5. Один из жирных плюсов «Битрикса» в том, что он фиксирует всю историю сайта – кто когда залогинился, кто когда сменил пароль, и прочую конфиденциальную информацию, утечка которой не допустима. Поэтому закрываем:

6. Back-адреса тоже нет смысла индексировать. Эти адреса могут образовываться, например, при просмотре фотоальбома, когда Вы сначала листаете его «вперед», а потом – «назад». В эти моменты в адресной строке вполне может появиться что-то типа матерного ругательства: ?back_url_ =%2Fbitrix%2F%2F. Ценность таких адресов равна нулю, поэтому их тоже закрываем от индексирования. Ну а в качестве бонуса – избавляемся от потенциальных «дублей» в поисковой выдаче.

7. Папку /upload необходимо закрывать строго по обстоятельствам. Если там хранятся фотографии и видеоматериалы, размещенные на страницах, то ее скрывать не нужно, чтоб не срезать дополнительный трафик. Ну а если что-то конфиденциальное – однозначно закрываем:

Готовый файл robots.txt для Битрикс:

robots.txt для Modx и Modx Revo

CMS Modx Revo тоже не лишена проблемы дублей. Однако, она не так сильно обострена, как в Битриксе. Теперь о ее решении.

  1. Включаем ЧПУ в настройках сайта.
  2. закрываем от индексации:

Disallow: /index.php # т.к. это дубль главной страницы сайта

Disallow: /*? # разом решаем проблему с дублями для всех страниц

Готовый файл robots.txt для Modx и Modx Revo:

Выводы

Без преувеличения файл robots.txt можно назвать «поводырём для поисковых роботов Яндекс и Гугл» (разумеется, если он составлен правильно). Если файл robots txt отсутствует, то его нужно обязательно создать и загрузить на хостинг Вашего сайта. Справка Disallow правил описаны выше в этой статьей и вы можете смело их использоваться в своих целях.

Еще раз резюмируем правила/директивы/инструкции для robots.txt:

  1. User-agent — указывает, для какого именно поискового робота создан список правил.
  2. Disallow – «рекомендую вот это не индексировать».
  3. Sitemap – указывает расположение XML-карты сайта со всеми URL, которые нужно проиндексировать. В большинстве случаев карта расположена по адресу http://[ваш_сайт]/sitemap.xml.
  4. Crawl-delay — директива, указывающая период (в секундах), через который будет загружена страница сайта.
  5. Host – показывает Яндексу основное зеркало сайта.
  6. Allow – «рекомендую вот это проиндексировать, не смотря на то, что это противоречит одному из Disallow-правил».
  7. Clean-param — помогает в борьбе с get-параметрами, применяется для снижения рисков образования страниц-дублей.

Знаки при составлении robots.txt:

  1. Знак «$» для «звездочки» является «ограничителем».
  2. После слэша «/» указывается наименование файла/папки/расширения, которую нужно скрыть (в случае с Disallow) или открыть (в случае с Allow) для индексирования.
  3. Знаком «*» обозначается «любое количество любых символов».
  4. Знаком «#» отделяются какие-либо комментарии или примечания, оставленные вэб-мастером для себя, либо для кого-то другого. Поисковые роботы их не читают.

stokrat.org

Для чего нужен robots.txt

Roots.txt для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться. Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование robots.txt подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы robots.txt, например директива Host или Sitemap, но об этом ниже.

Как создать robots.txt

Поскольку robots.txt — это текстовый файл, и чтобы создать файл robots.txt, можно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла robots.txt не должно вызвать проблем даже у новичков. О том, как составить robots.txt и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых — создать роботс онлайн и скачать файл robots.txt уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить. Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта. Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt. В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями. Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита. Роботы надежных поисковых систем, вроде Яндекс или Google, следуют инструкциям robots.txt, однако прочие роботы могут легко игнорировать их. Правильное понимание и применение robots.txt — залог получения результата.

Чтобы понять, как сделать правильный robots txt, для начала необходимо разобраться с общими правилами, синтаксисом и директивами файла robots.txt.

Правильный robots.txt начинается с директивы User-agent, которая указывает, к какому роботу обращены конкретные директивы.

Примеры User-agent в robots.txt:

# Указывает директивы для всех роботов одновременно User-agent: *  # Указывает директивы для всех роботов Яндекса User-agent: Yandex  # Указывает директивы для только основного индексирующего робота Яндекса User-agent: YandexBot  # Указывает директивы для всех роботов Google User-agent: Googlebot

Учитывайте, что подобная настройка файла robots.txt указывает роботу использовать только директивы, соответствующие user-agent с его именем.

Пример robots.txt с несколькими вхождениями User-agent:

# Будет использована всеми роботами Яндекса User-agent: Yandex Disallow: /*utm_  # Будет использована всеми роботами Google User-agent: Googlebot Disallow: /*utm_  # Будет использована всеми роботами кроме роботов Яндекса и Google User-agent: * Allow: /*utm_

Директива User-agent создает лишь указание конкретному роботу, а сразу после директивы User-agent должна идти команда или команды с непосредственным указанием условия для выбранного робота. В примере выше используется запрещающая директива «Disallow», которая имеет значение «/*utm_». Таким образом, закрываем все страницы с UTM-метками. Правильная настройка robots.txt запрещает наличие пустых переводов строки между директивами «User-agent», «Disallow» и директивами следующими за «Disallow» в рамках текущего «User-agent».

Пример неправильного перевода строки в robots.txt:

User-agent: Yandex  Disallow: /*utm_  Allow: /*id=  User-agent: *  Disallow: /*utm_  Allow: /*id=

Пример правильного перевода строки в robots.txt:

User-agent: Yandex Disallow: /*utm_ Allow: /*id=  User-agent: * Disallow: /*utm_ Allow: /*id=

Как видно из примера, указания в robots.txt поступают блоками, каждый из которых содержит указания либо для конкретного робота, либо для всех роботов «*».

Кроме того, важно соблюдать правильный порядок и сортировку команд в robots.txt при совместном использовании директив, например «Disallow» и «Allow». Директива «Allow» — разрешающая директива, является противоположностью команды robots.txt «Disallow» — запрещающей директивы.

Пример совместного использования директив в robots.txt:

User-agent: * Allow: /blog/page Disallow: /blog

Данный пример запрещает всем роботам индексацию всех страниц, начинающихся с «/blog», но разрешает индексации страниц, начинающиеся с «/blog/page».

Прошлый пример robots.txt в правильной сортировке:

User-agent: * Disallow: /blog Allow: /blog/page

Сначала запрещаем весь раздел, потом разрешаем некоторые его части.

Еще один правильный пример robots.txt с совместными директивами:

User-agent: * Allow: / Disallow: /blog Allow: /blog/page

Обратите внимание на правильную последовательность директив в данном robots.txt.

Директивы «Allow» и «Disallow» можно указывать и без параметров, в этом случае значение будет трактоваться обратно параметру «/».

Пример директивы «Disallow/Allow» без параметров:

User-agent: * Disallow: # равнозначно Allow: / Disallow: /blog Allow: /blog/page

Как составить правильный robots.txt и как пользоваться трактовкой директив — ваш выбор. Оба варианта будут правильными. Главное — не запутайтесь.

Для правильного составления robots.txt необходимо точно указывать в параметрах директив приоритеты и то, что будет запрещено для скачивания роботам. Более полно использование директив «Disallow» и «Allow» мы рассмотрим чуть ниже, а сейчас рассмотрим синтаксис robots.txt. Знание синтаксиса robots.txt приблизит вас к тому, чтобы создать идеальный robots txt своими руками.

Синтаксис robots.txt

Роботы поисковых систем добровольно следуют командам robots.txt — стандарту исключений для роботов, однако не все поисковые системы трактуют синтаксис robots.txt одинаково. Файл robots.txt имеет строго определённый синтаксис, но в то же время написать robots txt не сложно, так как его структура очень проста и легко понятна.

Вот конкретные список простых правил, следуя которым, вы исключите частые ошибки robots.txt:

  1. Каждая директива начинается с новой строки;
  2. Не указывайте больше одной директивы в одной строке;
  3. Не ставьте пробел в начало строки;
  4. Параметр директивы должен быть в одну строку;
  5. Не нужно обрамлять параметры директив в кавычки;
  6. Параметры директив не требуют закрывающих точки с запятой;
  7. Команда в robots.txt указывается в формате — [Имя_директивы]:[необязательный пробел][значение][необязательный пробел];
  8. Допускаются комментарии в robots.txt после знака решетки #;
  9. Пустой перевод строки может трактоваться как окончание директивы User-agent;
  10. Директива «Disallow: » (с пустым значением) равнозначна «Allow: /» — разрешить все;
  11. В директивах «Allow», «Disallow» указывается не более одного параметра;
  12. Название файла robots.txt не допускает наличие заглавных букв, ошибочное написание названия файла — Robots.txt или ROBOTS.TXT;
  13. Написание названия директив и параметров заглавными буквами считается плохим тоном и если по стандарту, robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файлов и директорий;
  14. Если параметр директивы является директорией, то перед название директории всегда ставится слеш «/», например: Disallow: /category
  15. Слишком большие robots.txt (более 32 Кб) считаются полностью разрешающими, равнозначными «Disallow: »;
  16. Недоступный по каким-либо причинам robots.txt может трактоваться как полностью разрешающий;
  17. Если robots.txt пустой, то он будет трактоваться как полностью разрешающий;
  18. В результате перечисления нескольких директив «User-agent» без пустого перевода строки, все последующие директивы «User-agent», кроме первой, могут быть проигнорированы;
  19. Использование любых символов национальных алфавитов в robots.txt не допускается.

Поскольку разные поисковые системы могут трактовать синтаксис robots.txt по-разному, некоторые пункты можно опустить. Так например, если прописать несколько директив «User-agent» без пустого перевода строки, все директивы «User-agent» будут восприняты корректно Яндексом, так как Яндекс выделяет записи по наличию в строке «User-agent».

В роботсе должно быть указано строго только то, что нужно, и ничего лишнего. Не думайте, как прописать в robots txt все, что только можно и чем его заполнить. Идеальный robots txt — это тот, в котором меньше строк, но больше смысла. «Краткость — сестра таланта». Это выражение здесь как нельзя кстати.

Как проверить robots.txt

Для того, чтобы проверить robots.txt на корректность синтаксиса и структуры файла, можно воспользоваться одной из онлайн-служб. К примеру, Яндекс и Google предлагают собственные сервисы анализа сайта для вебмастеров, которые включают анализ robots.txt:

Проверка файла robots.txt в Яндекс.Вебмастер: http://webmaster.yandex.ru/robots.xml

Проверка файла robots.txt в Google: https://www.google.com/webmasters/tools/siteoverview?hl=ru

Для того, чтобы проверить robots.txt онлайн необходимо загрузить robots.txt на сайт в корневую директорию. Иначе, сервис может сообщить, что не удалось загрузить robots.txt. Рекомендуется предварительно проверить robots.txt на доступность по адресу где лежит файл, например: ваш_сайт.ru/robots.txt.

Кроме сервисов проверки от Яндекс и Google, существует множество других онлайн валидаторов robots.txt.

Robots.txt vs Яндекс и Google

Есть субъективное мнение, что указание отдельного блока директив «User-agent: Yandex» в robots.txt Яндекс воспринимает более позитивно, чем общий блок директив с «User-agent: *». Аналогичная ситуация robots.txt и Google. Указание отдельных директив для Яндекс и Google позволяет управлять индексацией сайта через robots.txt. Возможно, им льстит персонально обращение, тем более, что для большинства сайтов содержимое блоков robots.txt Яндекса, Гугла и для других поисковиков будет одинаково. За редким исключением, все блоки «User-agent» будут иметь стандартный для robots.txt набор директив. Так же, используя разные «User-agent» можно установить запрет индексации в robots.txt для Яндекса, но, например не для Google.

Отдельно стоит отметить, что Яндекс учитывает такую важную директиву, как «Host», и правильный robots.txt для яндекса должен включать данную директиву для указания главного зеркала сайта. Подробнее директиву «Host» рассмотрим ниже.

Запретить индексацию: robots.txt Disallow

Disallow — запрещающая директива, которая чаще всего используется в файле robots.txt. Disallow запрещает индексацию сайта или его части, в зависимости от пути, указанного в параметре директивы Disallow.

Пример как в robots.txt запретить индексацию сайта:

User-agent: * Disallow: /

Данный пример закрывает от индексации весь сайт для всех роботов.

В параметре директивы Disallow допускается использование специальных символов * и $:

* — любое количество любых символов, например, параметру /page* удовлетворяет /page, /page1, /page-be-cool, /page/kak-skazat и т.д. Однако нет необходимости указывать * в конце каждого параметра, так как например, следующие директивы интерпретируются одинаково:

User-agent: Yandex Disallow: /page
User-agent: Yandex Disallow: /page*

$ — указывает на точное соответствие исключения значению параметра:

User-agent: Googlebot Disallow: /page$

В данном случае, директива Disallow будет запрещать /page, но не будет запрещать индексацию страницы /page1, /page-be-cool или /page/kak-skazat.

Если закрыть индексацию сайта robots.txt, в поисковые системы могут отреагировать на так ход ошибкой «Заблокировано в файле robots.txt» или «url restricted by robots.txt» (url запрещенный файлом robots.txt). Если вам нужно запретить индексацию страницы, можно воспользоваться не только robots txt, но и аналогичными html-тегами:

  • <meta name=»robots» content=»noindex»/> — не индексировать содержимое страницы;
  • <meta name=»robots» content=»nofollow»/> — не переходить по ссылкам на странице;
  • <meta name=»robots» content=»none»/> — запрещено индексировать содержимое и переходить по ссылкам на странице;
  • <meta name=»robots» content=»noindex, nofollow»/> — аналогично content=»none».

Разрешить индексацию: robots.txt Allow

Allow — разрешающая директива и противоположность директиве Disallow. Эта директива имеет синтаксис, сходный с Disallow.

Пример, как в robots.txt запретить индексацию сайта кроме некоторых страниц:

User-agent: * Disallow: / Allow: /page

Запрещается индексировать весь сайт, кроме страниц, начинающихся с /page.

Disallow и Allow с пустым значением параметра

Пустая директива Disallow:

User-agent: * Disallow:

Не запрещать ничего или разрешить индексацию всего сайта и равнозначна:

User-agent: * Allow: /

Пустая директива Allow:

User-agent: * Allow:

Разрешить ничего или полный запрет индексации сайта, равнозначно:

User-agent: * Disallow: /

Главное зеркало сайта: robots.txt Host

Директива Host служит для указания роботу Яндекса главного зеркала Вашего сайта. Из всех популярных поисковых систем, директива Host распознаётся только роботами Яндекса. Директива Host полезна в том случае, если ваш сайт доступен по нескольким доменам, например:

mysite.ru mysite.com

Или для определения приоритета между:

mysite.ru www.mysite.ru

Роботу Яндекса можно указать, какое зеркало является главным. Директива Host указывается в блоке директивы «User-agent: Yandex» и в качестве параметра, указывается предпочтительный адрес сайта без «http://».

Пример robots.txt с указанием главного зеркала:

User-agent: Yandex Disallow: /page Host: mysite.ru

В качестве главного зеркала указывается доменное имя mysite.ru без www. Таки образом, в результатах поиска буде указан именно такой вид адреса.

User-agent: Yandex Disallow: /page Host: www.mysite.ru

В качестве основного зеркала указывается доменное имя www.mysite.ru.

Директива Host в файле robots.txt может быть использована только один раз, если же директива Хост будет указана более одного раза, учитываться будет только первая, прочие директивы Host будут игнорироваться.

Если вы хотите указать главное зеркало для робота Google, воспользуйтесь сервисом Google Инструменты для вебмастеров.

Карта сайта: robots.txt sitemap

При помощи директивы Sitemap, в robots.txt можно указать расположение на сайте файла карты сайта sitemap.xml.

Пример robots.txt с указанием адреса карты сайта:

User-agent: * Disallow: /page Sitemap: http://www.mysite.ru/sitemap.xml

Указание адреса карты сайта через директиву Sitemap в robots.txt позволяет поисковому роботу узнать о наличии карты сайта и начать ее индексацию.

Директива Clean-param

Директива Clean-param позволяет исключить из индексации страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL страницы. Проще говоря, будто страница доступна по разным адресам. Наша задача убрать все лишние динамические адреса, которых может быть миллион. Для этого исключаем все динамические параметры, используя в robots.txt директиву Clean-param.

Синтаксис директивы Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Путь]

Рассмотрим на примере страницы со следующим URL:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Пример robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # только для page.html

или

Clean-param: parm1&parm2&parm3 / # для всех

Директива Crawl-delay

Данная инструкция позволяет снизить нагрузку на сервер, если роботы слишком часто заходят на ваш сайт. Данная директива актуальна в основном для сайтов с большим объемом страниц.

Пример robots.txt Crawl-delay:

User-agent: Yandex Disallow: /page Crawl-delay: 3

В данном случае мы «просим» роботов яндекса скачивать страницы нашего сайта не чаще, чем один раз в три секунды. Некоторые поисковые системы поддерживают формат дробных чисел в качестве параметра директивы Crawl-delay robots.txt.

Комментарии в robots.txt

Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.

Примеры комментариев в robots.txt:

User-agent: * # Комментарий может идти от начала строки Disallow: /page # А может быть продолжением строки с директивой # Роботы # игнорируют # комментарии Host: www.mysite.ru

В заключении

Файл robots.txt — очень важный и нужный инструмент взаимодействия с поисковыми роботами и один из важнейших инструментов SEO, так как позволяет напрямую влиять на индексацию сайта. Используйте роботс правильно и с умом.

Если у вас есть вопросы — пишите в комментариях.
Рекомендуйте статью друзьям и не забывайте подписываться на блог.
Новые интересные статьи каждый день.

convertmonster.ru

Индексация сайта

Упомянутые выше инструменты очень важны для успешного развития вашего проекта, и это вовсе не голословное утверждение. В статье про Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров, там на втором и третьем месте (после не уникального контента) находятся как раз отсутствие этих файлов роботс и сайтмап, либо их неправильное составление и использование.

Почему так важно управлять индексацией сайта

Надо очень четко понимать, что при использовании CMS (движка) не все содержимое сайта должно быть доступно роботам поисковых систем. Почему?

  1. Ну, хотя бы потому, что, потратив время на индексацию файлов движка вашего сайта (а их может быть тысячи), робот поисковика до основного контента сможет добраться только спустя много времени. Дело в том, что он не будет сидеть на вашем ресурсе до тех пор, пока его полностью не занесет в индекс. Есть лимиты на число страниц и исчерпав их он уйдет на другой сайт. Адьес.
  2. Если не прописать определенные правила поведения в роботсе для этих ботов, то в индекс поисковиков попадет множество страниц, не имеющих отношения к значимому содержимому ресурса, а также может произойти многократное дублирование контента (по разным ссылкам будет доступен один и тот же, либо сильно пересекающийся контент), что поисковики не любят.

Хорошим решением будет запрет всего лишнего в robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв). С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Представляет он из себя обычный текстовый файл, который вы сможете создать и в дальнейшем редактировать в любом текстовом редакторе (например, Notepad++).

Поисковый бот будет искать этот файл в корневом каталоге вашего ресурса и если не найдет, то будет загонять в индекс все, до чего сможет дотянуться. Поэтому после написания требуемого роботса, его нужно сохранить в корневую папку, например, с помощью Ftp клиента Filezilla так, чтобы он был доступен к примеру по такому адресу:

https://ktonanovenkogo.ru/robots.txt

Кстати, если вы хотите узнать как выглядит этот файл у того или иного проекта в сети, то достаточно будет дописать к Урлу его главной страницы окончание вида /robots.txt. Это может быть полезно для понимания того, что в нем должно быть.

Однако, при этом надо учитывать, что для разных движков этот файл будет выглядеть по-разному (папки движка, которые нужно запрещать индексировать, будут называться по-разному в разных CMS). Поэтому, если вы хотите определиться с лучшим вариантом роботса, допустим для Вордпресса, то и изучать нужно только блоги, построенные на этом движке (и желательно имеющие приличный поисковый трафик).

Как можно запретить индексацию отдельных частей сайта и контента?

Прежде чем углубляться в детали написания правильного файла robots.txt для вашего сайта, забегу чуть вперед и скажу, что это лишь один из способов запрета индексации тех или иных страниц или разделов вебсайта. Вообще их три:

  1. Роботс.тхт — самый высокоуровневый способ, ибо позволяет задать правила индексации для всего сайта целиком (как его отдельный страниц, так и целых каталогов). Он является полностью валидным методом, поддерживаемым всеми поисковиками и другими ботами живущими в сети. Но его директивы вовсе не являются обязательными для исполнения. Например, Гугл не шибко смотрит на запреты в robots.tx — для него авторитетнее одноименный мета-тег рассмотренный ниже.
  2. Мета-тег robots — имеет влияние только на страницу, где он прописан. В нем можно запретить индексацию и переход робота по находящимся в этом документе ссылкам (подробнее смотрите ниже). Он тоже является полностью валидным и поисковики будут стараться учитывать указанные в нем значения. Для Гугла, как я уже упоминал, этот метод имеет больший вес, чем файлик роботса в корне сайта.
  3. Тег Noindex и атрибут rel=»nofollow» — самый низкоуровневый способ влияния на индексацию. Они позволяют закрыть от индексации отдельные фрагменты текста (noindex) и не учитывать вес передаваемый по ссылке. Они не валидны (их нет в стандартах). Как именно их учитывают поисковики и учитывают ли вообще — большой вопрос и предмет долгих споров (кто знает наверняка — тот молчит и пользуется).

Важно понимать, что даже «стандарт» (валидные директивы robots.txt и одноименного мета-тега) являются необязательным к исполнению. Если робот «вежливый», то он будет следовать заданным вами правилам. Но вряд ли вы сможете при помощи такого метода запретить доступ к части сайта роботам, ворующим у вас контент или сканирующим сайт по другим причинам.

Вообще, роботов (ботов, пауков, краулеров) существует множество. Какие-то из них индексируют контент (как например, боты поисковых систем или воришек). Есть боты проверяющие ссылки, обновления, зеркалирование, проверяющие микроразметку и т.д. Смотрите сколько роботов есть только у Яндекса.

Большинство роботов хорошо спроектированы и не создают каких-либо проблем для владельцев сайтов. Но если бот написан дилетантом или «что-то пошло не так», то он может создавать существенную нагрузку на сайт, который он обходит. Кстати, пауки вовсе на заходят на сервер подобно вирусам — они просто запрашивают нужные им страницы удаленно (по сути это аналоги браузеров, но без функции просмотра страниц).

Robots.txt — директива user-agent и боты поисковых систем

Роботс.тхт имеет совсем не сложный синтаксис, который очень подробно описан, например, в хелпе яндекса и хелпе Гугла. Обычно в нем указывается, для какого поискового бота предназначены описанные ниже директивы: имя бота (‘User-agent‘), разрешающие (‘Allow‘) и запрещающие (‘Disallow‘), а также еще активно используется ‘Sitemap’ для указания поисковикам, где именно находится файл карты.

Стандарт создавался довольно давно и что-то было добавлено уже позже. Есть директивы и правила оформления, которые будут понятны только роботами определенных поисковых систем. В рунете интерес представляют в основном только Яндекс и Гугл, а значит именно с их хелпами по составлению robots.txt следует ознакомиться особо детально (ссылки я привел в предыдущем абзаце).

Например, раньше для поисковой системы Яндекс было полезным указать, какое из зеркал вашего вебпроекта является главным в специальной директиве ‘Host’, которую понимает только этот поисковик (ну, еще и Майл.ру, ибо у них поиск от Яндекса). Правда, в начале 2018 Яндекс все же отменил Host и теперь ее функции как и у других поисковиков выполняет 301-редирект.

Если даже у вашего ресурса нет зеркал, то полезно будет указать, какой из вариантов написания является главным — с www или без него.

Теперь поговорим немного о синтаксисе этого файла. Директивы в robots.txt имеют следующий вид:

<поле>:<пробел><значение><пробел> <поле>:<пробел><значение><пробел>

Правильный код должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл предполагает разрешение на индексирование всего сайта.

User-agent

Директива «User-agent» должна содержать название поискового бота. При помощи нее можно настроить правила поведения для каждого конкретного поисковика (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания «User-agent», адресованной всем ботам зашедшим на ваш ресурс, выглядит так:

User-agent: * 

Если вы хотите в «User-agent» задать определенные условия только для какого-то одного бота, например, Яндекса, то нужно написать так:

User-agent: Yandex

Название роботов поисковых систем и их роль в файле robots.txt

Бот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler). Здесь я приведу список самых известных из них:

Google http://www.google.com Googlebot Яндекс http://www.ya.ru 	 Yandex Бинг http://www.bing.com/ 	 bingbot 

У крупных поисковых систем иногда, кроме основных ботов, имеются также отдельные экземпляры для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям ботов вы можете почерпнуть тут (для Яндекса) и тут (для Google).

Как быть в этом случае? Если нужно написать правило запрета индексации, которое должны выполнить все типы роботов Гугла, то используйте название Googlebot и все остальные пауки этого поисковика тоже послушаются. Однако, можно запрет давать только, например, на индексацию картинок, указав в качестве User-agent бота Googlebot-Image. Сейчас это не очень понятно, но на примерах, я думаю, будет проще.

Примеры использования директив Disallow и Allow в роботс.тхт

Приведу несколько простых примеров использования директив с объяснением его действий.

  1. Приведенный ниже код разрешает всем ботам (на это указывает звездочка в User-agent) проводить индексацию всего содержимого без каких-либо исключений. Это задается пустой директивой Disallow.
    User-agent: * Disallow:
  2. Следующий код, напротив, полностью запрещает всем поисковикам добавлять в индекс страницы этого ресурса. Устанавливает это Disallow с «/» в поле значения.
    User-agent: * Disallow: /
  3. В этом случае будет запрещаться всем ботам просматривать содержимое каталога /image/ (http://mysite.ru/image/ — абсолютный путь к этому каталогу)
    User-agent: * Disallow: /image/
  4. Чтобы заблокировать один файл, достаточно будет прописать его абсолютный путь до него (читайте про абсолютные и относительные пути по ссылке):
    User-agent: * Disallow: /katalog1//katalog2/private_file.html

    Забегая чуть вперед скажу, что проще использовать символ звездочки (*), чтобы не писать полный путь:

    Disallow: /*private_file.html
  5. В приведенном ниже примере будут запрещены директория «image», а также все файлы и директории, начинающиеся с символов «image», т. е. файлы: «image.htm», «images.htm», каталоги: «image», «images1», «image34» и т. д.):
    User-agent: * Disallow: /image

    Дело в том, что по умолчанию в конце записи подразумевается звездочка, которая заменяет любые символы, в том числе и их отсутствие. Читайте об этом ниже.

  6. С помощью директивы Allow мы разрешаем доступ. Хорошо дополняет Disallow. Например, таким вот условием поисковому роботу Яндекса мы запрещаем выкачивать (индексировать) все, кроме вебстраниц, адрес которых начинается с /cgi-bin:
    User-agent: Yandex Allow: /cgi-bin Disallow: /

    Ну, или такой вот очевидный пример использования связки Allow и Disallow:

    User-agent: * Disallow: /catalog Allow: /catalog/auto
  7. При описании путей для директив Allow-Disallow можно использовать символы ‘*’ и ‘$’, задавая, таким образом, определенные логические выражения.
    1. Символ ‘*'(звездочка) означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов с расширение «.php»:
      User-agent: * Disallow: *.php$
    2. Зачем нужен на конце знак $ (доллара)? Дело в том, что по логике составления файла robots.txt, в конце каждой директивы как бы дописывается умолчательная звездочка (ее нет, но она как бы есть). Например мы пишем:
      Disallow: /images

      Подразумевая, что это то же самое, что:

      Disallow: /images*

      Т.е. это правило запрещает индексацию всех файлов (вебстраниц, картинок и других типов файлов) адрес которых начинается с /images, а дальше следует все что угодно (см. пример выше). Так вот, символ $ просто отменяет эту умолчательную (непроставляемую) звездочку на конце. Например:

      Disallow: /images$

      Запрещает только индексацию файла /images, но не /images.html или /images/primer.html. Ну, а в первом примере мы запретили индексацию только файлов оканчивающихся на .php (имеющих такое расширение), чтобы ничего лишнего не зацепить:

      Disallow: *.php$
  • Во многих движках пользователи настраивают так называемые ЧПУ (человеко-понятные Урлы), в то время как Урлы, генерируемые системой, имеют знак вопроса ‘?’ в адресе. Этим можно воспользоваться и написать такое правило в robots.txt:
    User-agent: * Disallow: /*?

    Звездочка после вопросительного знака напрашивается, но она, как мы с вами выяснили чуть выше, уже подразумевается на конце. Таким образом мы запретим индексацию страниц поиска и прочих служебных страниц создаваемых движком, до которых может дотянуться поисковый робот. Лишним не будет, ибо знак вопроса чаще всего CMS используют как идентификатор сеанса, что может приводить к попаданию в индекс дублей страниц.

  • Директивы Sitemap и Host (для Яндекса) в Robots.txt

    Во избежании возникновения неприятных проблем с зеркалами сайта, раньше рекомендовалось добавлять в robots.txt директиву Host, которая указывал боту Yandex на главное зеркало.

    Однако, в начале 2018 год это было отменено и и теперь функции Host выполняет 301-редирект.

    Директива Host — указывает главное зеркало сайта для Яндекса

    Например, раньше, если вы еще не перешли на защищенный протокол, указывать в Host нужно было не полный Урл, а доменное имя (без http://, т.е. ktonanovenkogo.ru, а не https://ktonanovenkogo.ru). Если же уже перешли на https, то указывать нужно будет полный Урл (типа https://myhost.ru).

    Сейчас переезд сайта после отказа от директивы Host очень сильно упростился, ибо теперь не нужно ждать пока произойдет склейка зеркал по директиве Host для Яндекса, а можно сразу после настройки Https на сайте делать постраничный редирект с Http на Https.

    Напомню в качестве исторического экскурса, что по стандарту написания роботс.тхт за любой директивой User-agent должна сразу следовать хотя бы одна директива Disallow (пусть даже и пустая, ничего не запрещающая). Так же, наверное, имеется смысл прописывать Host для отдельного блока «User-agent: Yandex», а не для общего «User-agent: *», чтобы не сбивать с толку роботов других поисковиков, которые эту директиву не поддерживают:

    User-agent: Yandex Disallow: Host: www.site.ru 

    либо

    User-agent: Yandex Disallow: Host: site.ru 

    либо

    User-agent: Yandex Disallow: Host: https://site.ru 

    либо

    User-agent: Yandex Disallow: Host: https://www.site.ru 

    в зависимости от того, что для вас оптимальнее (с www или без), а так же в зависимости от протокола.

    Указываем или скрываем путь до карты сайта sitemap.xml в файле robots

    Директива Sitemap указывает на местоположение файла карты сайта (обычно он называется Sitemap.xml, но не всегда). В качестве параметра указывается путь к этому файлу, включая http:// (т.е. его Урл).Благодаря этому поисковый робот сможете без труда его найти. Например:

    Sitemap: http://site.ru/sitemap.xml

    Раньше файл карты сайта хранили в корне сайта, но сейчас многие его прячут внутри других директорий, чтобы ворам контента не давать удобный инструмент в руки. В этом случае путь до карты сайта лучше в роботс.тхт не указывать. Дело в том, что это можно с тем же успехом сделать через панели поисковых систем (Я.Вебмастер, Google.Вебмастер, панель Майл.ру), тем самым «не паля» его местонахождение.

    Местоположение директивы Sitemap в файле robots.txt не регламентируется, ибо она не обязана относиться к какому-то юзер-агенту. Обычно ее прописывают в самом конце, либо вообще не прописывают по приведенным выше причинам.

    Проверка robots.txt в Яндекс и Гугл вебмастере

    Как я уже упоминал, разные поисковые системы некоторые директивы могут интерпритировать по разному. Поэтому имеет смысл проверять написанный вами файл роботс.тхт в панелях для вебмастеров обоих систем. Как проверять?

    1. Зайти в инструменты проверки Яндекса и Гугла.
    2. Убедиться, что в панель вебмастера загружена версия файла с внесенными вами изменениями. В Яндекс вебмастере загрузить измененный файл можно с помощью показанной на скриншоте иконки:

      В Гугл Вебмастере нужно нажать кнопку «Отправить» (справа под списком директив роботса), а затем в открывшемся окне выбрать последний вариант нажатием опять же на кнопку «Отправить»:

    3. Набрать список адресов страниц своего сайта (по Урлу в строке), которые должны индексироваться, и вставить их скопом (в Яндексе) или по одному (в Гугле) в расположенную снизу форму. После чего нажать на кнопку «Проверить».

      Если возникли нестыковки, то выяснить причины, внести изменения в robots.txt, загрузить обновленный файл в панель вебмастеров и повторить проверку. Все ОК?

      Тогда составляйте список страниц, которые не должны индексироваться, и проводите их проверку. При необходимости вносите изменения и проверку повторяйте. Естественно, что проверять следует не все страницы сайта, а ярких представителей своего класса (страницы статей, рубрики, служебные страницы, файлы картинок, файлы шаблона, файлы движка и т.д.)

    Причины ошибок выявляемых при проверке файла роботс.тхт

    1. Файл должен находиться в корне сайта, а не в какой-то папке (это не .htaccess, и его действия распространяются на весь сайт, а не на каталог, в котором его поместили), ибо поисковый робот его там искать не будет.
    2. Название и расширение файла robots.txt должно быть набрано в нижнем регистре (маленькими) латинскими буквами.
    3. В названии файла должна быть буква S на конце (не robot.txt, как многие пишут)
    4. Часто в User-agent вместо звездочки (означает, что этот блок robots.txt адресован всем ботам) оставляют пустое поле. Это не правильно и * в этом случае обязательна
      User-agent: * Disallow: /
    5. В одной директиве Disallow или Allow можно прописывать только одно условие на запрет индексации директории или файла. Так нельзя:
      Disallow: /feed/ /tag/ /trackback/

      Для каждого условия нужно добавить свое Disallow:

      Disallow: /feed/ Disallow: /tag/ Disallow: /trackback/
    6. Довольно часто путают значения для директив и пишут:
      User-agent: / Disallow: Yandex

      вместо

      User-agent: Yandex Disallow: /
    7. Порядок следования Disallow (Allow) не важен — главное, чтобы была четкая логическая цепь
    8. Пустая директива Disallow означает то же, что «Allow: /»
    9. Нет смысла прописывать директиву sitemap под каждым User-agent, если будете указывать путь до карты сайта (читайте об этом ниже), то делайте это один раз, например, в самом конце.
    10. Директиву Host лучше писать под отдельным «User-agent: Yandex», чтобы не смущать ботов ее не поддерживающих

    Мета-тег Robots — помогает закрыть дубли контента при индексации сайта

    Существует еще один способ настроить (разрешить или запретить) индексацию отдельных страниц вебсайта, как для Яндекса, так и для Гугл. Причем для Google этот метод гораздо приоритетнее описанного выше. Поэтому, если нужно наверняка закрыть страницу от индексации этой поисковой системой, то данный мета-тег нужно будет прописывать в обязательном порядке.

    Для этого внутри тега «HEAD» нужной вебстраницы дописывается МЕТА-тег Robots с нужными параметрами, и так повторяется для всех документов, к которым нужно применить то или иное правило (запрет или разрешение). Выглядеть это может, например, так:

    <html> <head> <meta name="robots" content="noindex,nofollow"> <meta name="description" content="Эта страница ...."> <title>...</title> </head> <body> ... 

    В этом случае, боты всех поисковых систем должны будут забыть об индексации этой вебстраницы (об этом говорит присутствие noindex в данном мета-теге) и анализе размещенных на ней ссылок (об этом говорит присутствие nofollow — боту запрещается переходить по ссылкам, которые он найдет в этом документе).

    Существуют только две пары параметров у метатега robots: [no]index и [no]follow:

    1. Index — указывают, может ли робот проводить индексацию данного документа
    2. Follow — может ли он следовать по ссылкам, найденным в этом документе

    Значения по умолчанию (когда этот мета-тег для страницы вообще не прописан) – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность обоих параметров или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

    Более подробные объяснения можно найти, например, в хелпе Яндекса:

    Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Если используете другие плагины или другие движки сайта, то гуглите на тему прописывания для нужных страниц meta name=»robots».

    Как создать правильный роботс.тхт?

    Ну все, с теорией покончено и пора переходить к практике, а именно к составлению оптимальных robots.txt. Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress и др), имеется множество вспомогательных объектов не несущих никакой информативной нагрузки.

    Если не запретить индексацию всего этого мусора, то время, отведенное поисковиками на индексацию вашего сайта, будет тратиться на перебор файлов движка (на предмет поиска в них информационной составляющей, т.е. контента). Но фишка в том, что в большинстве CMS контент хранится не в файликах, а в базе данных, к которой поисковым ботам никак не добраться. Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши.

    Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать полного или даже частичного дублирования контента (информационного содержимого). Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL).

    Яндекс и Гугл, проводя индексацию, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве (машинные ресурсы стоят дорого, а посему затраты нужно минимизировать). Да, есть еще такая штука, как мета-тэг Canonical.

    Замечательный инструмент для борьбы с дублями контента — поисковик просто не будет индексировать страницу, если в Canonical прописан другой урл. Например, для такой страницы https://ktonanovenkogo.ru/page/2 моего блога (страницы с пагинацией) Canonical указывает на https://ktonanovenkogo.ru и никаких проблем с дублированием тайтлов возникнуть не должно.

    <link rel="canonical" href="https://ktonanovenkogo.ru/" />

    Но это я отвлекся…

    Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрета в robots.txt, а особенно в мета-теге, ибо в первом случае Google запрет может и проигнорировать, а вот на метатег наплевать он уже не сможет (так воспитан).

    Например, в WordPress страницы с очень похожим содержимым могут попасть в индекс поисковиков, если разрешена индексация и содержимого рубрик, и содержимого архива тегов, и содержимого временных архивов. Но если с помощью описанного выше мета-тега Robots создать запрет для архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Как это сделать описано по ссылке приведенной чуть выше (на плагин ОлИнСеоПак)

    Подводя итог скажу, что файл Роботс предназначен для задания глобальных правил запрета доступа в целые директории сайта, либо в файлы и папки, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов вы можете посмотреть чуть выше.

    Теперь давайте рассмотрим конкретные примеры роботса, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три варианта, созданные для разных CMS, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, у всех у них будет один общий момент, и момент этот связан с поисковой системой Яндекс.

    Т.к. в рунете Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, и тут нам поможет директива Host. Она в явной форме укажет этому поисковику главное зеркало вашего сайта.

    Для нее советуют использовать отдельный блог User-agent, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать Host и, соответственно, ее включение в запись User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации.

    Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поиска — это вещь в себе, поэтому лучше сделать так, как советуют. Но в этом случае придется продублировать в директиве User-agent: Yandex все те правила, что мы задали User-agent: *. Если вы оставите User-agent: Yandex с пустым Disallow:, то таким образом вы разрешите Яндексу заходить куда угодно и тащить все подряд в индекс.

    Robots для WordPress

    Не буду приводить пример файла, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают ботов Яндекса и Гугла в их прогулках по содержимому движка WordPress. Чаще всего в блогах можно встретить роботс, автоматически заполненный плагином Google XML Sitemaps.

    Но, по-моему, все-таки следует помочь поиску в нелегком деле отсеивания зерен от плевел. Во-первых, на индексацию этого мусора уйдет много времени у ботов Яндекса и Гугла, и может совсем не остаться времени для добавления в индекс вебстраниц с вашими новыми статьями. Во-вторых, боты, лазящие по мусорным файлам движка, будут создавать дополнительную нагрузку на сервер вашего хоста, что не есть хорошо.

    Мой вариант этого файла вы можете сами посмотреть. Он старый, давно не менялся, но я стараюсь следовать принципу «не чини то, что не ломалось», а вам уже решать: использовать его, сделать свой или еще у кого-то подсмотреть. У меня там еще запрет индексации страниц с пагинацией был прописан до недавнего времени (Disallow: */page/), но недавно я его убрал, понадеясь на Canonical, о котором писал выше.

    А вообще, единственно правильного файла для WordPress, наверное, не существует. Можно, кончено же, реализовать в нем любые предпосылки, но кто сказал, что они будут правильными. Вариантов идеальных robots.txt в сети много.

    Приведу две крайности:

    1. Тут можно найти мегафайлище с подробными пояснениями (символом # отделяются комментарии, которые в реальном файле лучше будет удалить):
      User-agent: * # общие правила для роботов, кроме Яндекса и Google,  # т.к. для них правила ниже Disallow: /cgi-bin # папка на хостинге Disallow: /? # все параметры запроса на главной Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет,  # правило можно удалить) Disallow: *?s= # поиск Disallow: *&s= # поиск Disallow: /search/ # поиск Disallow: /author/ # архив автора Disallow: /users/ # архив авторов Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой  # ссылки на статью Disallow: */feed # все фиды Disallow: */rss # rss фид Disallow: */embed # все встраивания Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,  # правило можно удалить) Disallow: /xmlrpc.php # файл WordPress API Disallow: *utm= # ссылки с utm-метками Disallow: *openstat= # ссылки с метками openstat Allow: */uploads # открываем папку с файлами uploads  User-agent: GoogleBot # правила для Google (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета) Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д. Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д. Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS  User-agent: Yandex # правила для Яндекса (комментарии не дублирую) Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать  # от индексирования, а удалять параметры меток,  # Google такие правила не поддерживает Clean-Param: openstat # аналогично  # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz  # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS # то пишем протокол, если нужно указать порт, указываем). Команду Host понимает # Яндекс и Mail.RU, Google не учитывает. Host: www.site.ru 
    2. А вот тут можно взять на вооружение пример минимализма:
      User-agent: *  Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://site.ru Sitemap: https://site.ru/sitemap.xml

    Истина, наверное, лежит где-то посредине. Еще не забудьте прописать мета-тег Robots для «лишних» страниц, например, с помощью чудесного плагина — All in One SEO Pack. Он же поможет и Canonical настроить.

    ktonanovenkogo.ru

    На какую тему создать свою социальную сеть. Программное обеспечение для социальной сети. Использовать имеющееся программное обеспечение или создать собственное

    Robots.txt для сайта — это индексный текстовый файл в кодировке UTF-8.

    Индексным его назвали потому, что в нем прописываются рекомендации для поисковых роботов — какие страницы нужно просканировать, а какие не нужно.

    Если кодировка файла отличается от UTF-8, то поисковые роботы могут неправильно воспринимать находящуюся в нем информацию.

    Файл действителен для протоколов http, https, ftp, а также имеет «силу» только в пределах хоста/протокола/номера порта, на котором размещен.

    Где находится robots.txt на сайте?

    У файла robots.txt может быть только одно расположение — корневой каталог на хостинге. Выглядит это примерно вот так: http://vash-site.xyz/robots.txt

    Директивы файла robots txt для сайта

    Обязательными составляющими файла robots.txt для сайта являются правило Disallow и инструкция User-agent. Есть и второстепенные правила.

    Правило Disallow

    Disallow — это правило, с помощью которого поисковому роботу сообщается информация о том, какие страницы сканировать нет смысла. И сразу же несколько конкретных примеров применения этого правила:

    Пример 1 — разрешено индексировать весь сайт:

    Пример 2 — полностью запретить индексацию сайта:

    В таком случае будет бесполезно. Применение этого примера актуально в том случае, если сайт «закрыт» на доработку (например, неправильно функционирует). В этом случае сайту в поисковой выдаче не место, поэтому его нужно через файл robots txt закрыть от индексации. Разумеется, после того, как сайт будет доработан, запрет на индексирование надо снять, но об этом забывают.

    Пример 6 — как в robots txt закрыть от индексации файлы конкретного расширения (в данном случае — .gif):

    Звездочка перед.gif$ сообщает, что имя файла может быть любым, а знак $ сообщает о конце строки. Т.е. такая «маска» запрещает сканирование вообще всех GIF-файлов.

    Правило Allow в robots txt

    Правило Allow все делает с точностью до наоборот — разрешает индексирование файла/папки/страницы.

    И сразу же конкретный пример:

    Мы с вами уже знаем, что с помощью директивы Disallow: / мы можем закрыть сайт от индексации robots txt. В то же время у нас есть правило Allow: /catalog, которое разрешает сканирование папки /catalog. Поэтому комбинацию этих двух правил поисковые роботы будут воспринимать как «запрещено сканировать сайт, за исключением папки /catalog»

    Сортировка правил и директив Allow и Disallow производится по возрастанию длины префикса URL и применяется последовательно. Если для одной и той же страницы подходит несколько правил, то робот выбирает последнее подходящее из списка.

    Рассмотрим 2 ситуации с двумя правилами, которые противоречат друг другу — одно правило запрещает индексировать папки /content, а другое — разрешает.

    В данном случае будет приоритетнее директива Allow, т.к. оно находится ниже по списку:

    А вот здесь приоритетным является директива Disallow по тем же причинам (ниже по списку):

    User-agent в robots txt

    User-agent — правило, являющееся «обращением» к поисковому роботу, мол, «список рекомендаций специально для вас» (к слову, списков в robots.txt может быть несколько — для разных поисковых роботов от Google и Яндекс).

    Например, в данном случае мы говорим «Эй, Googlebot, иди сюда, тут для тебя специально подготовленный список рекомендаций», а он такой «ОК, специально для меня — значит специально для меня» и другие списки сканировать не будет.

    Правильный robots txt для Google (Googlebot)

    Примерно та же история и с поисковым ботом Яндекса. Забегая вперед, список рекомендаций для Яндекса почти в 100% случаев немного отличается от списка для других поисковых роботов (чем — расскажем чуть позже). Но суть та же: «Эй, Яндекс, для тебя отдельный список» — «ОК, сейчас изучим его».

    Т.е. если в одном и том же robots.txt есть 3 списка с User-agent: *, User-agent: Googlebot и User-agent: Yandex, это значит, первый является «одним для всех», за исключением Googlebot и Яндекс, т.к. для них есть «личные» списки.

    Sitemap

    Правило Sitemap — расположение файла с XML-картой сайта, в которой содержатся адреса всех страниц, являющихся обязательными к сканированию. Как правило, указывается адрес вида http://site.ua/sitemap.xml.

    Т.е. каждый раз поисковый робот будет просматривать карту сайта на предмет появления новых адресов, а затем переходить по ним для дальнейшего сканирования, дабы освежить информацию о сайте в базах данных поисковой системы.

    Правило Sitemap должно быть вписано в Robots.txt следующим образом:

    Директива Host

    Межсекционная директива Host в файле robots.txt так же является обязательной. Она необходима для поискового робота Яндекса — сообщает ему, какое из зеркал сайта нужно учитывать при индексировании. Именно поэтому для Яндекса формируется отдельный список правил, т.к. Google и остальные поисковые системы директиву Host не понимают. Поэтому если у вашего сайта есть копии или же сайт может открываться под разными URL адресами, то добавьте директиву host в файл robots txt, чтобы страницы сайта правильно индексировались.

    «Зеркалом сайта» принято называть либо точную, либо почти точную «копию» сайта, которая доступна по другому адресу.

    Адрес основного зеркала обязательно должно быть указано следующим образом:

    Для сайтов, работающих по http — Host: site.ua или Host: http://site.ua (т.е. http:// пишется по желанию)

    Для сайтов, работающих по https — Host: https://site.ua (т.е. https:// прописывается в обязательном порядке)

    Пример директивы host в robots txt для сайта на протоколе HTTPS:

    Crawl delay

    В отличие от предыдущих, параметр Crawl-delay уже не является обязательным. Основная его задача — подсказать поисковому роботу, в течение скольких секунд будут грузиться страницы. Обычно применяется в том случае, если Вы используете слабые сервера. Актуален только для Яндекса.

    Clean param

    С помощью директивы Clean-param можно бороться с get-параметрами, чтобы не происходило дублирование контента, т.к. один и тот же контент бывает доступен по разным динамическим ссылкам (это те, которые со знаками вопроса). Динамические ссылки могут генерироваться сайтом в том случае, когда используются различные сортировки, применяются идентификаторы сессий и т.д.

    Например, один и тот же контент может быть доступен по трем адресам:

    www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

    www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

    www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

    В таком случае директива Clean-param оформляется вот так:

    Т.е. после двоеточия прописывается атрибут ref, указывающий на источник ссылки, и только потом указывается ее «хвост» (в данном случае — /catalog/get_phone.ua).

    Самые частые вопросы

    Как в robots.txt запретить индексацию?

    Для этих целей придумано правило Disallow: т.е. копируем ссылку на документ/файл, который нужно закрыть от индексации, вставляем ее после двоеточия:

    Disallow: http://your-site.xyz/privance.html

    Disallow: http://your-site.xyz/foord.doc

    Disallow: http://your-site.xyz/barcode.jpg

    А затем удаляете адрес домена (в данном случае удалить надо вот эту часть — http://your-site.xyz). После удаления у нас останется ровно то, что и должно остаться:

    Disallow: /privance.html

    Disallow: /foord.doc

    Disallow: /barcode.jpg

    Ну а если требуется закрыть от индексирования все файлы с определенным расширением, то правила будут выглядеть следующим образом:

    Disallow: /*.html

    Disallow: /*.doc

    Disallow: /*.jpg

    Как в robots.txt указать главное зеркало?

    Для этих целей придумана директива Host. Т.е. если адреса http://your-site.xyz и http://yoursite.com являются «зеркалами» одного и того же сайта, то одно из них необходимо указать в директиве Host. Пусть основным зеркалом будет http://your-site.xyz. В этом случае правильными вариантами будут следующие:

    Если сайт работает по https-протоколу, то нужно делать только так:

    User-agent: Yandex

    Disallow: /privance.html

    Disallow: /foord.doc

    Disallow: /barcode.jpg

    Host: https://your-site.xyz

    Если сайт работает по http-протоколу, то оба приведенных ниже варианта будут верными:

    User-agent: Yandex

    Disallow: /privance.html

    Disallow: /foord.doc

    Disallow: /barcode.jpg

    Host: http://your-site.xyz

    User-agent: Yandex

    Disallow: /privance.html

    Disallow: /foord.doc

    Disallow: /barcode.jpg

    Host: your-site.xyz

    Однако, следует помнить, директива Host является рекомендацией, а не правилом. Т.е. не исключено, что в Host будет указан один домен, а Яндекс посчитает за основное зеркало другой, если у него в панели вебмастера введены соответствующие настройки.

    Простейший пример правильного robots.txt

    В таком виде файл robots.txt можно разместить практически на любом сайте (с мельчайшими корректировками).

    Давайте теперь разберем, что тут есть.

    1. Здесь 2 списка правил — один «персонально» для Яндекса, другой — для всех остальных поисковых роботов.
    2. Правило Disallow: пустое, а значит никаких запретов на сканирование нет.
    3. В списке для Яндекса присутствует директива Host с указанием основного зеркала, а также, ссылка на карту сайта.

    НО… Это НЕ значит, что нужно оформлять robots.txt именно так. Правила должны быть прописаны строго индивидуально для каждого сайта. Например, нет смысла индексировать «технические» страницы (страницы ввода логина-пароля, либо тестовые страницы, на которых отрабатывается новый дизайн сайта, и т.д.). Правила, кстати, зависят еще и от используемой CMS.

    Закрытый от индексации сайт — как выглядит robots.txt?

    Даем сразу же готовый код, который позволит запретить индексацию сайта независимо от CMS:

    Как указать главное зеркало для сайта на https robots.txt?

    Очень просто:

    Host: https://your-site.xyz

    ВАЖНО!!! Для https-сайтов протокол должен указываться строго обязательно!

    Наиболее частые ошибки в robots.txt

    Специально для Вас мы приготовили подборку самых распространенных ошибок, допускаемых в robots.txt. Почти все эти ошибки объединяет одно — они допускаются по невнимательности.

    1. Перепутанные инструкции:

    Правильный вариант:

    2. В один Disallow вставляется куча папок:

    В такой записи робот может запутаться. Какую папку нельзя индексировать? Первую? Последнюю? Или все? Или как? Или что? Одна папка = одно правило Disallow и никак иначе.

    3. Название файла допускается только одно — robots.txt, причем все буквы маленькие. Имена Robots.txt, ROBOTS.TXT и т.п. не допускаются.

    4. Правило User-agent запрещено оставлять пустым. Либо указываем имя поискового робота (например, для Яндекса), либо ставим звездочку (для всех остальных).

    5. Мусор в файле (лишние слэши, звездочки и т.д.).

    6. Добавление в файл полных адресов скрываемых страниц, причем иногда даже без правила Disallow.

    Неправильно:

    http://mega-site.academy/serrot.html

    Тоже неправильно:

    Disallow: http://mega-site.academy/serrot.html

    Правильно:

    Disallow: /serrot.html

    Онлайн-проверка файла robots.txt

    Существует несколько способов проверки файла robots.txt на соответствие общепринятому в интернете стандарту.

    Способ 1. Зарегистрироваться в панелях веб-мастера Яндекс и Google. Единственный минус — придется покопаться, чтоб разобраться с функционалом. Далее вносятся рекомендованные изменения и готовый файл закачивается на хостинг.

    Способ 2. Воспользоваться онлайн-сервисами:

    Https://services.sl-team.ru/other/robots/

    Https://technicalseo.com/seo-tools/robots-txt/

    Http://tools.seochat.com/tools/robots-txt-validator/

    Итак, robots.txt сформирован. Осталось только проверить его на ошибки. Лучше всего использовать для этого инструменты, предлагаемые самими поисковыми системами.

    Google Вебмастерс (Search Console Google): заходим в аккаунт, если в нем сайт не подтвержден — подтверждаем, далее переходим на Сканирование -> Инструмент проверки файла robots.txt.

    Здесь можно:

    • моментально обнаружить все ошибки и потенциально возможные проблемы,
    • сразу же «на месте» внести поправки и проверить на ошибки еще раз (чтоб не перезагружать файл на сайт по 20 раз)
    • проверить правильность запретов и разрешений индексирования страниц.

    Является аналогом предыдущего, за исключением:

    • авторизация не обязательна;
    • подтверждение прав на сайт не обязательно;
    • доступна массовая проверка страниц на доступность;
    • можно убедиться, что все правила правильно восприняты Яндексом.

    Готовые решения для самых популярных CMS

    Правильный robots.txt для WordPress

    Disallow: /cgi-bin # классика жанра

    Disallow: /? # любые параметры запроса на главной

    Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

    Disallow: *?s= # поиск

    Disallow: *&s= # поиск

    Disallow: /search # поиск

    Disallow: *?attachment_id= # страница вложения. Вообще-то на ней редирект…

    Disallow: */feed # все фиды

    Disallow: */rss # rss фид

    Disallow: */embed # все встраивания

    Disallow: */page/ # все виды пагинации

    Allow: */uploads # открываем uploads

    Allow: /*/*.js # внутри /wp- (/*/ — для приоритета)

    Allow: /*/*.css # внутри /wp- (/*/ — для приоритета)

    Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.svg # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.pdf # файлы в плагинах, cache папке и т.д.

    #Disallow: /wp/ # когда WP установлен в подкаталог wp

    Sitemap: http://site.ru/sitemap2.xml # еще один файл

    #Sitemap: http://site.ru/sitemap.xml.gz # сжатая версия (.gz)

    Host: www.site.ru # для Яндекса и Mail.RU. (межсекционная)

    # Версия кода: 1.0

    # Не забудьте поменять `site.ru` на ваш сайт.

    Давайте разберем код файла robots txt для WordPress CMS:

    Здесь мы указываем, что все правила актуальны для всех поисковых роботов (за исключением тех, для кого составлены «персональные» списки). Если список составляется для какого-то конкретного робота, то * меняется на имя робота:

    User-agent: Yandex

    User-agent: Googlebot

    Allow: */uploads

    Здесь мы осознанно даем добро на индексирование ссылок, в которых содержится /uploads. В данном случае это правило является обязательным, т.к. в движке WordPress есть директория /wp-content/uploads (в которой вполне могут содержаться картинки, либо другой «открытый» контент), индексирование которой запрещено правилом Disallow: /wp-. Поэтому с помощью Allow: */uploads мы делаем исключение из правила Disallow: /wp-.

    В остальном просто идут запреты на индексирование:

    Disallow: /cgi-bin — запрет на индексирование скриптов

    Disallow: /feed — запрет на сканирование RSS-фида

    Disallow: /trackback — запрет сканирования уведомлений

    Disallow: ?s= или Disallow: *?s= — запрет на индексирование страниц внутреннего поиска сайта

    Disallow: */page/ — запрет индексирования всех видов пагинации

    Правило Sitemap: http://site.ru/sitemap.xml указывает Яндекс-роботу путь к файлу с xml-картой. Путь должен быть прописан полностью. Если таких файлов несколько — прописываем несколько Sitemap-правил (1 файл = 1 правило).

    В строке Host: site.ru мы специально для Яндекса прописали основное зеркало сайта. Оно указывается для того, чтоб остальные зеркала индексировались одинаково. Пустая строка перед Host: является обязательной.

    Где находится robots txt WordPress вы все наверное знаете — так как и в другие CMS, данный файл должен находится в корневом каталоге сайта.

    Файл robots.txt для Joomla

    Joomla — почти самый популярный движок у вебмастеров, т.к. не смотря на широчайшие возможности и множества готовых решений, он поставляется бесплатно. Однако, штатный robots.txt всегда имеет смысл подправить, т.к. для индексирования открыто слишком много «мусора», но картинки закрыты (это плохо).

    Вот так выглядит правильный robots.txt для Joomla:

    Disallow: /administrator/

    Disallow: /cache/

    Disallow: /components/

    Disallow: /images/

    Disallow: /includes/

    Disallow: /installation/

    Disallow: /language/

    Disallow: /layouts/

    Disallow: /libraries/

    Disallow: /logs/

    Disallow: /media/

    Disallow: /modules/

    Disallow: /plugins/

    Disallow: /templates/

    robots.txt Wix

    Платформа Wix автоматически генерирует файлы robots.txt персонально для каждого сайта Wix. Т.е. к Вашему домену добавляете /robots.txt (например: www.domain.com/robots.txt) и можете спокойно изучить содержимое файла robots.txt, находящегося на Вашем сайте.

    Отредактировать robots.txt нельзя. Однако с помощью noindex можно закрыть какие-то конкретные страницы от индексирования.

    robots.txt для Opencart

    Стандартный файл robots.txt для OpenCart:

    Disallow: /*route=account/

    Disallow: /*route=affiliate/

    Disallow: /*route=checkout/

    Disallow: /admin

    Disallow: /catalog

    Disallow: /download

    Disallow: /export

    Disallow: /system

    Disallow: /*?sort=

    Disallow: /*&sort=

    Disallow: /*?order=

    Disallow: /*&order=

    Disallow: /*?limit=

    Disallow: /*&limit=

    Disallow: /*?filter_name=

    Disallow: /*&filter_name=

    Disallow: /*?filter_sub_category=

    Disallow: /*&filter_sub_category=

    Disallow: /*?filter_description=

    Disallow: /*&filter_description=

    Disallow: /*?tracking=

    Disallow: /*&tracking=

    Disallow: /*?page=

    Disallow: /*&page=

    Disallow: /wishlist

    Disallow: /login

    User-agent: Yandex

    Disallow: /*route=account/

    Disallow: /*route=affiliate/

    Disallow: /*route=checkout/

    Disallow: /*route=product/search

    Disallow: /index.php?route=product/product*&manufacturer_id=

    Disallow: /admin

    Disallow: /catalog

    Disallow: /download

    Disallow: /export

    Disallow: /system

    Disallow: /*?sort=

    Disallow: /*&sort=

    Disallow: /*?order=

    Disallow: /*&order=

    Disallow: /*?limit=

    Disallow: /*&limit=

    Disallow: /*?tracking=

    Disallow: /*&tracking=

    Disallow: /*route=product/search

    Disallow: /*?page=

    Disallow: /*&page=

    Clean-param: tracking

    Clean-param: filter_name

    Clean-param: filter_sub_category

    Clean-param: filter_description

    Disallow: /wishlist

    Disallow: /login

    Disallow: /index.php?route=product/manufacturer

    Disallow: /index.php?route=product/compare

    Disallow: /index.php?route=product/category

    Host: Vash_domen

    Sitemap: http://Vash_domen/sitemap.xml

    robots.txt для Битрикс (Bitrix)

    1. Папки /bitrix и /cgi-bin должны быть закрыты, т.к. это чисто технический «хлам», который незачем светить в поисковой выдаче.

    Disallow: /bitrix

    Disallow: /cgi-bin

    2. Папка /search тоже не представляет интереса ни для пользователей, ни для поисковых систем. Да и образование дублей никому не нужно. Поэтому тоже ее закрываем.

    Disallow: /search

    Disallow: /auth/

    Disallow: /auth.php

    4. Материалы для печати (например, счета на оплату) тоже нет смысла светить в поисковой выдаче. Закрываем.

    Disallow: /*?print=

    Disallow: /*&print=

    5. Один из жирных плюсов «Битрикса» в том, что он фиксирует всю историю сайта — кто когда залогинился, кто когда сменил пароль, и прочую конфиденциальную информацию, утечка которой не допустима. Поэтому закрываем:

    Disallow: /*register=yes

    Disallow: /*forgot_password=yes

    Disallow: /*change_password=yes

    Disallow: /*login=yes

    Disallow: /*logout=yes

    Disallow: /*auth=yes

    6. Back-адреса тоже нет смысла индексировать. Эти адреса могут образовываться, например, при просмотре фотоальбома, когда Вы сначала листаете его «вперед», а потом — «назад». В эти моменты в адресной строке вполне может появиться что-то типа матерного ругательства: ?back_url_ =%2Fbitrix%2F%2F. Ценность таких адресов равна нулю, поэтому их тоже закрываем от индексирования. Ну а в качестве бонуса — избавляемся от потенциальных «дублей» в поисковой выдаче.

    Disallow: /*BACKURL=*

    Disallow: /*back_url=*

    Disallow: /*BACK_URL=*

    Disallow: /*back_url_admin=*

    7. Папку /upload необходимо закрывать строго по обстоятельствам. Если там хранятся фотографии и видеоматериалы, размещенные на страницах, то ее скрывать не нужно, чтоб не срезать дополнительный трафик. Ну а если что-то конфиденциальное — однозначно закрываем:

    Disallow: /upload

    Готовый файл robots.txt для Битрикс:

    Allow: /search/map.php

    Allow: /bitrix/templates/

    Disallow: */index.php

    Disallow: /*action=

    Disallow: /*print=

    Disallow: /*/gallery/*order=

    Disallow: /*/search/

    Disallow: /*/slide_show/

    Disallow: /*?utm_source=

    Disallow: /*ADD_TO_COMPARE_LIST

    Disallow: /*arrFilter=

    Disallow: /*auth=

    Disallow: /*back_url_admin=

    Disallow: /*BACK_URL=

    Disallow: /*back_url=

    Disallow: /*backurl=

    Disallow: /*bitrix_*=

    Disallow: /*bitrix_include_areas=

    Disallow: /*building_directory=

    Disallow: /*bxajaxid=

    Disallow: /*change_password=

    Disallow: /*clear_cache_session=

    Disallow: /*clear_cache=

    Disallow: /*count=

    Disallow: /*COURSE_ID=

    Disallow: /*forgot_password=

    Disallow: /*index.php$

    Disallow: /*login=

    Disallow: /*logout=

    Disallow: /*modern-repair/$

    Disallow: /*MUL_MODE=

    Disallow: /*ORDER_BY

    Disallow: /*PAGE_NAME=

    Disallow: /*PAGE_NAME=detail_slide_show

    Disallow: /*PAGE_NAME=search

    Disallow: /*PAGE_NAME=user_post

    Disallow: /*PAGEN_

    Disallow: /*print_course=

    Disallow: /*print=

    Disallow: /*register=

    Disallow: /*register=yes

    Disallow: /*set_filter=

    Disallow: /*show_all=

    Disallow: /*show_include_exec_time=

    Disallow: /*show_page_exec_time=

    Disallow: /*show_sql_stat=

    Disallow: /*SHOWALL_

    Disallow: /*sort=

    Disallow: /*sphrase_id=

    Disallow: /*tags=

    Disallow: /access.log

    Disallow: /admin

    Disallow: /auth.php

    Disallow: /bitrix

    Disallow: /bitrix/

    Disallow: /cgi-bin

    Disallow: /club/$

    Disallow: /club/forum/search/

    Disallow: /club/gallery/tags/

    Disallow: /club/group/search/

    Disallow: /club/log/

    Disallow: /club/messages/

    Disallow: /club/search/

    Disallow: /communication/blog/search.php

    Disallow: /communication/forum/search/

    Disallow: /communication/forum/user/

    Disallow: /content/board/my/

    Disallow: /content/links/my/

    Disallow: /error

    Disallow: /e-store/affiliates/

    Disallow: /e-store/paid/detail.php

    Disallow: /examples/download/download_private/

    Disallow: /examples/my-components/

    Disallow: /include

    Disallow: /personal

    Disallow: /search

    Disallow: /upload

    Disallow: /*/*ELEMENT_CODE=

    Disallow: /*/*SECTION_CODE=

    Disallow: /*/*IBLOCK_CODE

    Disallow: /*/*ELEMENT_ID=

    Disallow: /*/*SECTION_ID=

    Disallow: /*/*IBLOCK_ID=

    Disallow: /*/*CODE=

    Disallow: /*/*ID=

    Disallow: /*/*IBLOCK_EXTERNAL_ID=

    Disallow: /*/*SECTION_CODE_PATH=

    Disallow: /*/*EXTERNAL_ID=

    Disallow: /*/*IBLOCK_TYPE_ID=

    Disallow: /*/*SITE_DIR=

    Disallow: /*/*SERVER_NAME=

    Sitemap: http://site.ru/sitemap_index.xml

    Sitemap: http://site.ru/sitemap.xml

    robots.txt для Modx и Modx Revo

    CMS Modx Revo тоже не лишена проблемы дублей. Однако, она не так сильно обострена, как в Битриксе. Теперь о ее решении.

    1. Включаем ЧПУ в настройках сайта.
    2. закрываем от индексации:

    Disallow: /index.php # т.к. это дубль главной страницы сайта

    Disallow: /*? # разом решаем проблему с дублями для всех страниц

    Готовый файл robots.txt для Modx и Modx Revo:

    Disallow: /*?id=

    Disallow: /assets

    Disallow: /assets/cache

    Disallow: /assets/components

    Disallow: /assets/docs

    Disallow: /assets/export

    Disallow: /assets/import

    Disallow: /assets/modules

    Disallow: /assets/plugins

    Disallow: /assets/snippets

    Disallow: /connectors

    Disallow: /index.php

    Disallow: /install

    Disallow: /manager

    Disallow: /profile

    Disallow: /search

    Sitemap: http://site.ru/sitemap.xml

    Выводы

    Без преувеличения файл robots.txt можно назвать «поводырём для поисковых роботов Яндекс и Гугл» (разумеется, если он составлен правильно). Если файл robots txt отсутствует, то его нужно обязательно создать и загрузить на хостинг Вашего сайта. Справка Disallow правил описаны выше в этой статьей и вы можете смело их использоваться в своих целях.

    Еще раз резюмируем правила/директивы/инструкции для robots.txt:

    1. User-agent — указывает, для какого именно поискового робота создан список правил.
    2. Disallow — «рекомендую вот это не индексировать».
    3. Sitemap — указывает расположение XML-карты сайта со всеми URL, которые нужно проиндексировать. В большинстве случаев карта расположена по адресу http://[ваш_сайт]/sitemap.xml.
    4. Crawl-delay — директива, указывающая период (в секундах), через который будет загружена страница сайта.
    5. Host — показывает Яндексу основное зеркало сайта.
    6. Allow — «рекомендую вот это проиндексировать, не смотря на то, что это противоречит одному из Disallow-правил».
    7. Clean-param — помогает в борьбе с get-параметрами, применяется для снижения рисков образования страниц-дублей.

    Знаки при составлении robots.txt:

    1. Знак «$» для «звездочки» является «ограничителем».
    2. После слэша «/» указывается наименование файла/папки/расширения, которую нужно скрыть (в случае с Disallow) или открыть (в случае с Allow) для индексирования.
    3. Знаком «*» обозначается «любое количество любых символов».
    4. Знаком «#» отделяются какие-либо комментарии или примечания, оставленные вэб-мастером для себя, либо для кого-то другого. Поисковые роботы их не читают.

    Robots.txt is a text file that contains site indexing parameters for the search engine robots.

    How to set up robots.txt

      Create a file named robots.txt in a text editor and fill it in using the guidelines below.

      Check the file in the Yandex.Webmaster service (Robots.txt analysis in the menu).

      Upload the file to your site»s root directory.

    The User-agent directive

    The Yandex robot supports the robots exclusion standard with enhanced capabilities described below.

    The Yandex robot»s work is based on sessions: for every session, there is a pool of pages for the robot to download.

    A session begins with the download of the robots.txt file. If the file is missing, is not a text file, or the robot»s request returns an HTTP status other than 200 OK , the robot assumes that it has unrestricted access to the site»s documents.

    In the robots.txt file, the robot checks for records starting with User-agent: and looks for either the substring Yandex (the case doesn»t matter) or * . If a string User-agent: Yandex is detected, directives for User-agent: * are ignored. If the User-agent: Yandex and User-agent: * strings are not found, the robot is considered to have unlimited access.

    You can enter separate directives for the following Yandex robots:

    • YandexBot — The main indexing robot.
    • YandexDirect — Downloads information about the content on Yandex Advertising Network partner sites for selecting relevant ads. Interprets robots.txt in a special way .
    • «YandexDirectDyn» — Generates dynamic banners. Interprets robots.txt in a special way .
    • YandexMedia — Indexes multimedia data.
    • YandexImages — Indexer of .
    • YaDirectFetcher — The robot. Interprets robots.txt in a special way .
    • YandexBlogs — The Blog search Blog search robot. Indexes posts and comments.
    • YandexNews — The Yandex.News robot.
    • YandexPagechecker — .
    • YandexMetrika — The robot.
    • YandexMarket — TheYandex.Market robot.
    • YandexCalendar — The Yandex.Calendar Yandex.Calendar robot.

    If there are directives for a specific robot, directives User-agent: Yahoo and User-agent: * aren»t used.

    User-agent: YandexBot # will be used only by the main indexing robot Disallow: /*id= User-agent: Yandex # will be used by all Yandex robots Disallow: /*sid= # except for the main indexing robot User-agent: * # won»t be used by Yandex robots Disallow: /cgi-bin

    Disallow and Allow directives

    To prohibit the robot from accessing your site or certain sections of it, use the Disallow directive.

    User-agent: YandexDisallow: / # blocks access to the whole site User-agent: YandexDisallow: /cgi-bin # blocks access to the pages # starting with «/cgi-bin»

    According to the standard, you should insert a blank line before every User-agent directive.

    The # character designates commentary. Everything following this character, up to the first line break, is disregarded.

    Use the Allow directive to allow the robot to access specific parts of the site or the entire site.

    User-agent: Yandex Allow: /cgi-bin Disallow: / # prohibits downloading anything except for the pages # starting with «/cgi-bin»

    Note. Empty line breaks aren»t allowed between the User-agent , Disallow and Allow directives.

    Combining directives

    The Allow and Disallow directives from the corresponding User-agent block are sorted according to URL prefix length (from shortest to longest) and applied in order. If several directives match a particular site page, the robot selects the last one in the sorted list. This way the order of directives in the robots.txt file doesn»t affect the way they are used by the robot. Examples:

    # Source robots.txt: User-agent: Yandex Allow: /catalog Disallow: / # Sorted robots.txt: User-agent: Yandex Disallow: / Allow: /catalog # only allows downloading pages # starting with «/catalog» # Source robots.txt: User-agent: Yandex Allow: /Allow: /catalog/auto Disallow: /catalog # Sorted robots.txt: User-agent: Yandex Allow: / Disallow: /catalog Allow: /catalog/auto # prohibits downloading pages starting with «/catalog», # but allows downloading pages starting with «/catalog/auto».

    Allow and Disallow directives without parameters

    If the directives don»t contain parameters, the robot handles the data as follows:

    User-agent: Yandex Disallow: # same as Allow: / User-agent: Yandex Allow: # isn»t taken into account by the robot

    Using the special characters * and $

    You can use the special characters * and $ to set regular expressions when specifying paths for the Allow and Disallow directives. The * character indicates any sequence of characters (or none). Examples:

    User-agent: Yandex Disallow: /cgi-bin/*.aspx # prohibits «/cgi-bin/example.aspx» # and «/cgi-bin/private/test.aspx» Disallow: /*private # prohibits both «/private», # and «/cgi-bin/private»

    The $ character

    By default, the * character is appended to the end of every rule described in the robots.txt file. Example:

    User-agent: Yandex Disallow: /cgi-bin* # blocks access to pages # starting with «/cgi-bin»Disallow: /cgi-bin # the same

    To cancel * at the end of the rule, use the $ character, for example:

    User-agent: Yandex Disallow: /example$ # prohibits «/example», # but allows «/example.html» User-agent: Yandex Disallow: /example # prohibits both «/example», # and «/example.html» The $ character doesn»t forbid * at the end, that is: User-agent: Yandex Disallow: /example$ # prohibits only «/example» Disallow: /example*$ # exactly the same as «Disallow: /example» # prohibits both /example.html and /example

    The Sitemap directive

    If you use a Sitemap file to describe your site»s structure, indicate the path to the file as a parameterof the Sitemap directive (if you have multiple files, indicate all paths). Example:

    User-agent: Yandex Allow: / sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

    The directive is intersectional, meaning it is used by the robot regardless of its location in robots.txt .

    The robot remembers the path to your file, processes your data and uses the results during the next visit to your site.

    The Crawl-delay directive

    If the server is overloaded and it isn»t possible to process downloading requests, use the Crawl-delay directive. You can specify the minimum interval (in seconds) for the search robot to wait after downloading one page, before starting to download another.

    To maintain compatibility with robots that may deviate from the standard when processing robots.txt , add the Crawl-delay directive to the group that starts with the User-Agent entry right after the Disallow and Allow directives.

    The Yandex search robot supports fractional values for Crawl-Delay , such as «0.5». This doesn»t mean that the search robot will access your site every half a second, but it may speed up the site processing.

    User-agent: Yandex Crawl-delay: 2 # sets a 2-second timeout User-agent: * Disallow: /search Crawl-delay: 4.5 # sets a 4.5-second timeout

    The Clean-param directive

    If your site page addresses contain dynamic parameters that don»t affect the content (for example, identifiers of sessions, users, referrers, and so on), you can describe them using the Clean-param directive.

    The Yandex robot uses this information to avoid reloading duplicate information. This improves the robot»s efficiently and reduces the server load.

    For example, your site contains the following pages:

    Www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

    The ref parameter is only used to track which resource the request was sent from. It doesn»t change the page content. All three URLs will display the same page with the book_id=123 book. Then, if you indicate the directive in the following way:

    User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    the Yandex robot will converge all the page addresses into one:

    Www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123,

    If a page without parameters is available on the site:

    Www.example.com/some_dir/get_book.pl?book_id=123

    all other URLs are replaced with it after the robot indexes it. Other pages of your site will be crawled more often, because there will be no need to update the pages:

    Www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

    Directive syntax

    Clean-param: p0[&p1&p2&..&pn]

    In the first field, list the parameters that must be disregarded, separated by the & character. In the second field, indicate the path prefix for the pages the rule should apply to.

    The prefix can contain a regular expression in the format similar to the one used in the robots.txt file, but with some restrictions: you can only use the characters A-Za-z0-9.-/*_ . However, * is interpreted in the same way as in robots.txt . A * is always implicitly appended to the end of the prefix. For example:

    Clean-param: s /forum/showthread.php

    means that the s parameter is disregarded for all URLs that begin with /forum/showthread.php . The second field is optional, and in this case the rule will apply to all pages on the site. It is case sensitive. The maximum length of the rule is 500 characters. For example:

    Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

    Additional examples

    #for addresses like:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt will contain the following: User-agent: Yandex Disallow: Clean-param: s /forum/showthread.php #for addresses like:www.example2.com/index.php?page=1&sort=3a&sid=2564126ebdec301c607e5df www.example2.com/index.php?page=1&sort=3a&sid=974017dcd170d6c4a5d76ae #robots.txt will contain the following: User-agent: Yandex Disallow: Clean-param: sid /index.php #if there are several of these parameters:www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt will contain the following: User-agent: Yandex Disallow: Clean-param: s&ref /forum*/showthread.php #if the parameter is used in multiple scripts:www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243 #robots.txt will contain the following: User-agent: Yandex Disallow: Clean-param: s /forum/index.php Clean-param: s /forum/showthread.php

    Using Cyrillic characters

    The use of the Cyrillic alphabet is not allowed in robots.txt file and HTTP server headers.

    For domain names, use Punycode . For page addresses, use the same encoding as the one used for the current site structure.

    Example of the robots.txt file:

    #Incorrect: User-agent: Yandex Disallow: /корзина Sitemap: сайт.рф/sitemap.xml #Correct: User-agent: Yandex Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0 Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml

    Additional information

    The Yandex robot supports only the robots.txt directives listed on this page. The file processing rules described above represent an extension of the basic standard. Other robots may interpret robots.txt contents in a different way.

    The results when using the extended robots.txt format may differ from results that use the basic standard, particularly:

    User-agent: Yandex Allow: / Disallow: /# without extensions everything was prohibited because «Allow: /» was ignored, # with extensions supported, everything is allowed User-agent: Yandex Disallow: /private*html # without extensions, «/private*html» was prohibited, # with extensions supported, «/private*html», # «/private/test.html», «/private/html/test.aspx», and so on are prohibited as well User-agent: Yandex Disallow: /private$ # without extensions supported, «/private$» and «/private$test», and so on were prohibited, # with extensions supported, only «/private» is prohibited User-agent: * Disallow: / User-agent: Yandex Allow: / # without extensions supported, because of the missing line break, # «User-agent: Yandex» would be ignored # the result would be «Disallow: /», but the Yandex robot # parses strings based on the «User-agent:» substring. # In this case, the result for the Yandex robot is «Allow: /» User-agent: * Disallow: / # comment1… # comment2… # comment3… User-agent: Yandex Allow: / # same as in the previous example (see above)

    Examples using the extended robots.txt format:

    User-agent: Yandex Allow: /archive Disallow: / # allows everything that contains «/archive»; the rest is prohibited User-agent: Yandex Allow: /obsolete/private/*.html$ # allows HTML files # in the «/obsolete/private/… path» Disallow: /*.php$ # probibits all «*.php» on siteDisallow: /*/private/ # prohibits all subpaths containing # «/private/», but the Allow above negates # part of the prohibition Disallow: /*/old/*.zip$ # prohibits all «*.zip» files containing # «/old/» in the path User-agent: Yandex Disallow: /add.php?*user= # prohibits all «add.php?» scripts with the » user » option

    When forming the robots.txt file, you should keep in mind that the robot places a reasonable limit on its size. If the file size exceeds 32 KB, the robot assumes it allows everything, meaning it is interpreted the same way as:

    User-agent: Yandex Disallow:

    Similarly, robots.txt is assumed to allow everything if it couldn»t be downloaded (for example, if HTTP headers are not set properly or a 404 Not found status is returned).

    Exceptions

    A number of Yandex robots download web documents for purposes other than indexing. To avoid being unintentionally blocked by the site owners, they may ignore the robots.txt directives designed for random robots (User-agent: *).

    In addition, robots may ignore some robots.txt restrictions for certain sites if there is an agreement between “Yandex” and the owners of those sites.

    Attention. If such a robot downloads a document that the main Yandex robot can»t access, this document will never be indexed and won»t be found in search results.

    Yandex robots that don»t follow common disallow directives in robots.txt :

    • YaDirectFetcher downloads ad landing pages to check their availability and content. This is needed for placing ads in the Yandex search results and on partner sites. When crawling a site, the robot does not use the robots.txt file and ignores the directives set for it.
    • YandexCalendar regularly downloads calendar files by users» requests. These files are often located in directories prohibited from indexing.
    • YandexDirect downloads information about the content of Yandex Advertising network partner sites to identify their topic categories to match relevant advertising.
    • YandexDirectDyn is the robot that generates dynamic banners.
    • YandexMobileBot downloads documents to determine if their layout is suitable for mobile devices.
    • YandexAccessibilityBot downloads pages to check their accessibility for users.
    • YandexScreenshotBot takes a screenshot of a page.
    • YandexMetrika is the robot.
    • YandexVideoParser is the indexer.
    • YandexSearchShop regularly downloads product catalogs in YML files by users» requests. These files are often placed in directories prohibited for indexing.

    To prevent this behavior, you can restrict access for these robots to some pages or the whole site using the robots.txt directives, for example:

    User-agent: YandexCalendar Disallow: / User-agent: YandexMobileBot Disallow: /private/*.txt$

    Сначало расскажу, что такое robots.txt.

    Robots.txt – файл, который находится в корневой папки сайта, где прописываются специальные инструкции для поисковых роботов. Эти инструкции необходимы для того, чтобЫ при заходе на сайт, робот не учитывал страницу/раздел, другими словами мы закрываем страницу от индексации.

    Зачем нужен robots.txt

    Файл robots.txt считается ключевым требованием при SEO-оптимизации абсолютно любого сайта. Отсутствие этого файла может негативно сказаться на нагрузку со стороны роботов и медленной индексации и, даже более того, сайт полностью не будет проиндексирован. Соответственно пользователи не смогут перейти на страницы через Яндекс и Google.

    Влияние robots.txt на поисковые системы?

    Поисковые системы (в особенности Google) проиндексируют cайт, но если файла robots.txt нет, то, как и говорил не все страницы. Если имеется такой файл, то роботы руководствуются правилами, которые указываются в этом файле. Причем существует несколько видов поисковых роботов, если одни могут учитывать правило, то другие игнорируют. В частности, робот GoogleBot не учитывает директиву Host и Crawl-Delay, робот YandexNews совсем недавно перестал учитывать директиву Crawl-Delay, а роботы YandexDirect и YandexVideoParser игнорируют общепринятые директивы в robots.txt (но учитывают те, которые прописаны специально для них).

    Нагружают сайт больше всего роботы, которые подгружают контент с вашего сайта. Соответственно, если мы укажем роботу, какие страницы индексировать, а какие игнорировать, а также с какими временными промежутками подгружать контент со страниц (это больше качается крупных сайтов у которых имеется более 100 000 страниц в индексе поисковых систем). Это позволит значительно облегчить роботу индексацию и процесс подгружения контента с сайта.

    К ненужным для поисковых систем можно отнести файлы которые относятся к CMS, например, в WordPress – /wp-admin/. Помимо этого, скрипты ajax, json, отвечающие за всплывающие формы, баннеры, вывод каптчи и так далее.

    Для большинства роботов также рекомендую закрыть от индексации все файлы Javascript и CSS. Но для GoogleBot и Yandex такие файлы лучше индексировать, так как они используются поисковыми системами для анализа удобства сайта и его ранжирования.

    Что такое директива robots.txt?


    Директивы – это и есть правила для поисковых роботов. Первые стандарты по написанию robots.txt и соответственно появились в 1994, а расширенный стандарт в 1996 году. Однако, как вы уже знаете, что не все роботы поддерживают те или иные директивы. Поэтому ниже я расписал чем руководствуются основные роботы при индексации страниц сайта.

    Что означает User-agent?

    Это самая главная директива, которая определяет для каких поисковых роботов будут действовать следовать дальнейшие правила.

    Для всех роботов:

    Для определенного бота:

    User-agent: Googlebot

    Регистр в robots.txt не стол важен, писать можно как Googlebot так и googlebot

    Поисковые роботы Google







    Поисковые роботы Яндекса

    основной индексирующий робот Яндекса

    Используется в сервисе Яндекс.Картинки

    Используется в сервисе Яндекс.Видео

    Мультимедийные данные

    Поиск по блогам

    Поисковый робот, обращающийся к странице при добавлении ее через форму «Добавить URL»

    робот, индексирующий пиктограммы сайтов (favicons)

    Яндекс.Директ

    Яндекс.Метрика

    Используется в сервисе Яндекс.Каталог

    Используется в сервисе Яндекс.Новости

    YandexImageResizer

    Поисковый робот мобильных сервисов

    Поисковые роботы Bing, Yahoo, Mail.ru, Rambler

    Директивы Disallow и Allow

    Disallow закрывает от индексирования разделы и страницы вашего сайта. Соответственно Allow наоборот открывает их.

    Есть некоторые особенности.

    Во первых, дополнительные операторы — *, $ и #. Для чего они используются?

    “*” – это любое количество символов и их отсутствие. По умолчанию она уже находится в конце строки, поэтому ставить ее еще раз смысла нет.

    “$” – показывает, что символ перед ним должен идти последним.

    “#” – комментарий, все что идет после этого символа робот не учитывает.

    Примеры использования Disallow:

    Disallow: *?s=

    Disallow: /category/

    Соответственно поисковый робот закроет страницы типа:

    Но открыты для индексации будут страницы вида:

    Теперь вам необходимо понять, каким образом выполняются правила с вложенностью. Порядок записи директив совершено важен. Наследование правил, определяется по тому какие директории указаны, то есть если мы хотим закрыть страницу/документ от индексации достаточно прописать директиву. Давайте посмотрим на примере

    Это наш файл robots.txt

    Disallow: /template/

    Данная директива указывается так же в любом месте, причем можно прописать несколько файлов sitemap.

    Директива Host в robots.txt

    Данная директива необходима для указания главного зеркала сайта (часто с www или без). Обратите внимание, что директива host указывается без протокола http://, но с протоколом https://. Директиву учитывают только поисковые роботы Яндекса и Mail.ru, а другими роботами, в том числе GoogleBot правило не будет учтено. Host прописывать 1 раз в файле robots.txt

    Пример с http://

    Host: website.ru

    Пример с https://

    Директива Crawl-delay

    Устанавливает временной интервал индексирования поисковым роботом страниц сайта. Значение указывается в секундах, и в миллисекундах.

    Пример:

    Применяется по большей части на крупных интернет-магазинах, информационных сайтах, порталах, где посещаемость сайта от 5 000 в день. Необходим для того, чтобы поисковый робот делал запрос на индексирование в определенный промежуток времени. Если не указывать данную директиву, то это может создать серьезную нагрузку на сервер.

    Оптимальное значение crawl-delay для каждого сайта свое. Для поисковых систем Mail, Bing, Yahoo значение можно выставить минимальное значение 0.25, 0.3, так как роботы эти поисковиков могут переобходить ваш сайт раз в месяц, 2 месяца и так далее (очень редко). Для Яндекса лучше установить большее значение.

    Если нагрузка вашего сайта минимальная, то указывать данную директиву смысла нет.

    Директива Clean-param

    Правило интересно тем, что сообщает краулеру, что страницы с определенными параметрами нет необходимости индексировать. Прописывается 2 агрумента: URL страницы и параметр. Данная директива поддерживается поисковой системой Яндекс.

    Пример:

    Disallow: /admin/

    Disallow: /plugins/

    Disallow: /search/

    Disallow: /cart/

    Disallow: *sort=

    Disallow: *view=

    User-agent: GoogleBot

    Disallow: /admin/

    Disallow: /plugins/

    Disallow: /search/

    Disallow: /cart/

    Disallow: *sort=

    Disallow: *view=

    Allow: /plugins/*.css

    Allow: /plugins/*.js

    Allow: /plugins/*.png

    Allow: /plugins/*.jpg

    Allow: /plugins/*.gif

    User-agent: Yandex

    Disallow: /admin/

    Disallow: /plugins/

    Disallow: /search/

    Disallow: /cart/

    Disallow: *sort=

    Disallow: *view=

    Allow: /plugins/*.css

    Allow: /plugins/*.js

    Allow: /plugins/*.png

    Allow: /plugins/*.jpg

    Allow: /plugins/*.gif

    Clean-Param: utm_source&utm_medium&utm_campaign

    В примере мы прописали правила для 3 разных ботов.

    Куда добавить robots.txt?

    Добавляется в корневую папку сайта. Помимо, чтобы по нему можно было перейти по ссылке:

    Как проверить robots.txt?

    Яндекс Вебмастер

    На вкладке Инструменты выбираете Анализ robots.txt и далее нажимаете проверить

    Google Search Console

    На вкладке Cканирование выбираете Инструмент проверки файла robots.txt и далее нажимаете проверить.

    Заключение:

    Файл robots.txt должен быть обязательно на каждом продвигаемом сайте и лишь правильная его настройка позволит получить необходимую индексацию.

    Ну и напоследок, если у вас возникли вопросы задавайте их в комментариях под статьей и еще мне интересно, а как вы прописываете robots.txt?

    Robots.txt — это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем.

    Яндекс поддерживает следующие директивы:

    Директива Что делает
    User-agent *
    Disallow
    Sitemap
    Clean-param
    Allow
    Crawl-delay
    Директива Что делает
    User-agent * Указывает на робота, для которого действуют перечисленные в robots.txt правила.
    Disallow Запрещает индексирование разделов или отдельных страниц сайта.
    Sitemap Указывает путь к файлу Sitemap , который размещен на сайте.
    Clean-param Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
    Allow Разрешает индексирование разделов или отдельных страниц сайта.
    Crawl-delay Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

    * Обязательная директива.

    Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:

    User-agent: * #указываем, для каких роботов установлены директивы\nDisallow: /bin/ # запрещает ссылки из \»Корзины с товарами\».\nDisallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска\nDisallow: /admin/ # запрещает ссылки из панели администратора\nSitemap: http://example.com/sitemap # указываем роботу на файл sitemap для сайта\nClean-param: ref /some_dir/get_book.pl

    Роботы других поисковых систем и сервисов могут иначе интерпретировать эти директивы.

    Примечание. Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.

    Использование кириллицы

    Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.

    Для указания имен доменов используйте Punycode . Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.

    Пример файла robots.txt :

    #Неверно:\nUser-agent: Yandex\nDisallow: /корзина\n\n#Верно:\nUser-agent: Yandex\nDisallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

    Как создать robots.txt

    Вопросы и ответы

    В Яндекс.Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots.txt»

    Чтобы файл robots.txt учитывался роботом, он должен находиться в корневом каталоге сайта и отвечать кодом HTTP 200. Индексирующий робот не поддерживает использование файлов, расположенных на других сайтах.

    Проверить ответ сервера и доступность файла robots.txt для робота можно с помощью инструмента Проверка ответа сервера .

    Если ваш robots.txt выполняет перенаправление на другой файл robots.txt (например, при переезде сайта), добавьте сайт, который является целью перенаправления, в Яндекс.Вебмастер и подтвердите права на управление сайтом.

    Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

    Директива Host – это команда или правило, сообщающее поисковой машине о том, какое (с www или без) считать основным. Находится директива Host в файле и предназначена исключительно для Яндекса.

    Часто возникает необходимость, чтобы поисковая система не индексировала некоторые страницы сайта или его зеркала. Например, ресурс находится на одном сервере, однако в интернете есть идентичное доменное имя, по которому осуществляется индексация и отображение в результатах поисковой выдачи.

    Поисковые роботы Яндекса обходят страницы сайтов и добавляют собранную информацию в базу данных по собственному графику. В процессе индексации они самостоятельно решают, какую страницу необходимо обработать. К примеру, роботы обходят стороной различные форумы, доски объявлений, каталоги и прочие ресурсы, где индексация бессмысленна. Также они могут определять главный сайт и зеркала. Первые подлежат индексации, вторые – нет. В процессе часто возникают ошибки. Повлиять на это можно посредством использования директивы Host в файл Robots.txt.

    Зачем нужен файл Robots.txt

    Robots – это обычный текстовый файл. Его можно создать через блокнот, однако работать с ним (открывать и редактировать информацию) рекомендуется в текстовом редакторе Notepad++ . Необходимость данного файла при оптимизации веб-ресурсов обуславливается несколькими факторами:

    1. Если файл Robots.txt отсутствует, сайт будет постоянно перегружен из-за работы поисковых машин.
    2. Существует риск, что индексироваться будут лишние страницы или сайты зеркала.

    Индексация будет проходить гораздо медленнее, а при неправильно установленных настройках он вовсе может исчезнуть из результатов поисковой выдачи Google и Яндекс.

    Как оформить директиву Host в файле Robots.txt

    Файл Robots включает в себя директиву Host – инструкцию для поисковой машины о том, где главный сайт, а где его зеркала.

    Директива имеет следующую форму написания: Host: [необязательный пробел] [значение] [необязательный пробел]. Правила написания директивы требуют соблюдения следующих пунктов:

    • Наличие в директиве Host протокола HTTPS для поддержки шифрования. Его необходимо использовать, если доступ к зеркалу осуществляется только по защищенному каналу.
    • Доменное имя, не являющееся IP-адресом, а также номер порта веб-ресурса.

    Корректно составленная директива позволит веб-мастеру обозначить для поисковых машин, где главное зеркало. Остальные будут считаться второстепенными и, следовательно, индексироваться не будут. Как правило, зеркала можно отличить по наличию или отсутствию аббревиатуры www. Если пользователь не укажет главное зеркало веб-ресурса посредством Host, поисковая система Яндекс пришлет соответствующее уведомление в Вебмастер. Также уведомление будет выслано, если в файле Роботс задана противоречивая директива Host.

    Определить, где главное зеркало сайта можно через поисковик. Необходимо вбить в поисковую строку адрес ресурса и посмотреть на результаты выдачи: сайт, где перед доменом в адресной строке стоит www, является главным доменом.

    В случае, если ресурс не отображается на странице выдачи, пользователь может самостоятельно назначить его главным зеркалом, перейдя в соответствующий раздел в Яндекс.Вебмастере. Если веб-мастеру необходимо, чтобы доменное имя сайта не содержало www, следует не указывать его в Хосте.

    Многие веб-мастера используют кириллические домены в качестве дополнительных зеркал для своих сайтов. Однако в директиве Host кириллица не поддерживается. Для этого необходимо дублировать слова на латинице, с условием, что их можно будет легко узнать, скопировав адрес сайта из адресной строки.

    Хост в файле Роботс

    Главное предназначение данной директивы состоит в решении проблем с дублирующими страницами. Использовать Host необходимо в случае, если работа веб-ресурса ориентирована на русскоязычную аудиторию и, соответственно, сортировка сайта должна проходить в системе Яндекса.

    Не все поисковики поддерживают работу директивы Хост. Функция доступна только в Яндексе. При этом даже здесь нет гарантий, что домен будет назначен в качестве главного зеркала, но по заверениям самого Яндекса, приоритет всегда остается за именем, которое указано в хосте.

    Чтобы поисковые машины правильно считывали информацию при обработке файла robots.txt, необходимо прописывать директиву Host в соответствующую группу, начинающуюся после слов User-Agent. Однако, роботы смогут использовать Host независимо от того, будет директива прописана по правилам или нет, поскольку она является межсекционной.

    Что означает disallow в robots txt. Рекомендации по настройке файла robots txt. Основные директивы для файла robots txt

    Карта сайта, значительно упрощает индексацию вашего блога. Карта сайта должна быть в обязательном порядке у каждого сайта и блога. Но также на каждом сайте и блоге должен быть файл robots. txt . Файл robots.txt содержит свод инструкций для поисковых роботов. Можно сказать, — правила поведения поисковых роботов на вашем блоге. А также в данном файле содержится путь к карте сайта вашего блога. И, по сути, при правильно составленном файле robots.txt поисковый робот не тратит драгоценное время на поиск карты сайта и индексацию не нужных файлов.

    Что же из себя представляет файл robots.txt?

    robots.txt – это текстовый файл, может быть создан в обычном «блокноте», расположенный в корне вашего блога, содержащий инструкции для поисковых роботов.

    Эти инструкции ограничивают поисковых роботов от беспорядочной индексации всех файлов вашего бога, и нацеливают на индексацию именно тех страниц, которым следует попасть в поисковую выдачу.

    С помощью данного файла, вы можете запретить индексацию файлов движка WordPress. Или, скажем, секретного раздела вашего блога. Вы можете указать путь к карте Вашего блога и главное зеркало вашего блога. Здесь я имею ввиду, ваше доменное имя с www и без www.

    Индексация сайта с robots.txt и без

    Данный скриншот, наглядно показывает, как файл robots.txt запрещает индексацию определённых папок на сайте. Без файла, роботу доступно всё на вашем сайте.

    Основные директивы файла robots.txt

    Для того чтобы разобраться с инструкциями, которые содержит файл robots.txt нужно разобраться с основными командами (директивы).

    User-agent – данная команда обозначает доступ роботам к вашему сайту. Используя эту директиву можно создать инструкции индивидуально под каждого робота.

    User-agent: Yandex – правила для робота Яндекс

    User-agent: * — правила для всех роботов

    Disallow и Allow – директивы запрета и разрешения. С помощью директивы Disallow запрещается индексация а с помощью Allow разрешается.

    Пример запрета:

    User-agent: *

    Disallow: / — запрет ко всему сайта.

    User-agent: Yandex

    Disallow: /admin – запрет роботу Яндекса к страницам лежащим в папке admin.

    Пример разрешения:

    User-agent: *

    Allow: /photo

    Disallow: / — запрет ко всему сайту, кроме страниц находящихся в папке photo.

    Примечание! директива Disallow: без параметра разрешает всё, а директива Allow: без параметра запрещает всё. И директивы Allow без Disallow не должно быть.

    Sitemap – указывает путь к карте сайта в формате xml.

    Sitemap: https://сайт/sitemap.xml.gz

    Sitemap: https://сайт/sitemap.xml

    Host – директива определяет главное зеркало Вашего блога. Считается, что данная директива прописывается только для роботов Яндекса. Данную директиву следует указывать в самом конце файла robots.txt.

    User-agent: Yandex

    Disallow: /wp-includes

    Host: сайт

    Примечание! адрес главного зеркала указывается без указания протокола передачи гипертекста (http://).

    Как создать robots.txt

    Теперь, когда мы познакомились с основными командами файла robots.txt можно приступать к созданию нашего файла. Для того чтобы создать свой файл robots.txt с вашими индивидуальными настройками, вам необходимо знать структуру вашего блога.

    Мы рассмотрим создание стандартного (универсального) файла robots.txt для блога на WordPress. Вы всегда сможете дополнить его своими настройками.

    Итак, приступаем. Нам понадобится обычный «блокнот», который есть в каждой операционной системе Windows. Или TextEdit в MacOS.

    Открываем новый документ и вставляем в него вот эти команды:

    User-agent: * Disallow: Sitemap: https://сайт/sitemap.xml.gz Sitemap: https://сайт/sitemap.xml User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-content/languages Disallow: /category/*/* Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /tag/ Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: */*/feed Disallow: /?feed= Disallow: /*?* Disallow: /?s= Host: сайт

    Не забудьте заменить параметры директив Sitemap и Host на свои.

    Важно! при написании команд, допускается лишь один пробел. Между директивой и параметром. Ни в коем случае не делайте пробелов после параметра или просто где попало.

    Пример : Disallow:/feed/

    Данный пример файла robots.txt универсален и подходит под любой блог на WordPress с ЧПУ адресами url. О том что такое ЧПУ читайте . Если же Вы не настраивали ЧПУ, рекомендую из предложенного файла удалить Disallow: /*?* Disallow: /?s=

    Загрузка файла robots.txt на сервер

    Лучшим способом для такого рода манипуляций является FTP соединение. О том как настроить FTP соединение для TotolCommander читайте . Или же Вы можете использовать файловый менеджер на Вашем хостинге.

    Я воспользуюсь FTP соединением на TotolCommander.

    Сеть > Соединится с FTP сервером.

    Выбрать нужное соединение и нажимаем кнопку «Соединиться».

    Открываем корень блога и копируем наш файл robots.txt, нажав клавишу F5.

    Копирование robots.txt на сервер

    Вот теперь Ваш файл robots.txt будет исполнять надлежащие ему функции. Но я всё же рекомендую провести анализ robots.txt, чтобы удостоверится в отсутствии ошибок.

    Для этого Вам потребуется войти в кабинет вебмастера Яндекс или Google. Рассмотрим примере Яндекс. Здесь можно провести анализ даже не подтверждая прав на сайт. Вам достаточно иметь почтовый ящик на Яндекс.

    Открываем кабинет Яндекс.вебмастер.

    На главной странице кабинета вебмастер, открываем ссылку «Проверить robots. txt» .

    Для анализа потребуется ввести url адрес вашего блога и нажать кнопку «Загрузить robots. txt с сайта ». Как только файл будет загружен нажимаем кнопку «Проверить».

    Отсутствие предупреждающих записей, свидетельствует о правильности создания файла robots.txt.

    Ниже будет представлен результат. Где ясно и понятно какие материалы разрешены для показа поисковым роботам, а какие запрещены.

    Результат анализа файла robots.txt

    Здесь же вы можете вносить изменения в robots.txt и экспериментировать до получения нужного вам результата. Но помните, файл расположенный на вашем блоге при этом не меняется. Для этого вам потребуется полученный здесь результат скопировать в блокнот, сохранить как robots.txt и скопировать на Вас блог.

    Кстати, если вам интересно как выглядит файл robots.txt на чьём-то блоге, вы может с лёгкостью его посмотреть. Для этого к адресу сайта нужно просто добавить /robots.txt

    https://сайт/robots.txt

    Вот теперь ваш robots.txt готов. И помните не откладывайте в долгий ящик создание файла robots.txt, от этого будет зависеть индексация вашего блога.

    Если же вы хотите создать правильный robots.txt и при этом быть уверенным, что в индекс поисковых систем попадут только нужные страницы, то это можно сделать и автоматически с помощью плагина .

    На этом у меня всё. Всем желаю успехов. Если будут вопросы или дополнения пишите в комментариях.

    До скорой встречи.

    С уважением, Максим Зайцев.

    Подписывайтесь на новые статьи!

    robots.txt — это обычный текстовый файл, размещенный на сайте и предназначенный для роботов поисковых систем. В этом файле можно указать параметры индексирования своего сайта для всех роботов поисковых систем сразу или для каждой поисковой системы по отдельности.

    Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt.

    Как создать?

    Сделать файл robots.txt очень просто — создаете обычный текстовый документ, называете его robots, не ошибитесь в регистре букв или в самих буквах, название должно быть именно такое. Если не планируете запрещать индексирование страниц сайта, можно созданный файл оставить пустым. Если планируете — просто заполняете документ в соответствии с принятыми в 1994 году общими стандартами. После этого необходимо загрузить файл в корневой каталог вашего сайта, чтобы файл открывался по ссылке http://www.site.ru/robots.txt . Всё.

    Что закрывать от индексации?
    Правила заполнения файла robots.txt

    Итак, в файле robots.txt каждая команда или директива должна прописываться отдельной строкой. Число команд не ограничено.

    • Директива user-agent

      Первое, с чего следует начать заполнение файла — указать, для какого робота будут команды, для этого пишем в первой строчке:

      если ваши инструкции предназначены для роботов Яндекса:

      User-agent: yandex

      для роботов Google:

      User-agent: googlebot

      для всех роботов без исключения:
    • Директива Disallow и Allow

      Команда Disallow запрещает роботу индексировать тот или иной файл или папку.

      Например,

      запрещает индексировать файлы данной папки:

      Disallow: /cgi-bin/

      запрещает индексировать данный файл:

      Disallow: /company.html

      запрет на индексацию всего сайта:

      Проверьте ваш сайт — это одна из частых причин неиндексирования сайта.

      Важно! Неправильно указывать несколько директив в одной строчке:

      Disallow: /cgi-bin/ /cell/ /bot/

      Директива Allow наоборот — снимает запрет на индексацию некоторых файлов. Пример ее использования:

      User-agent: Yandex
      Allow: /cgi-binDisallow: /

      Такая запись в файле запрещает скачивать роботу Яндекса все, кроме страниц, начинающихся с «/cgi-bin».

      Важно! Если в файле указали директиву, но не указали параметры для нее, значения будут такие:

      запрета на индексацию сайта нет:
      весь сайт запрещен к индексации:
    • Директива sitemap

      Если у вас есть карта сайта в формате sitemaps.xml, укажите путь к ней в специальной директиве Sitemap (если файлов несколько, укажите все):

      Sitemap: http://site.ru/sitemaps1.xml
      Sitemap: http://site.ru/sitemaps2.xml

    • Директива Host

      Данная запись используется роботами Яндекса. Определите и укажите в директиве Host главное зеркало вашего сайта:

      Host: www.site.ru

      Часто начинающие вебмастера забывают, что сайт с www и без (www.site.ru и site.ru) являются зеркалами друг друга. Поэтому обязательно укажите, какой адрес является приоритетным с www или без.

      Директива Host не гарантирует выбор указанного главного зеркала, но Яндекс учитывает ее с высоким приоритетом.

    Пример заполнения robots.txt

    User-agent: *
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /language/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /templates/
    Disallow: /tmp/
    Host: sait.ru
    Sitemap: http://site.ru/sitemaps.xml

    Проверка файла robots.txt

    Для проверки получившегося файла можно воспользоваться Яндекс.Вебмастером . Или закажите у нас полный SEO-аудит , и мы проверим не только этот файл, но и остальные важные параметры.

    Здравствуйте, уважаемые читатели блога «Мир Вебмастера»!

    Файл robots.txt – это очень важный файл, напрямую влияющий на качество индексации вашего сайта, а значит и на его поисковое продвижение.

    Именно поэтому вы должны уметь правильно оформлять роботс.тхт, чтобы случайно не запретить к индексу какие-нибудь важные документы интернет-проекта.

    О том, как оформить файл robots.txt, какой синтаксис нужно использовать при этом, как разрешать и запрещать к индексу документы, и пойдет речь в этой статье.

    О файле robots.txt

    Сначала давайте подробнее узнаем, что же это за файл такой.

    Файл роботс – это файл, который показывает поисковым системам, какие страницы и документы сайта можно добавлять в индекс, а какие – нельзя. Он необходим из-за того, что изначально поисковые системы стараются проиндексировать весь сайт, а это не всегда правильно. Например, если вы создаете сайт на движке (WordPress, Joomla и т.д.), то у вас будут присутствовать папки, организующие работу административной панели. Понятно, что информацию в этих папках индексировать нельзя, как раз в этом случае и используется файл robots.txt, который ограничивает доступ поисковикам.

    Также в файле роботс.тхт указывается адрес карты сайта (она улучшает индексацию поисковыми системами), а также главный домен сайта (главное зеркало).

    Зеркало – это абсолютная копия сайта, т.е. когда один сайт , то говорят, что один из них – это главный домен, а другой – его зеркало.

    Таким образом, у файла достаточно много функций, причем немаловажных!

    Синтаксис файла robots.txt

    Файл роботс содержит блоки правил, которые говорят той или иной поисковой системе, что можно индексировать, а что нет. Блок правил может быть и один (для всех поисковиков), но также их может быть несколько – для каких-то конкретных поисковиков отдельно.

    Каждый такой блок начинается с оператора «User-Agent», который указывает, к какой поисковой системе применимы данные правила.

    User- Agent: A
    {правила для робота «А»}

    User- Agent: B
    {правила для робота «В»}

    В примере выше показано, что оператор «User-Agent» имеет параметр – имя робота поисковой системы, к которой применяются правила. Основные из них я укажу ниже:

    После «User-Agent» идут другие операторы. Вот их описание:

    Для всех операторов справедлив один синтаксис. Т.е. операторы нужно использовать следующим образом:

    Оператор1: параметр1

    Оператор2: параметр2

    Таким образом, сначала мы пишем название оператора (неважно, большими или маленькими буквами), затем ставим двоеточие и через пробел указываем параметр данного оператора. Затем с новой строки таким же образом описываем оператор два.

    Важно!!! Пустая строка будет означать, что блок правил для данного поисковика закончен, поэтому не разделяйте операторы пустой строкой.

    Пример файла robots.txt

    Рассмотрим простенький пример файла robots.txt, чтобы лучше разобраться в особенностях его синтаксиса:

    User-agent: Yandex
    Allow: /folder1/
    Disallow: /file1.html
    Host: www.site.ru

    User-agent: *
    Disallow: /document.php
    Disallow: /folderxxx/
    Disallow: /folderyyy/folderzzz
    Disallow: /feed/

    Sitemap: http://www.site.ru/sitemap.xml

    Теперь разберем описанный пример.

    Файл состоит из трех блоков: первый для Яндекса, второй для всех поисковых систем, а в третьем указан адрес карты сайта (применяется автоматически для всех поисковиков, поэтому указывать «User-Agent» не нужно). Яндексу мы разрешили индексировать папку «folder1» и все ее содержимое, но запретили индексировать документ «file1.html», находящийся в корневом каталоге на хостинге. Также мы указали главный домен сайта яндексу. Второй блок – для всех поисковиков. Там мы запретили документ «document.php», а также папки «folderxxx», «folderyyy/folderzzz» и «feed».

    Обратите внимание, что мы запретили в втором блоке команд к индексу не всю папку «folderyyy», а лишь папку внутри этой папки – «folderzzz». Т.е. мы указали полный путь для «folderzzz». Так всегда нужно делать, если мы запрещаем документ, находящийся не в корневом каталоге сайта, а где-то внутри других папок.

    Создание займет меньше двух минут:

    Созданный файл роботс можно проверить на работоспособность в панели вебмастеров Яндекса . Если в файле вдруг обнаружатся ошибки, то яндекс это покажет.

    Обязательно создайте файл robots.txt для вашего сайта, если его у вас до сих пор нету. Это поможет развиваться вашему сайту в поисковых системах. Также можете почитать еще одну нашу статью про методом мета-тегов и.htaccess.

    Robots.txt для сайта — это индексный текстовый файл в кодировке UTF-8.

    Индексным его назвали потому, что в нем прописываются рекомендации для поисковых роботов — какие страницы нужно просканировать, а какие не нужно.

    Если кодировка файла отличается от UTF-8, то поисковые роботы могут неправильно воспринимать находящуюся в нем информацию.

    Файл действителен для протоколов http, https, ftp, а также имеет «силу» только в пределах хоста/протокола/номера порта, на котором размещен.

    Где находится robots.txt на сайте?

    У файла robots.txt может быть только одно расположение — корневой каталог на хостинге. Выглядит это примерно вот так: http://vash-site.xyz/robots.txt

    Директивы файла robots txt для сайта

    Обязательными составляющими файла robots.txt для сайта являются правило Disallow и инструкция User-agent. Есть и второстепенные правила.

    Правило Disallow

    Disallow — это правило, с помощью которого поисковому роботу сообщается информация о том, какие страницы сканировать нет смысла. И сразу же несколько конкретных примеров применения этого правила:

    Пример 1 — разрешено индексировать весь сайт:

    Пример 2 — полностью запретить индексацию сайта:

    В таком случае будет бесполезно. Применение этого примера актуально в том случае, если сайт «закрыт» на доработку (например, неправильно функционирует). В этом случае сайту в поисковой выдаче не место, поэтому его нужно через файл robots txt закрыть от индексации. Разумеется, после того, как сайт будет доработан, запрет на индексирование надо снять, но об этом забывают.

    Пример 6 — как в robots txt закрыть от индексации файлы конкретного расширения (в данном случае — .gif):

    Звездочка перед.gif$ сообщает, что имя файла может быть любым, а знак $ сообщает о конце строки. Т.е. такая «маска» запрещает сканирование вообще всех GIF-файлов.

    Правило Allow в robots txt

    Правило Allow все делает с точностью до наоборот — разрешает индексирование файла/папки/страницы.

    И сразу же конкретный пример:

    Мы с вами уже знаем, что с помощью директивы Disallow: / мы можем закрыть сайт от индексации robots txt. В то же время у нас есть правило Allow: /catalog, которое разрешает сканирование папки /catalog. Поэтому комбинацию этих двух правил поисковые роботы будут воспринимать как «запрещено сканировать сайт, за исключением папки /catalog»

    Сортировка правил и директив Allow и Disallow производится по возрастанию длины префикса URL и применяется последовательно. Если для одной и той же страницы подходит несколько правил, то робот выбирает последнее подходящее из списка.

    Рассмотрим 2 ситуации с двумя правилами, которые противоречат друг другу — одно правило запрещает индексировать папки /content, а другое — разрешает.

    В данном случае будет приоритетнее директива Allow, т.к. оно находится ниже по списку:

    А вот здесь приоритетным является директива Disallow по тем же причинам (ниже по списку):

    User-agent в robots txt

    User-agent — правило, являющееся «обращением» к поисковому роботу, мол, «список рекомендаций специально для вас» (к слову, списков в robots.txt может быть несколько — для разных поисковых роботов от Google и Яндекс).

    Например, в данном случае мы говорим «Эй, Googlebot, иди сюда, тут для тебя специально подготовленный список рекомендаций», а он такой «ОК, специально для меня — значит специально для меня» и другие списки сканировать не будет.

    Правильный robots txt для Google (Googlebot)

    Примерно та же история и с поисковым ботом Яндекса. Забегая вперед, список рекомендаций для Яндекса почти в 100% случаев немного отличается от списка для других поисковых роботов (чем — расскажем чуть позже). Но суть та же: «Эй, Яндекс, для тебя отдельный список» — «ОК, сейчас изучим его».

    Т.е. если в одном и том же robots.txt есть 3 списка с User-agent: *, User-agent: Googlebot и User-agent: Yandex, это значит, первый является «одним для всех», за исключением Googlebot и Яндекс, т.к. для них есть «личные» списки.

    Sitemap

    Правило Sitemap — расположение файла с XML-картой сайта, в которой содержатся адреса всех страниц, являющихся обязательными к сканированию. Как правило, указывается адрес вида http://site.ua/sitemap.xml.

    Т.е. каждый раз поисковый робот будет просматривать карту сайта на предмет появления новых адресов, а затем переходить по ним для дальнейшего сканирования, дабы освежить информацию о сайте в базах данных поисковой системы.

    Правило Sitemap должно быть вписано в Robots.txt следующим образом:

    Директива Host

    Межсекционная директива Host в файле robots.txt так же является обязательной. Она необходима для поискового робота Яндекса — сообщает ему, какое из зеркал сайта нужно учитывать при индексировании. Именно поэтому для Яндекса формируется отдельный список правил, т.к. Google и остальные поисковые системы директиву Host не понимают. Поэтому если у вашего сайта есть копии или же сайт может открываться под разными URL адресами, то добавьте директиву host в файл robots txt, чтобы страницы сайта правильно индексировались.

    «Зеркалом сайта» принято называть либо точную, либо почти точную «копию» сайта, которая доступна по другому адресу.

    Адрес основного зеркала обязательно должно быть указано следующим образом:

    Для сайтов, работающих по http — Host: site.ua или Host: http://site.ua (т.е. http:// пишется по желанию)

    Для сайтов, работающих по https — Host: https://site.ua (т.е. https:// прописывается в обязательном порядке)

    Пример директивы host в robots txt для сайта на протоколе HTTPS:

    Crawl delay

    В отличие от предыдущих, параметр Crawl-delay уже не является обязательным. Основная его задача — подсказать поисковому роботу, в течение скольких секунд будут грузиться страницы. Обычно применяется в том случае, если Вы используете слабые сервера. Актуален только для Яндекса.

    Clean param

    С помощью директивы Clean-param можно бороться с get-параметрами, чтобы не происходило дублирование контента, т.к. один и тот же контент бывает доступен по разным динамическим ссылкам (это те, которые со знаками вопроса). Динамические ссылки могут генерироваться сайтом в том случае, когда используются различные сортировки, применяются идентификаторы сессий и т.д.

    Например, один и тот же контент может быть доступен по трем адресам:

    www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

    www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

    www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

    В таком случае директива Clean-param оформляется вот так:

    Т.е. после двоеточия прописывается атрибут ref, указывающий на источник ссылки, и только потом указывается ее «хвост» (в данном случае — /catalog/get_phone.ua).

    Самые частые вопросы

    Как в robots.txt запретить индексацию?

    Для этих целей придумано правило Disallow: т.е. копируем ссылку на документ/файл, который нужно закрыть от индексации, вставляем ее после двоеточия:

    Disallow: http://your-site.xyz/privance.html

    Disallow: http://your-site.xyz/foord.doc

    Disallow: http://your-site.xyz/barcode.jpg

    А затем удаляете адрес домена (в данном случае удалить надо вот эту часть — http://your-site.xyz). После удаления у нас останется ровно то, что и должно остаться:

    Disallow: /privance.html

    Disallow: /foord.doc

    Disallow: /barcode.jpg

    Ну а если требуется закрыть от индексирования все файлы с определенным расширением, то правила будут выглядеть следующим образом:

    Disallow: /*.html

    Disallow: /*.doc

    Disallow: /*.jpg

    Как в robots.txt указать главное зеркало?

    Для этих целей придумана директива Host. Т.е. если адреса http://your-site.xyz и http://yoursite.com являются «зеркалами» одного и того же сайта, то одно из них необходимо указать в директиве Host. Пусть основным зеркалом будет http://your-site.xyz. В этом случае правильными вариантами будут следующие:

    Если сайт работает по https-протоколу, то нужно делать только так:

    User-agent: Yandex

    Disallow: /privance.html

    Disallow: /foord.doc

    Disallow: /barcode.jpg

    Host: https://your-site.xyz

    Если сайт работает по http-протоколу, то оба приведенных ниже варианта будут верными:

    User-agent: Yandex

    Disallow: /privance.html

    Disallow: /foord.doc

    Disallow: /barcode.jpg

    Host: http://your-site.xyz

    User-agent: Yandex

    Disallow: /privance.html

    Disallow: /foord.doc

    Disallow: /barcode.jpg

    Host: your-site.xyz

    Однако, следует помнить, директива Host является рекомендацией, а не правилом. Т.е. не исключено, что в Host будет указан один домен, а Яндекс посчитает за основное зеркало другой, если у него в панели вебмастера введены соответствующие настройки.

    Простейший пример правильного robots.txt

    В таком виде файл robots.txt можно разместить практически на любом сайте (с мельчайшими корректировками).

    Давайте теперь разберем, что тут есть.

    1. Здесь 2 списка правил — один «персонально» для Яндекса, другой — для всех остальных поисковых роботов.
    2. Правило Disallow: пустое, а значит никаких запретов на сканирование нет.
    3. В списке для Яндекса присутствует директива Host с указанием основного зеркала, а также, ссылка на карту сайта.

    НО… Это НЕ значит, что нужно оформлять robots.txt именно так. Правила должны быть прописаны строго индивидуально для каждого сайта. Например, нет смысла индексировать «технические» страницы (страницы ввода логина-пароля, либо тестовые страницы, на которых отрабатывается новый дизайн сайта, и т.д.). Правила, кстати, зависят еще и от используемой CMS.

    Закрытый от индексации сайт — как выглядит robots.txt?

    Даем сразу же готовый код, который позволит запретить индексацию сайта независимо от CMS:

    Как указать главное зеркало для сайта на https robots.txt?

    Очень просто:

    Host: https://your-site.xyz

    ВАЖНО!!! Для https-сайтов протокол должен указываться строго обязательно!

    Наиболее частые ошибки в robots.txt

    Специально для Вас мы приготовили подборку самых распространенных ошибок, допускаемых в robots.txt. Почти все эти ошибки объединяет одно — они допускаются по невнимательности.

    1. Перепутанные инструкции:

    Правильный вариант:

    2. В один Disallow вставляется куча папок:

    В такой записи робот может запутаться. Какую папку нельзя индексировать? Первую? Последнюю? Или все? Или как? Или что? Одна папка = одно правило Disallow и никак иначе.

    3. Название файла допускается только одно — robots.txt, причем все буквы маленькие. Имена Robots.txt, ROBOTS.TXT и т.п. не допускаются.

    4. Правило User-agent запрещено оставлять пустым. Либо указываем имя поискового робота (например, для Яндекса), либо ставим звездочку (для всех остальных).

    5. Мусор в файле (лишние слэши, звездочки и т.д.).

    6. Добавление в файл полных адресов скрываемых страниц, причем иногда даже без правила Disallow.

    Неправильно:

    http://mega-site.academy/serrot.html

    Тоже неправильно:

    Disallow: http://mega-site.academy/serrot.html

    Правильно:

    Disallow: /serrot.html

    Онлайн-проверка файла robots.txt

    Существует несколько способов проверки файла robots.txt на соответствие общепринятому в интернете стандарту.

    Способ 1. Зарегистрироваться в панелях веб-мастера Яндекс и Google. Единственный минус — придется покопаться, чтоб разобраться с функционалом. Далее вносятся рекомендованные изменения и готовый файл закачивается на хостинг.

    Способ 2. Воспользоваться онлайн-сервисами:

    Https://services.sl-team.ru/other/robots/

    Https://technicalseo.com/seo-tools/robots-txt/

    Http://tools.seochat.com/tools/robots-txt-validator/

    Итак, robots.txt сформирован. Осталось только проверить его на ошибки. Лучше всего использовать для этого инструменты, предлагаемые самими поисковыми системами.

    Google Вебмастерс (Search Console Google): заходим в аккаунт, если в нем сайт не подтвержден — подтверждаем, далее переходим на Сканирование -> Инструмент проверки файла robots.txt.

    Здесь можно:

    • моментально обнаружить все ошибки и потенциально возможные проблемы,
    • сразу же «на месте» внести поправки и проверить на ошибки еще раз (чтоб не перезагружать файл на сайт по 20 раз)
    • проверить правильность запретов и разрешений индексирования страниц.

    Является аналогом предыдущего, за исключением:

    • авторизация не обязательна;
    • подтверждение прав на сайт не обязательно;
    • доступна массовая проверка страниц на доступность;
    • можно убедиться, что все правила правильно восприняты Яндексом.

    Готовые решения для самых популярных CMS

    Правильный robots.txt для WordPress

    Disallow: /cgi-bin # классика жанра

    Disallow: /? # любые параметры запроса на главной

    Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins

    Disallow: *?s= # поиск

    Disallow: *&s= # поиск

    Disallow: /search # поиск

    Disallow: *?attachment_id= # страница вложения. Вообще-то на ней редирект…

    Disallow: */feed # все фиды

    Disallow: */rss # rss фид

    Disallow: */embed # все встраивания

    Disallow: */page/ # все виды пагинации

    Allow: */uploads # открываем uploads

    Allow: /*/*.js # внутри /wp- (/*/ — для приоритета)

    Allow: /*/*.css # внутри /wp- (/*/ — для приоритета)

    Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.svg # картинки в плагинах, cache папке и т.д.

    Allow: /wp-*.pdf # файлы в плагинах, cache папке и т.д.

    #Disallow: /wp/ # когда WP установлен в подкаталог wp

    Sitemap: http://site.ru/sitemap2.xml # еще один файл

    #Sitemap: http://site.ru/sitemap.xml.gz # сжатая версия (.gz)

    Host: www.site.ru # для Яндекса и Mail.RU. (межсекционная)

    # Версия кода: 1.0

    # Не забудьте поменять `site.ru` на ваш сайт.

    Давайте разберем код файла robots txt для WordPress CMS:

    Здесь мы указываем, что все правила актуальны для всех поисковых роботов (за исключением тех, для кого составлены «персональные» списки). Если список составляется для какого-то конкретного робота, то * меняется на имя робота:

    User-agent: Yandex

    User-agent: Googlebot

    Allow: */uploads

    Здесь мы осознанно даем добро на индексирование ссылок, в которых содержится /uploads. В данном случае это правило является обязательным, т.к. в движке WordPress есть директория /wp-content/uploads (в которой вполне могут содержаться картинки, либо другой «открытый» контент), индексирование которой запрещено правилом Disallow: /wp-. Поэтому с помощью Allow: */uploads мы делаем исключение из правила Disallow: /wp-.

    В остальном просто идут запреты на индексирование:

    Disallow: /cgi-bin — запрет на индексирование скриптов

    Disallow: /feed — запрет на сканирование RSS-фида

    Disallow: /trackback — запрет сканирования уведомлений

    Disallow: ?s= или Disallow: *?s= — запрет на индексирование страниц внутреннего поиска сайта

    Disallow: */page/ — запрет индексирования всех видов пагинации

    Правило Sitemap: http://site.ru/sitemap.xml указывает Яндекс-роботу путь к файлу с xml-картой. Путь должен быть прописан полностью. Если таких файлов несколько — прописываем несколько Sitemap-правил (1 файл = 1 правило).

    В строке Host: site.ru мы специально для Яндекса прописали основное зеркало сайта. Оно указывается для того, чтоб остальные зеркала индексировались одинаково. Пустая строка перед Host: является обязательной.

    Где находится robots txt WordPress вы все наверное знаете — так как и в другие CMS, данный файл должен находится в корневом каталоге сайта.

    Файл robots.txt для Joomla

    Joomla — почти самый популярный движок у вебмастеров, т.к. не смотря на широчайшие возможности и множества готовых решений, он поставляется бесплатно. Однако, штатный robots.txt всегда имеет смысл подправить, т.к. для индексирования открыто слишком много «мусора», но картинки закрыты (это плохо).

    Вот так выглядит правильный robots.txt для Joomla:

    Disallow: /administrator/

    Disallow: /cache/

    Disallow: /components/

    Disallow: /images/

    Disallow: /includes/

    Disallow: /installation/

    Disallow: /language/

    Disallow: /layouts/

    Disallow: /libraries/

    Disallow: /logs/

    Disallow: /media/

    Disallow: /modules/

    Disallow: /plugins/

    Disallow: /templates/

    robots.txt Wix

    Платформа Wix автоматически генерирует файлы robots.txt персонально для каждого сайта Wix. Т.е. к Вашему домену добавляете /robots.txt (например: www.domain.com/robots.txt) и можете спокойно изучить содержимое файла robots.txt, находящегося на Вашем сайте.

    Отредактировать robots.txt нельзя. Однако с помощью noindex можно закрыть какие-то конкретные страницы от индексирования.

    robots.txt для Opencart

    Стандартный файл robots.txt для OpenCart:

    Disallow: /*route=account/

    Disallow: /*route=affiliate/

    Disallow: /*route=checkout/

    Disallow: /admin

    Disallow: /catalog

    Disallow: /download

    Disallow: /export

    Disallow: /system

    Disallow: /*?sort=

    Disallow: /*&sort=

    Disallow: /*?order=

    Disallow: /*&order=

    Disallow: /*?limit=

    Disallow: /*&limit=

    Disallow: /*?filter_name=

    Disallow: /*&filter_name=

    Disallow: /*?filter_sub_category=

    Disallow: /*&filter_sub_category=

    Disallow: /*?filter_description=

    Disallow: /*&filter_description=

    Disallow: /*?tracking=

    Disallow: /*&tracking=

    Disallow: /*?page=

    Disallow: /*&page=

    Disallow: /wishlist

    Disallow: /login

    User-agent: Yandex

    Disallow: /*route=account/

    Disallow: /*route=affiliate/

    Disallow: /*route=checkout/

    Disallow: /*route=product/search

    Disallow: /index.php?route=product/product*&manufacturer_id=

    Disallow: /admin

    Disallow: /catalog

    Disallow: /download

    Disallow: /export

    Disallow: /system

    Disallow: /*?sort=

    Disallow: /*&sort=

    Disallow: /*?order=

    Disallow: /*&order=

    Disallow: /*?limit=

    Disallow: /*&limit=

    Disallow: /*?tracking=

    Disallow: /*&tracking=

    Disallow: /*route=product/search

    Disallow: /*?page=

    Disallow: /*&page=

    Clean-param: tracking

    Clean-param: filter_name

    Clean-param: filter_sub_category

    Clean-param: filter_description

    Disallow: /wishlist

    Disallow: /login

    Disallow: /index.php?route=product/manufacturer

    Disallow: /index.php?route=product/compare

    Disallow: /index.php?route=product/category

    Host: Vash_domen

    Sitemap: http://Vash_domen/sitemap.xml

    robots.txt для Битрикс (Bitrix)

    1. Папки /bitrix и /cgi-bin должны быть закрыты, т.к. это чисто технический «хлам», который незачем светить в поисковой выдаче.

    Disallow: /bitrix

    Disallow: /cgi-bin

    2. Папка /search тоже не представляет интереса ни для пользователей, ни для поисковых систем. Да и образование дублей никому не нужно. Поэтому тоже ее закрываем.

    Disallow: /search

    Disallow: /auth/

    Disallow: /auth.php

    4. Материалы для печати (например, счета на оплату) тоже нет смысла светить в поисковой выдаче. Закрываем.

    Disallow: /*?print=

    Disallow: /*&print=

    5. Один из жирных плюсов «Битрикса» в том, что он фиксирует всю историю сайта — кто когда залогинился, кто когда сменил пароль, и прочую конфиденциальную информацию, утечка которой не допустима. Поэтому закрываем:

    Disallow: /*register=yes

    Disallow: /*forgot_password=yes

    Disallow: /*change_password=yes

    Disallow: /*login=yes

    Disallow: /*logout=yes

    Disallow: /*auth=yes

    6. Back-адреса тоже нет смысла индексировать. Эти адреса могут образовываться, например, при просмотре фотоальбома, когда Вы сначала листаете его «вперед», а потом — «назад». В эти моменты в адресной строке вполне может появиться что-то типа матерного ругательства: ?back_url_ =%2Fbitrix%2F%2F. Ценность таких адресов равна нулю, поэтому их тоже закрываем от индексирования. Ну а в качестве бонуса — избавляемся от потенциальных «дублей» в поисковой выдаче.

    Disallow: /*BACKURL=*

    Disallow: /*back_url=*

    Disallow: /*BACK_URL=*

    Disallow: /*back_url_admin=*

    7. Папку /upload необходимо закрывать строго по обстоятельствам. Если там хранятся фотографии и видеоматериалы, размещенные на страницах, то ее скрывать не нужно, чтоб не срезать дополнительный трафик. Ну а если что-то конфиденциальное — однозначно закрываем:

    Disallow: /upload

    Готовый файл robots.txt для Битрикс:

    Allow: /search/map.php

    Allow: /bitrix/templates/

    Disallow: */index.php

    Disallow: /*action=

    Disallow: /*print=

    Disallow: /*/gallery/*order=

    Disallow: /*/search/

    Disallow: /*/slide_show/

    Disallow: /*?utm_source=

    Disallow: /*ADD_TO_COMPARE_LIST

    Disallow: /*arrFilter=

    Disallow: /*auth=

    Disallow: /*back_url_admin=

    Disallow: /*BACK_URL=

    Disallow: /*back_url=

    Disallow: /*backurl=

    Disallow: /*bitrix_*=

    Disallow: /*bitrix_include_areas=

    Disallow: /*building_directory=

    Disallow: /*bxajaxid=

    Disallow: /*change_password=

    Disallow: /*clear_cache_session=

    Disallow: /*clear_cache=

    Disallow: /*count=

    Disallow: /*COURSE_ID=

    Disallow: /*forgot_password=

    Disallow: /*index.php$

    Disallow: /*login=

    Disallow: /*logout=

    Disallow: /*modern-repair/$

    Disallow: /*MUL_MODE=

    Disallow: /*ORDER_BY

    Disallow: /*PAGE_NAME=

    Disallow: /*PAGE_NAME=detail_slide_show

    Disallow: /*PAGE_NAME=search

    Disallow: /*PAGE_NAME=user_post

    Disallow: /*PAGEN_

    Disallow: /*print_course=

    Disallow: /*print=

    Disallow: /*register=

    Disallow: /*register=yes

    Disallow: /*set_filter=

    Disallow: /*show_all=

    Disallow: /*show_include_exec_time=

    Disallow: /*show_page_exec_time=

    Disallow: /*show_sql_stat=

    Disallow: /*SHOWALL_

    Disallow: /*sort=

    Disallow: /*sphrase_id=

    Disallow: /*tags=

    Disallow: /access.log

    Disallow: /admin

    Disallow: /auth.php

    Disallow: /bitrix

    Disallow: /bitrix/

    Disallow: /cgi-bin

    Disallow: /club/$

    Disallow: /club/forum/search/

    Disallow: /club/gallery/tags/

    Disallow: /club/group/search/

    Disallow: /club/log/

    Disallow: /club/messages/

    Disallow: /club/search/

    Disallow: /communication/blog/search.php

    Disallow: /communication/forum/search/

    Disallow: /communication/forum/user/

    Disallow: /content/board/my/

    Disallow: /content/links/my/

    Disallow: /error

    Disallow: /e-store/affiliates/

    Disallow: /e-store/paid/detail.php

    Disallow: /examples/download/download_private/

    Disallow: /examples/my-components/

    Disallow: /include

    Disallow: /personal

    Disallow: /search

    Disallow: /upload

    Disallow: /*/*ELEMENT_CODE=

    Disallow: /*/*SECTION_CODE=

    Disallow: /*/*IBLOCK_CODE

    Disallow: /*/*ELEMENT_ID=

    Disallow: /*/*SECTION_ID=

    Disallow: /*/*IBLOCK_ID=

    Disallow: /*/*CODE=

    Disallow: /*/*ID=

    Disallow: /*/*IBLOCK_EXTERNAL_ID=

    Disallow: /*/*SECTION_CODE_PATH=

    Disallow: /*/*EXTERNAL_ID=

    Disallow: /*/*IBLOCK_TYPE_ID=

    Disallow: /*/*SITE_DIR=

    Disallow: /*/*SERVER_NAME=

    Sitemap: http://site.ru/sitemap_index.xml

    Sitemap: http://site.ru/sitemap.xml

    robots.txt для Modx и Modx Revo

    CMS Modx Revo тоже не лишена проблемы дублей. Однако, она не так сильно обострена, как в Битриксе. Теперь о ее решении.

    1. Включаем ЧПУ в настройках сайта.
    2. закрываем от индексации:

    Disallow: /index.php # т.к. это дубль главной страницы сайта

    Disallow: /*? # разом решаем проблему с дублями для всех страниц

    Готовый файл robots.txt для Modx и Modx Revo:

    Disallow: /*?id=

    Disallow: /assets

    Disallow: /assets/cache

    Disallow: /assets/components

    Disallow: /assets/docs

    Disallow: /assets/export

    Disallow: /assets/import

    Disallow: /assets/modules

    Disallow: /assets/plugins

    Disallow: /assets/snippets

    Disallow: /connectors

    Disallow: /index.php

    Disallow: /install

    Disallow: /manager

    Disallow: /profile

    Disallow: /search

    Sitemap: http://site.ru/sitemap.xml

    Выводы

    Без преувеличения файл robots.txt можно назвать «поводырём для поисковых роботов Яндекс и Гугл» (разумеется, если он составлен правильно). Если файл robots txt отсутствует, то его нужно обязательно создать и загрузить на хостинг Вашего сайта. Справка Disallow правил описаны выше в этой статьей и вы можете смело их использоваться в своих целях.

    Еще раз резюмируем правила/директивы/инструкции для robots.txt:

    1. User-agent — указывает, для какого именно поискового робота создан список правил.
    2. Disallow — «рекомендую вот это не индексировать».
    3. Sitemap — указывает расположение XML-карты сайта со всеми URL, которые нужно проиндексировать. В большинстве случаев карта расположена по адресу http://[ваш_сайт]/sitemap.xml.
    4. Crawl-delay — директива, указывающая период (в секундах), через который будет загружена страница сайта.
    5. Host — показывает Яндексу основное зеркало сайта.
    6. Allow — «рекомендую вот это проиндексировать, не смотря на то, что это противоречит одному из Disallow-правил».
    7. Clean-param — помогает в борьбе с get-параметрами, применяется для снижения рисков образования страниц-дублей.

    Знаки при составлении robots.txt:

    1. Знак «$» для «звездочки» является «ограничителем».
    2. После слэша «/» указывается наименование файла/папки/расширения, которую нужно скрыть (в случае с Disallow) или открыть (в случае с Allow) для индексирования.
    3. Знаком «*» обозначается «любое количество любых символов».
    4. Знаком «#» отделяются какие-либо комментарии или примечания, оставленные вэб-мастером для себя, либо для кого-то другого. Поисковые роботы их не читают.

    ) можем переходить к практической части, а вернее к подготовке сайта к продвижению. Сегодня мы разберем вопрос: как создать robots.txt?

    robots.txt — это файл в котором содержатся параметры индексирования для поисковых систем.

    Создание этого файла является одним из первых шагов к SEO-продвижению. И вот почему.

    Для чего нужен robots.txt?

    После того, как вы добавите свой сайт в Яндекс и Google (мы пока это не проходили), ПС начнут индексировать все, абсолютно все, что находится в вашей папке с сайтом на сервере. Это не очень хорошо с точки зрения продвижения, ведь в папке содержится очень много не нужного для ПС «мусора», что негативно скажется на позициях в поисковой выдаче.

    Именно файл robots.txt запрещает индексирование документов, папок и ненужных страниц. Кроме всего прочего, здесь указывается путь к карте сайта (тема следующего урока) и главный адрес, об чуть подробнее.

    О карте сайта я говорить много не буду, скажу лишь одно: карта сайта улучшает индексацию сайта. А вот про главный адрес стоит поговорить подробнее. Дело в том, что каждый сайт изначально имеет несколько зеркал (копий сайта) и доступны по различным адресам:

    • www.сайт
    • сайт
    • сайт/
    • www.сайт/

    При наличии всех этих зеркал сайт становится не уникальным. Естественно, ПС не любят не уникальный контент, не давая таким сайтам подниматься в поисковой выдаче.

    Как заполнить файл robots.txt?

    Любой файл, предназначенный для работы с различными внешними сервисами, в нашем случае поисковыми системами, должен иметь правила заполнения (синтаксис). Вот правила для robots:

    • Название файла robots.txt должно начинаться именно с маленькой буквы. Не нужно называть его ни Robots.txt, ни ROBOTS.TXT. Правильно: robots.txt ;
    • Текстовый формат «Unix». Формат свойственен обычному блокноту в Windows, поэтому создать robots.txt достаточно просто;

    Операторы robots

    А сейчас поговорим, собственно, о самих операторах robots. Всего их около 6 по-моему, но необходимыми являются только 4:

    1. User-agent . Данный оператор используется для указания поисковой системы, к которой адресуются правила индексации. С его помощью можно указывать разные правила разным ПС. Пример заполнения: User-agent: Yandex ;
    2. Disallow . Оператор, запрещающий индексацию той или папки, страницы, файла. Пример заполнения: Disallow: /page.html ;
    3. Host . Этим оператором указывается главный адрес (домен) сайта. Пример заполнения: Host: сайт ;
    4. Sitemap . Указывает на адрес карты сайта. Пример заполнения: Sitemap: сайт/sitemap.xml ;

    Таким образом я запретил Яндексу индексировать страницу «page.. Теперь поисковый робот Яндекса учтет эти правила и страницы «page.html» никогда не будет в индексе.

    User-agent

    Как уже было сказано выше, в User-agent указывается поисковая система, к которой будут использованы правила индексации. Вот небольшая табличка:

    Поисковая система Параметр User-agent
    Яндекс Yandex
    Google Google
    Mail.ru Mail.ru
    Rambler StackRambler

    Если вы хотите, чтобы правила индексации применялись для всех ПС, то нужно сделать такую запись:

    User-agent: *

    То есть, использовать, как параметр, обычную звездочку.

    Disallow

    С этим оператором чуть посложнее, поэтому нужно быть осторожным с его заполнением. Прописывается после оператора «User-agent». Любая ошибка может привести к очень плачевным последствиям.

    Что запрещаем? Параметр Пример
    Индексацию сайта / Disallow: /
    Файл в корневом каталоге /имя файла Disallow: /page.html
    Файл по определенному адресу /путь/имя файла Disallow: /dir/page.html
    Индексация папки /имя папки/ Disallow: /papka/
    Индексация папки по определенному адресу /путь/имя папки/ Disallow: /dir/papka/
    Документы, начинающиеся с определенного набора символов /символы /symbols
    Документы, начинающиеся с определенного набора символов по адресу /путь/символы /dir/symbols

    Еще раз говорю: будьте крайне внимательны при работе с данным оператором. Случается и такое, что чисто случайно человек запрещает индексацию своего сайта, а потом удивляется тому, что его нет в поиске.

    Про остальные операторы говорить смысла нет. Того, что написано выше вполне достаточно.

    Вам, наверное, хотелось бы получить пример robots.txt? Ловите:

    User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /tag Host: site.ru Sitemap:site.ru/sitemap.xml

    Кстати, этот пример могут использовать, как настоящий файл robots.txt, люди, чьи сайты работают на WordPress. Ну а те, у кого обычные сайты, пишите сами, ха-ха-ха. К сожалению, одного единственного для всех не существует, у каждого он свой. Но с той информацией, которую я вам дал, создать robots.txt не составит большого труда.

    До свидания, друзья!

    Предыдущая статья
    Следующая статья

    Как узнать главное зеркало сайта и настроить его с помощью редиректа

    В комментариях к статье о Search Console и «Яндекс.Вебмастере» читатель задал вопрос о выборе основного домена сайта. Пользователь поинтересовался, какой вариант лучше: с www или без www. Ответить на вопрос можно коротко. Лучше выбрать вариант, который вам больше нравится. Действительно сложные вопросы могут появиться во время настройки зеркал и перенаправлений. Ответы на них вы найдете в статье.

    Что такое зеркало сайта

    Зеркала — точные копии сайта, доступные по разным URL. Например, если по адресам nash-saitik.ru и нашсайтик.рф доступен одинаковый контент, поисковые системы признают сайты зеркалами. Обратите внимание, роботы сравнивают не только главные страницы ресурсов. По разным данным, чтобы поисковики признали сайты зеркалами, уровень совпадения контента должен составлять от 80 до 100 %.

    Откуда берутся зеркала сайтов? Во-первых, владельцы сами их создают. С помощью зеркал можно решить следующие задачи:

    • Сбор type-in трафика. Пользователи могут по-разному вводить адрес вашего сайта в адресную строку. Если ресурс доступен по URL macro-soft.ru, на него не попадают люди, которые вводят адрес macrosoft.ru. Решить проблему можно с помощью зеркала, с которого настроен редирект.
    • Обеспечение постоянной доступности сайта. Если по каким-то причинам сервер с основным сайтом становится недоступным, пользователей можно перенаправлять на зеркало, расположенное на другом сервере.
    • Переезд на новый домен. Зачем? Самый простой пример — изменение названия компании. Представьте, что сайт фирмы «Рога и копыта» доступен по адресу roga-kopyta.ru. После переименования организации в «Нос и хвост» логично поменять URL сайта на nos-hvost.ru. Как сохранить авторитет и аудиторию ресурса? Задача решается с помощью зеркала сайта.

    Во-вторых, из-за префикса www зеркала сайтов появляются автоматически. Физически nash-saitik.ru и www.nash-saitik.ru — разные ресурсы. В данном случае URL с префиксом www представляет собой субдомен по отношению к основному домену nash-saitik.ru.

    Поскольку по двум адресам обычно доступен одинаковый контент, поисковые системы признают их зеркалами и склеивают. Термин «склейка» значит, что в поиске участвует только один ресурс. Поисковики могут выбрать основной домен или главное зеркало автоматически. Также вы можете указать соответствующие настройки самостоятельно. Об этом дальше.

    Какой вариант лучше: с префиксом www или без?

    Откуда взялся префикс www? В конце 80-х годов прошлого века технические возможности компьютеров отставали от задумок изобретателей. Для физического хостинга одного небольшого сайта приходилось использовать несколько веб-серверов. Например, на одной машине размещался сервис FTP, на другой почтовый сервер, а на третьей контент сайта. Это отражалось в адресах ресурсов. Например, для доступа к почтовому сервису использовался адрес mail.vash-saitik.ru, а доступ к FTP открывался с помощью адреса ftp.vash-saitik.ru.

    Ученый Тим Бернерс-Ли предложил объединить размещенную на разных серверах информацию во Всемирную паутину (World Wide Web). Чтобы обеспечить техническую возможность, Бернерс-Ли с коллегами разработали язык разметки гипертекста (HTML), протокол передачи гипертекста (HTTP) и универсальные идентификаторы ресурсов (URI), производными от которых являются URL. Чтобы пользователи понимали, что ресурс находится во Всемирной паутине, к его адресу добавляли префикс www.

    В настоящее время люди понимают, что ресурс находится во Всемирной паутине, независимо от префикса www. Стоит ли использовать его в адресе сайта? Это вопрос личных предпочтений: выбирайте вариант, который вам больше нравится. Сомневаетесь? Вот аргументы в пользу URL без префикса:

    • Префикс www ухудшает юзабилити URL. Пользователям приходится печатать на четыре символа больше, чтобы ввести адрес в строку браузера. В первую очередь это сказывается на мобильных пользователях.
    • Префикс не несет важной смысловой нагрузки. Как отмечалось выше, посетители понимают, что URL vash-saitik.ru является гиперссылкой и указывает на расположение ресурса в интернете.
    • В одном из интервью создатель Всемирной паутины Тим Бернерс Ли сказал, что он отказался бы не только от префикса www в URL, но и от двойной косой черты после http. По словам ученого, благодаря этому можно сэкономить чернила и бумагу, а также защитить от вырубки много деревьев.

    А вот аргументы в пользу префикса www в URL:

    • Многие пользователи по привычке вводят в адресную строку URL с www.
    • В офлайне префикс помогает человеку понять, что речь идет о сетевом адресе. Учитывайте это, если планируете активно продвигать ресурс с помощью полиграфической продукции и наружной рекламы.
    • Некоторые вебмастера считают, что префикс повышает визуальную привлекательность коротких URL.
    • Сервисы Google и «Яндекса» доступны по адресам с www.

    Зачем выбирать основной домен, если можно дать пользователям возможность заходить на сайт по URL с префиксом и без? Представьте ситуацию: ресурс доступен по адресам vash-saitik.ru и www.vash-saitik.ru. Вы публикуете ценную информацию, которой пользователи делятся друг с другом. Они используют разные ссылки: с префиксом и без.

    Как отмечалось выше, поисковые системы допускают в индекс только одно из зеркал. Например, поисковики могут автоматически выбрать вариант без префикса. В этом случае они не учитывают обратные ссылки с www. Ресурс теряет часть естественной ссылочной массы, которая могла бы работать на авторитет сайта.

    Чтобы решить эту проблему, необходимо выбрать основной домен, настроить редирект и уведомить поисковые системы.

    Как настроить серверный редирект

    Представьте, что вы выбрали вариант URL с префиксом. Проверьте адрес, по которому доступен ресурс в данный момент. Если при попытке войти на сайт по URL с www браузер перенаправляет вас на адрес без префикса, это происходит благодаря серверному редиректу.

    Проверить редирект можно с помощью специальных сервисов, например, Redirect Checker. Введите URL сайта в поле для анализа и нажмите кнопку Analyze.www.drupal-guru.ru

    RewriteRule (.*) http://drupal-guru.ru/$1 [R=301,L]

    Как сообщить о главном зеркале «Яндексу»

    «Яндекс» автоматически определяет главное зеркало, если редирект настроен корректно. Но если вы изменили основной домен, сообщите об этом поисковику.

    Сначала добавьте в файл robots.txt директиву Host с указанием нового адреса. Для этого скачайте документ с сервера с помощью FTP-клиента. Файл находится в корневом каталоге в папке www.

    Откройте файл в текстовом редакторе. Добавьте директиву Host после директив Disallow и Allow. Если вы выбрали главное зеркало с префиксом, добавьте такую строчку:

    Host: www.drupal-guru.ru

    Вместо URL www.drupal-guru используйте адрес вашего сайта. Записи в файле robots.txt могут выглядеть так:

    Сохраните информацию и загрузите обновленный файл robots.txt на сервер. Проверьте изменения. Файл доступен по адресу www.drupal-guru/robots.txt.

    Откройте раздел «Переезд сайта» в новом кабинете для вебмастеров «Яндекса». Он находится в меню «Настройки индексирования». Отметьте галочкой пункт «Добавить www» и сохраните изменения. Изменения вступят в силу после переиндексации ресурса.

    Как узнать главное зеркало сайта с помощью Search Console Google

    Чтобы выбрать основной домен в поисковой консоли Google, подтвердите права на управление двумя сайтами. Для этого добавьте в консоль ресурс с префиксом и без префикса. После подтверждения прав войдите в меню настроек сайта.

    Отметьте флажком вариант домена с www и сохраните изменения.

    После выбора основного домена Google будет рассматривать внешние ссылки с префиксом и без как идентичные. Иными словами, естественные бэклинки вида www.drupal-guru.ru и drupal-guru.ru будут засчитываться в актив вашего ресурса.

    Как настроить главное зеркало для кириллического домена

    Многие владельцы сайтов для удобства пользователей регистрируют кириллические домены. Например, сеть супермаркетов «Лента» владеет кириллическим доменом лента.www.drupal-guru.ru

    RewriteRule (.*) http:// xn—-7sbkb0bwgfvfb.xn--p1ai/$1 [R=301,L]

    Обратите внимание, xn—-7sbkb0bwgfvfb.xn--p1ai — это URL друпал-гуру.рф в кодировке punycode.

    Как настроить редирект при переезде на новый домен

    При изменении адреса сайта «Яндекс» рекомендует сохранять старый домен в качестве зеркала нового. Это минимизирует влияние переезда на позиции ресурса в выдаче и трафик. Оптимальным вариантом поисковик называет постраничный редирект 301. В файле .htaccess необходимо настроить переадресацию с каждой страницы старого сайта на соответствующую ей страницу нового сайта.

    Если ресурс состоит из нескольких страниц, проблем не возникнет. Но если страниц сотни или тысячи, на настройку редиректа уйдет много времени. Кроме того, сотни или тысячи редиректов в файле .htaccess создадут дополнительную нагрузку на сервер.

    Чтобы решить проблему, используйте следующий код:

    Options +FollowSymLinks

    RewriteEngine on

    <FilesMatch «robots.(.*)$ http://opencart-guru.ru/$1 [R=301,L]

    В данном примере код перенаправляет пользователей с любой страницы сайта www.drupal-guru.ru на соответствующую ей страницу сайта opencart-guru.ru. Не забудьте вместо использованных для наглядности адресов указать URL ваших ресурсов.

    Обратите внимание, файл robots.txt старого сайта www.drupal-guru остается доступным. В нем необходимо с помощью директивы Host указать, что основным зеркалом вы выбрали новый сайт opencart-guru.ru.

    Чтобы внести корректный код в файл .htaccess, вы можете воспользоваться генераторами редиректов. Чтобы получить код, достаточно ввести URL страниц, с которых и на которые нужно настроить перенаправление. Вот несколько бесплатных генераторов:

    Как настроить редирект без редактирования файла .htaccess

    Если вы боитесь редактировать файл .htaccess, воспользуйтесь более простыми способами настройки редиректов. Речь идет о выборе перенаправления в панели управления сайтом cPanel и расширениях для популярных CMS.

    Настройка редиректа в cPanel

    В панели управления войдите в меню «Перенаправления». Он находится в разделе «Домены».

    При необходимости выберите тип перенаправления. По умолчанию система предлагает использовать постоянный редирект. Он подходит для настройки зеркал сайта.

    Укажите домены, с которого и на который будут перенаправлены пользователи. Нажмите кнопку «Добавить», чтобы сохранить изменения.

    Перенаправление с помощью плагинов

    Для некоторых CMS существуют плагины, с помощью которых можно быстро настроить редирект. Например, если вы работаете с WordPress, воспользуйтесь Simple 301 Redirects. Установите плагин и войдите в меню настроек.

    Укажите страницы, с которых и на которые необходимо перенаправить пользователей. В примере на иллюстрации настроен редирект со страницы записи на страницу архива.

    С помощью плагина можно настроить перенаправление для всех страниц в категории./(.*)$ http://drupal-guru.ru/$1 permanent;

    }

    Вы можете получить код для конфигурационного файла Nginx с помощью htaccess-конвертеров, например, этого.

    • Создайте код для файла .htaccess сервера Apache с помощью одного из предложенных выше генераторов.
    • Конвертируйте код для файла .htaccess в код для конфигурационного файла Nginx.

    Выбрать домен легко, сложнее реализовать выбор

    Чтобы выбрать основной домен и сообщить об этом поисковым системам, необходимо настроить серверные редиректы. Также необходимо изменить настройки в кабинетах для вебмастеров «Яндекс» и Google. С этими задачами может справиться любой специалист без технической подготовки. Вам понадобится доступ к FTP или панели управления сайтом, умение пользоваться генераторами редиректов и немного времени. Кстати, перед редактированием файла .htaccess создайте резервную копию. Она может понадобится, если вы внесете в файл некорректные изменения.

    Правильный robots.txt для WordPress в 2020 году

    Несмотря на громкий заголовок, мой robots.txt не «Священный Грааль», но при этом все его директивы отражают суть движка WordPress и принцип работы основных поисковиков. Пример моего roborts.txt, который я приведу в этой статье, взят не из головы, а выстрадан в прямом смысле. Мне пришлось пройти через многие проблемы, которые всегда приводило к падению трафика из-за недоступности полезных ресурсов или наоборот, доступности некачественных страниц, в результате чего я пришел к этой версии robots.txt.

    Что такое robots.txt и какая от него польза

    Все мы знаем что roborts.txt нужен для SEO, но в чем именно заключается его работа и благодаря чему он улучшает качество сайта, знают немногие. Именно непонимание природы roborts.txt и его логики ведет к серьезным ошибкам результат которых неправильное индексирование сайта поисковиками.

    Какие задачи решает roborts.txt? Да по большому счету задач немного, их по сути две:

    1. Сокрытие от поисковиков малоинформативных страниц.
    2. Экономия краулингового бюджета.

    Задачи две, но решаются они одним действием. Закрывая от поисковиков некачественные страницы, мы автоматически экономим краулинговый бюджет. Для чего необходима экономить краулинговый бюджет? Ответ довольно прост, для оперативного индексирования новых страниц на вашем сайте. Давайте рассмотрим это на простом примере:

    Как-то мне в руки попался интернет-магазин, у которого было около 800 товаров и несколько десятков статей в блоге плюс кучка технических страниц. В общей сложности полезных страниц на сайте было чуть больше 1000. Предположим вы решили внести изменения на некоторые страницы, несколько товаров удалили, а несколько добавили. Допустим у вас получилось 1043 страницы. Давайте посчитаем сколько времени понадобится роботу того же Яндекса чтобы обойти весь сайт и найти измененные страницы, узнать об удаленных и добавить в индекс новые. При максимальной скорости обхода (30 запросов в секунду) Яндексу потребуется всего 34,8 сек для обхода сайта, а при минимальной (0,6 запроса в секунду) уже 29 минут. Но проблема этого интернет-магазина была в том, что у него был неправильно заполненный robots.txt и в индексе было свыше 7000 страниц при свыше 4 млн загруженных. То есть чтобы выискать нормальные страницы на сайте, ботам поисковиков нужно было обойти свыше 4 миллионов страниц. По времени это займет:

    • 37 часов на максимальной скорости обхода
    • 77,1 суток, то есть больше двух месяцев

    Само собой максимальную скорость обхода сможет выдержать далеко не каждый сайт и само собой поисковики стараются использовать низкую скорость обхода. В итоге любое изменение на сайте замечалось поисковиками через продолжительное время, а обилие страниц низкого качества в поиске, ухудшало и качество сайта. Только одной директивой «Disallow: *?*» я закрыл доступ к нескольким миллионам страниц. Спросите откуда миллионы страниц? Из-за фильтров интернет-магазина, движок самописный и не очень грамотный в техническом плане.

    Таким образом robots.txt — это инструмент управления индексацией сайта. Настроили грамотно — новые странички будут оперативно залетать в индекс, а отредактированные быстро переиндексироваться. Если напихали директив от балды — прощай позиции, трафик и оперативное обновление индекса.

    Почему стандартный robots.txt бесполезен

    У WordPress нет стандартного robots.txt, но его создает в частности плагин YoastSEO (за другие не знаю). В этом, автоматически созданном, robots.txt имеется всего две директивы для всех роботов:

    User-agent: *
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    Удивительно что создатели плагина для SEO-оптимизации не смогли подготовить универсальный robots.txt. Я не понимаю зачем закрывать от индексации эти две директории, если там нечего индексировать. И многие владельцы сайтов почему-то втыкают «Disallow: /wp-admin» без малейшей попытки пораскинуть мозгами и понять что админка редиректит на страницу авторизации если ты не авторизован и индексировать там нечего. Также и «wp-includes» бессмысленно закрывать, поисковики там ничего не найдут полезного для себя поскольку нечего там индексировать.

    Наша с вами задача не описать в robots.txt куда можно, а куда нельзя поисковику используя директивы «disallow» и «allow» налево и направо, а исключить из индекса страницы, которых там быть не должно. Для этого вам самим кроме копипаста придется ещё и информацию из кабинетов для веб-мастеров поизучать на предмет ненужных страниц в индексе поисковиков.

    Я вам дам совет исходя из своего опыта на базе моего сайта, по-этому скопировав мой пример, дополните его своими директивами, наверняка у вас есть на сайте не совсем стандартные для WrdPress страницы, которые поисковикам нет смысла индексировать.

    Кто стучится в дверь ко мне

    Прежде чем нафаршировать свой robots.txt директивами, давайте сначала разберемся с тем, кто вообще ползает по нашему сайту. На самом деле роботов, кои топчутся по нашим с вами сайтам, превеликое множество. Среди них есть несколько известных, а ещё больше неизвестных, которым плевать на robots.txt. Давайте разберемся что это за роботы и как с ними быть.

    Роботы Яндекса

    Обратите внимание на то, что многие вебмастеры добавляют в robots.txt для Яндекса user-agent: Yandex, но мало кто понимает разницу между Yandex  и YandexBot, а разница весьма существенна.

    User-agent: YandexBot # будет использоваться только основным индексирующим роботом

    User-agent: Yandex # будет использована всеми роботами Яндекса

    Какие вообще бывают боты у Яндекса? Их множество, вот некоторые из них:

    • YandexBot — основной индексирующий робот.
    • YandexImages — индексатор Яндекс.Картинок.
    • YandexMedia — робот, индексирующий мультимедийные данные.
    • YandexPagechecker — валидатор микроразметки.
    • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, особым образом интерпретирует robots.txt.

    Полный список роботов Яндекса смотрите на этой странице.

    Роботы Google

    • Googlebot — основной индексирующий робот
    • Googlebot-Image — робот индексирующий изображения.
    • Mediapartners-Google — робот отвечающий за размещение рекламы на сайте. Важен для тех, у кого крутится реклама от AdSense. Благодаря этому user-agent вы можете управлять размещение рекламы запрещая или разрешая её на тех или иных страницах.

    Полный список роботов Google смотрите на этой странице.

    Робот Twitter

    Полезный робот, который ходит на наш сайт за расширенной информацией когда кто-либо в твиттере делится ссылкой на наш сайт. Чтобы вместо ссылки появлялся красивый пост, то надо явно в robots.txt разрешить доступ к сайту роботу твиттера.

    Директивы robots.txt, параметры и логика работы

    Несмотря на свою простоту и элементарность, даже у опытных сеошников порой возникают трудности с составлением параметров для директив. Что там говорить, я сам не исключение и иногда допускаю ошибки при закрытии URL от индексации и потом приходится разгребать последствия.

    В нашем распоряжении по сути несколько директив

    User-Agent

    С этой директивы начинается блок правил, а её значение указывает на то, для какого поисковика предназначается данный набор правил. Например, значение «YandexBot» обозначает что этот блок предназначен исключительно для основного Яндекс бота, а значение директивы «*» говорит что этот блок для всех роботов.

    Причем необходимо понимать логику интерпретации директивы «User-agent» ботами Яндекса, если в файле robots.txt присутствует две директивы «User-agent: *» и  «User-agent: Yandex», то блок директив после «User-agent: *» будет проигнорирован ботами Яндекса. По этой причине для основного бота Яндекса я выделяю отдельный блок, второй для всех остальных. Почему именно так, вы поймете ниже, когда я объясню назначение директив.

    Disallow и Allow

    Собственно основные директивы файла robots.txt. Данные директивы запрещают или разрешают поисковикам индексировать страницу или раздел указанный в значении данной директивы. В качестве параметра этим директивам мы передаем часть URL страниц, которые необходимо запретить индексировать или разрешить к индексации.

    Иногда меня спрашивают зачем нужна Allow? Логика вопрошающего очевидна, если с помощью Disallow мы запретили некоторые вещи, то получается все остальное доступно, а значит не запрещено. Но давайте рассмотрим простой пример:

    • Disallow: *?* — запретит к индексации все страницы ссылки на которые содержат «?».

    Каковы последствия работы такой директивы? Последствия такой директивы вот такие:

    Спросите в чем связь? Ответ не очевиден, но он прост. Вышеуказанной директивой мы запрещаем роботам загружать файлы стилей, ссылка на которые содержит «?ver=5.1.1». А стили темы оформления отвечают за адаптивность дизайна, которая как раз и определяет оптимизацию сайта под мобильные устройства. Тут нас как раз спасает директива Allow:

    Таким образом мы вернем доступ роботам к файлам стилей и наш сайт станет снова оптимизированным под мобильные устройства.

    Знак «*» заменяет нам один или несколько символов, но его использование не всегда очевидно. Давайте поиграемся с примерами.

    Данная директива запретит к индексации все страницы, ссылки которых начинаются с /news. Например:

    • /news/hello-world
    • /news/finance
    • /news/auto

    А вот ссылки такого плана:

    Такая директива уже не закроет. А что будет, если мы добавим вот такую директиву:

    Тогда мы запретим доступ роботам ко всем ссылкам, коиторые имеют в себе вхождение «news». Например:

    • /news/hwllo-world
    • /its-fake-news

    Как видите с директивами нужно быть крайне осторожным в их формулировке.

    Также стоит особо отметить один немаловажный нюанс — это порядок обработки директив. Да, да, вне зависимости от того, как вы их расположите в файле robots.txt, они будут отсортированы и применены в порядке возрастания. То есть первыми будут применены короткие,, а самые длинные последними.

    Является ли это важным? Весьма. Чем длиньше параметр директивы, тем больше её приоритет. Допустим у нас с вами в robots.txt есть несколько директив, выстроим их в порядок возрастания и посмотрим на логику робота:

    • Disallow: /
    • Allow: /news
    • Allow: /catalog

    Таким образом получается так, первым делом робот видит что первая директива запрещает ему индексировать весь сайт, но вторая и третья открывают ему раздели новостей и каталог. Таким образом мы можем сначала запретить весь сайт, а потом открывать только те части, которые необходимо индексировать. Обычно при составлении директив robots.txt мы руководствуемся другой логикой, поскольку обычно запрещаем те вещи, на которые ругается Яндекс или Google.

    Одинм из важных моментов является наличие кириллицы в URL, который мы хотим запретить или открыть. Поскольку я категорически не приемлю кириллицу в URL, я не сталкивался с проблемами связанными с кириллицей, но некоторые сайты в принципе не парятся по этому поводу. Допустим на сайте надо скрыть страницу, доступную по ссылке «/каталог»:

    • Disallow: /каталог — не правильно.
    • Disallow: /%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3 — правильно.

    Host

    Устаревшая директива, которая указывала ботам Яндекса, какое зеркало делать основным. Вот что Яндекс говорит по поводу этой директивы:

    Как мы писали ранее, мы отказываемся от директивы Host. Теперь эту директиву можно удалять из robots.txt, но важно, чтобы на всех не главных зеркалах вашего сайта теперь стоял 301-й постраничный редирект. Вебмастерам, которые, по нашим данным, ещё не установили перенаправление, мы отправили соответствующее уведомление.

    Источник

    Sitemap

    Соответственно эта директива указывает путь к файлу sitemap. Эта директива является межсекционной, то есть её достаточно указать всего лишь один раз. Обычено она указывается в самом конце файла robots.txt. Добавление директивы Sitemap в каждую секцию «User-agent» является ошибкой.

    Где взять sitemap? За генерацию этой штуки отвечает SEO-плагин, в моем случае это Yoast SEO. Содержимое этого файла зависит от настроек отображения в поисковой выдаче, которые располагаются в одноименном разделе плагина.

    Crawl-delay

    Указывает поисковому роботу промежуток времени в секундах, который должен пройти с момента окончания загрузки одной страницы и началом загрузки другой. Значением директивы может быть любое число как целое, так и дробное.

    На текущий момент по сути бесполезная директива, поскольку роботы Google и Яндекс не отказались от учета директивы Crawl-delay. Таймаут роботам можно указать в панели вебмастера.

    Clean-param

    Если на Вашем сайте используются параметры, которые не влияют на отображение страницы, то в значении этой директивы Вы можете указать эти параметры. Допустим у Вас на сайте есть каталог, в котором пользователю доступны некоторые возможности, такие как сортировка, допустим ссылка выглядит так:

    • http://site.ru/catalog.php?sort_by=price&sort=desc

    Что бы указать роботу на параметры, которые необходимо исключить, то нам потребуется указать директиву с соответствующими параметрами:

    • Clean-param: sort_by /catalog.php # если необходимо исключить только sort_by
    • Clean-param: sort_by&sort /catalog.php # если необходимо исключить  sort_by и  sort

    Лично я не пользуюсь подобной директивой, поскольку её логика работы не очевидна. На мой взгляд проще всего страницы с параметрами проще закрыть директивой «Disallow», тем самым явно сэкономив краулинговый бюджет.

    Что нужно закрыть от индексации в WordPress

    Предлагаю не просто скопировать готовый robots.txt, а попытаемся понять, почему мы закрыли от индексации именно эти страницы.

    • Disallow: /cgi-bin — по сути такая же бесполезная директива как и «Disallow: /wp-admin», но до тех пор, пока не начнете работать с Cloudflare, например ради халявного SSL, тогда на сайте появляется куча ссылок, которые начинаются с «/cgi-bin».
    • Disallow: /xmlrpc.php — закрываем из-за пустой страницы при обращении к этому файлу.
    • Disallow: /author — с точки зрения поиска, это бесполезная страница.
    • Disallow: /wp-json — закрываем ибо возвращает пустую страницу.
    • Disallow: /wp-login.php — закрываем ибо эта страница является малоинформативной и не несет в себе смысловой нагрузки выполняя чисто техническую роль.
    • Disallow: */feed* — RSS-лента, очевидно не несет в себе пользы для поисковиков.
    • Disallow: /wp-content/uploads — закрываем именно эту папку, поскольку она может содержать разного рода документы, например, PDF, DOC и т.д., которые не стоит пускать в индекс. Закрывать «wp-content» полностью чревато проблемами.
    • Disallow: /category — страница категорий, естественно при определенных настройках постоянных ссылок. Категории также являются малоинформативными страницами, если конечно вы не уделили этому внимания и не наполнили каждую категорию полезной информацией, в ином случае лучше прикрыть, поисковикам там делать нечего.
    • Disallow: /attachment — закрываем страницы вложений. Не всегда они бывают доступны по ссылке, но лучше перебдеть. Один раз мне эти странички, высыпавшись в индекс, не хило так посещалку обвалили.
    • Disallow: */page/ — закрываем пагинацию. В сети существует много споров закрывать или не закрывать страницы пагинации, но я закрываю. Некоторые SEOшники говорят что таким образом мы лишаемся некоторых внутренних факторов в виде анкоров во внутренних ссылках. Но я считаю эти страницы малоинформативными, а внутренние факторы не такими важными. В моем случае пользы от прикрытия пагинации больше чем от открытия, при 100+ страницах в индексе мой сайт посещает почти 2 000 человек в сутки и этот показатель растет.

    Ну вот по сути это основные моменты, которые стоит прикрыть от поисковых роботов на сайте с CMS WordPress.

    Мой вариант robots.txt

    #Разрешаем роботу Яндекса, который индексирует изображения, доступ к папке с вложениями.
    User-Agent: YandexImages
    Allow: /wp-content/uploads

    #Делаем тоже самое для гугловского бота, которые индексирует изображения
    User-Agent: Googlebot-Image
    Allow: /wp-content/uploads

    #Говорим рекламе что сайт весь в её распоряжении
    User-agent: Mediapartners-Google
    Allow: /

    #Открываем доступ твиттеру
    User-agent: Twitterbot
    Allow: /

    #Поскольку Яндекс проигнорирует секцию с User-agent: *, то придется перечислить все для него
    User-Agent: YandexBot
    Disallow: /cgi-bin
    Disallow: /xmlrpc.php
    Disallow: /author
    Disallow: /blog
    Disallow: /wp-json
    Disallow: /wp-login.php
    Disallow: */feed*
    Allow: /feed/turbo/ #открываем доступ к RSS для турбостраниц ибо чуть выше мы запретили к ним доступ.
    Disallow: /wp-content/uploads
    Disallow: /category
    Disallow: /attachment
    Disallow: */page/
    Disallow: *?*
    Disallow: */amp #закрываем доступ к AMP-страницам
    Allow: *.css?ver=*

    User-Agent: *
    Disallow: /cgi-bin
    Disallow: /xmlrpc.php
    Disallow: /author
    Disallow: *readme.txt
    Disallow: /blog
    Disallow: /wp-json
    Disallow: /wp-login.php
    Disallow: */feed*
    Disallow: /wp-content/uploads
    Disallow: /category
    Disallow: /attachment
    Disallow: */page/
    Disallow: *?*
    Allow: *?ver=*

    Sitemap: https://dampi.ru/sitemap_index.xml

    Некоторые директивы я прокомментировал, которые не описал в главе выше.

    Добавление robots.txt в WordPress

    По сути в случае с сайтом на WordPress существует три способа редактирования и соответственно загрузки robots.txt на наш сайт, но рассмотрю я только два, характерных именно для WordPress, поскольку третий — это загрузка файла по FTP и этот способ универсален. Давайте рассмотрим эти два способа.

    Способ первый: с помощью специального плагина

    Не надо качать FTP-киент, лезть на сервер, создавать текстовый файл, а потом каждый раз из-за каждой мелочи снова и снова соваться туда. Есть вполне себе изящное решение в виде простого плагина, который создает «виртуальный» robots.txt.

    С установкой разберетесь сами, там ничего сложного. После установки и активации плагина необходимо пройти на страницу с настройками этого плагина

    Страница настроек предельно проста, там всего лишь текстовое поле, куда надо поместить наши директивы и один чекбокс, отметив который мы указываем плагину что необходимо подтереть свои настроки при деактивации.

    Как видите ничего сверх естественного. Подтираем дефолтный текст и вбиваем наши директивы.

    Способ второй: с помощью SEO-плагинов

    Поскольку я пользуюсь плагином Yoast SEO, то расскажу на его примере. Для создания и редактирования файла robots.txt необходимо пройти в раздел «Инструменты» плагина:

    Нас интересует «Редактор файлов», переходим туда и уже там видим следующее:

    У меня файл robots.txt физически отсутствует ибо он создается плагином «на лету», иначе тут было бы видно его содержимое. Вам остается выбрать подходящий способ редактирования, скопировать директивы нашего robots.txt и сохранить. Дальше вам потребуется отслеживать поведение вашего сайта в поиске.

    Проверка robots.txt в панели вебмастера

    Для проверки правильности robots.txt у Яндекс и Google предусмотрены специальные инструменты. Использование данных инструментов довольно элементарный процесс. Давайте рассмотрим оба варианта.

    Search Console от Google

    В соответствующем разделе мы видим содержимое нашего robots.txt

    Кроме содержимого robots.txt мы видим сообщения с ошибками и предупреждениями. В моем случае их счетчики по нолям. В поле ниже мы можем указать URL, который хотим проверить. Если введенный нами URL запрещен в файле robots.txt, то вы увидите сообщение справа и выделенную директиву, которая запрещает индексирование данного URL. Вполне удобно.

    Яндекс Вебмастер

    Проходим в «Инструменты»->«Анализ robots.txt» и видим вот такую картину.

    Эта страница устроена чуть сложнее. Страница разделена на три части, в первой все содержимое robots.txt, вторая часть показывает какие директивы использует основной робот, а третья часть отвечает за проверку URL. Обратите внимание на то, что тут поле позволяет проверять URL пачками, что гораздо удобнее чем в инструменте проверки от Google.

    Как добавить robots.txt в Яндекс и Google

    В отличии от sitemap, адрес которого необходимо указывать в robots.txt или в панели вебмастера, robots.txt не нужно никуда загружать. Его наличие поисковые роботы проверяют каждый раз обращаясь к сайту. По этой причине для «загрузки robots.txt» в Яндекс и Google достаточно просто создать его на своем сайте.

    Имя этого файла и его расположение является жестким требованием и соответственно все знают что robots.txt лежит в корне сайта. По этому кроме его создания и заполнения никаких действий больше не требуется, разве что проверить его на ошибки, с помощью описанных выше инструментов.

    Все про Robots.txt пообщаемся с поисковыми роботами

    Robots.txt является важным помощником во время создания сайта и seo оптимизации готового проекта. Данный файл всегда находится в корне Вашего сайта, он доступен на чтение, и каждая его инструкция поисковым роботам пишется с новой строки.

    Рассмотрим несколько важных примеров работы с Robots.txt

    • User-agent: — пишем разные правила для различных поисковых систем.Пример: User-agent: Yandex – задаст набор правил для Яндекса.Совет: Если хотите написать общие правила для всех поисковиков, используйте: User-agent: *
    • Disallow: — или запрет на индексацию определённого пути/папки.

    Что и зачем следует скрывать от индексации?

    • Результаты поиска и ссылку на сам поиск
    • Технические страницы:
    • Регистрация,
    • Напоминание логина/пароля,
    • Формы: поделиться новостью,
    • Формы: отправить ссылку на почту и подобные,
    • Так же следует скрыть страницы, отвечающие например на ajax вопросы, чтобы не было дублирования информации.

    Практической ценности такие страницы для раскрутки сайта не представляют. И при этом некоторые: например, результаты поиска, будут виновны в создании лишней нагрузки на сайт.

    Будьте аккуратны с директивой Disallow. Disallow: / в течение недели выкинет все страницы вашего сайта из поисковых систем. Переиндексация может занять от двух до трёх недель.

    Замечание: Allow: — директива не существует. Есть только Disallow

    Замечание: если Вы даже не хотите ничего запрещать, считается необходимой одна пустая (без слеша!) директива Disallow:

    User-agent: *
    Disallow:
    Host: www.example.com
    
    • Sitemap: — указываем адрес карты сайта (и поисковой робот обойдёт Ваш сайт гораздо быстрее).
    • Host: — указываем основной адрес Вашего сайта. Боремся со склейкой зеркал. А что же такое склейка сайта? Дело в том, что у Вашего сайта по крайней мере есть одно зеркало, помните, адреса сайтов пишутся как с www, так и без, для поисковых роботов это два разных сайта, как итог, неизвестно, как проиндексируется очередная новость или страница, с www или без, а в итоге Ваш сайт распыляет свой вес в поисковых системах.Совет: используйте данную директиву в robots.txt для новых сайтов, а для существующих, которые уже давно находятся на просторах интернета, явное указание этой директивы может повлечь переиндексацию содержимого (вплоть до нескольких недель выпадения из индекса поисковых систем).Замечание: не указывайте протокол в директиве host: просто впишите адрес сайта с www или без.

    Пример: верно – Host: www.example.com, неверно: Host: http:// www.example.com

    Поделитесь со своими друзьями

    Политика конфиденциальности для сайтов Wix

    Wix позволяет любому человеку создать веб-сайт за считанные минуты, используя его платформу. Использование Wix упрощает ведение онлайн-бизнеса, но также требует определенных условий.

    Одно из этих условий — соблюдение законов о конфиденциальности, включая государственные, национальные и международные стандарты.

    То же самое можно сказать и о создании приложения Wix.

    Вам нужна Политика конфиденциальности для вашего веб-сайта или приложения Wix? Это ответственная идея, даже если это не совсем необходимо.Вот что нужно знать всем пользователям Wix о своих обязанностях по обеспечению конфиденциальности.


    Wix рекомендует иметь политику конфиденциальности

    Важно прочитать условия использования и политику конфиденциальности Wix. Вы узнаете важные требования, в том числе следующие, взятые из Политики конфиденциальности Wix:

    «Вы несете ответственность за безопасность, целостность и санкционированное использование вашей личной информации о пользователях, а также за получение согласия, разрешений и предоставление любых уведомлений о справедливой обработке, необходимых для сбора и использования такой информации.»

    Это означает, что вы, а не Wix, несете ответственность за соблюдение государственных, национальных и международных законов о конфиденциальности.

    Wix снова прямо заявляет об этом в конце раздела 6 своей Политики конфиденциальности:

    «Wix не имеет прямых отношений с отдельными пользователями-пользователями, чьи Персональные данные он обрабатывает. Если вы являетесь посетителем, пользователем или клиентом любого из наших Пользователей и хотели бы делать какие-либо запросы или запросы относительно вашей Персональной информации, пожалуйста, свяжитесь с таким пользователем (ами) напрямую «

    В своей Политике конфиденциальности Wix призывает пользователей « публиковать и поддерживать четкую и исчерпывающую политику конфиденциальности на своих пользовательских веб-сайтах в соответствии с применимыми законами и постановлениями… «

    В этом контексте Политика конфиденциальности делает ваши методы сбора данных законными, когда вы находитесь под юрисдикцией широкого законодательства.

    законы, требующие соблюдения политики конфиденциальности для вашего сайта Wix

    Wix, рекомендующий своим пользователям соблюдать Политику конфиденциальности, является частью его обязательства соблюдать законы, которые он также должен соблюдать.

    В США CalOPPA (Закон штата Калифорния о защите конфиденциальности в Интернете) требует, чтобы любой веб-сайт, собирающий личную информацию от жителей штата Калифорния, добавил на свой сайт Политику конфиденциальности.

    Даже если ваш бизнес не зарегистрирован в Калифорнии, CalOPPA распространяется на вас, потому что вы не можете помешать калифорнийцам использовать ваш сайт. Политика конфиденциальности защищает вашу спину независимо от того, где пользователи вашего сайта называют домом.

    GDPR (Общий регламент по защите данных), вступивший в силу в мае 2018 года, также требует наличия Политики конфиденциальности. GDPR защищает жителей и граждан Европы от хищнических методов обработки данных. Это требует прозрачности и подотчетности от предприятий, которые собирают данные в любой форме из файлов cookie на указанные пользователем адреса электронной почты.

    Другие важные законы, регулирующие способ обработки данных предприятиями, включают:

    Составление всеобъемлющей политики конфиденциальности — это самый простой способ соблюдать закон и обеспечить прозрачность для пользователей и клиентов.

    Wix может рекомендовать только Политику конфиденциальности, но если вы подпадаете под юрисдикцию любого из вышеперечисленных законов, то это абсолютно необходимо .

    Wix требует, чтобы приложения имели политику конфиденциальности

    У вас есть приложение, совместимое с Wix? Условия использования Wix App Market также требуют, чтобы у вас была Политика конфиденциальности, чтобы соответствовать требованиям в определенных контекстах.

    Wix не описывает конкретную ситуацию, когда необходимо наличие Политики конфиденциальности. Однако разработчикам благоразумно рассматривать эту рекомендацию как команду.

    Как и в случае с веб-сайтами Wix, приложения подчиняются многочисленным государственным, национальным и международным нормам, таким как CalOPPA и GDPR. Политика конфиденциальности, которая следует руководящим принципам, установленным этими законами, — лучший способ защитить ваш бизнес от нарушения закона.

    Как создать политику конфиденциальности для своего веб-сайта


    Как добавить политику конфиденциальности на свой сайт Wix

    Добавить политику конфиденциальности на ваш сайт Wix очень просто.Просто выполните следующие действия:

    1. Начните с входа в свою учетную запись и перейдите на страницу редактора со своей панели управления.
    2. Чтобы добавить страницу, щелкните « Меню и страницы ». Кнопка находится в верхнем левом углу страницы редактора.
    3. Отсюда нажмите кнопку « Добавить страницу » в нижней части панели.
    4. Назовите новую страницу « Политика конфиденциальности ». Нажмите Готово , чтобы сохранить страницу.Wix автоматически добавляет страницу Политики конфиденциальности в меню вашего сайта.

    Когда вы будете готовы добавить текст своей Политики конфиденциальности на страницу, перейдите на панель Switch Page в верхней части вашего сайта. Вы можете редактировать страницу отсюда всякий раз, когда вам нужно обновить свою Политику конфиденциальности.

    Ссылка на вашу политику конфиденциальности

    Законы, регулирующие политику конфиденциальности, хотят, чтобы эти политики были максимально доступными. Хотя пользователи могут видеть вашу страницу Политики конфиденциальности на панели задач на каждой странице вашего веб-сайта, рассмотрите возможность добавления отдельной ссылки в нижний колонтитул сайта.

    Чтобы добавить ссылку на вашу новую страницу Политики конфиденциальности в нижний колонтитул, все, что вам нужно сделать, это перетащить элемент в нижнюю часть страницы и выбрать « Переместить в нижний колонтитул ».

    Что включить в политику конфиденциальности Wix

    Ваша политика должна включать пункты, относящиеся к:

    • Категории собираемых персональных данных
    • Способы сбора
    • Методы обработки
    • Политика в отношении файлов cookie
    • Отношения с третьими сторонами
    • Срок хранения данных
    • Изменения в Политике конфиденциальности
    • Ваши контактные данные

    Помимо выделения этих важных деталей, добавьте пункты и формулировки о ваших отношениях с Wix.Wix обрабатывает некоторые данные от вашего имени, и вы не контролируете их.

    Обратитесь к собственной Политике конфиденциальности Wix, чтобы узнать, как она влияет на ваши собственные данные.

    Например, Раздел 8.1 Сторонние службы отмечает, что третьи стороны Wix могут получать данные пользователей-пользователей:

    Примеры политик конфиденциальности с сайтов Wix

    Вот несколько примеров политик конфиденциальности существующих сайтов Wix, которые соответствуют требованиям как с точки зрения Wix, так и с точки зрения законодательства.

    Следите за тем, как создатель добавил в свою политику пункты, касающиеся использования данных Wix и Wix в качестве платформы их веб-сайтов.

    Страница Политики конфиденциальности

    Clasp’pin обширна и является хорошей отправной точкой для всех, кто не знает, что должна включать их Политика конфиденциальности Wix.

    Вы найдете Политику конфиденциальности в нижнем колонтитуле веб-сайта, а не в меню заголовка:

    Размещать его здесь нормально, потому что нет требований, согласно которым ваша Политика конфиденциальности должна быть доступна в общем меню веб-сайта.Если на сайте есть видимая ссылка на нее и ее легко найти, вы удовлетворяете как Wix, так и международному праву.

    Политика конфиденциальности

    Clasp’pin начинается с общих условий, требуемых законодательством, такими как CalOPPA и GDPR:

    .

    Показано:

    • Какую информацию собирает сайт
    • Как сайт собирает информацию
    • Что компания делает с данными

    Далее в Политике конфиденциальности обсуждаются элементы, непосредственно связанные с размещением сайта на Wix:

    .

    Несмотря на то, что Wix защищает себя от любых проблем, связанных с данными, для пользователей-пользователей, все же полезно указать, что Wix — это платформа вашего веб-сайта.

    Он обеспечивает прозрачность использования, хранения и обмена данными для пользователей, чего требует GDPR от любых веб-сайтов, обрабатывающих данные европейских посетителей. Учитывая, что Clasp’pin находится в Чешской Республике и, таким образом, является бизнесом в ЕС, такое раскрытие информации является практически обязательным.

    Наконец, Clasp’pin предоставляет свою контактную информацию для защиты прав на личные данные, изложенных в GDPR. Добавление контактной информации также необходимо для соблюдения Условий использования Wix, поскольку Wix указывает пользователям-пользователям связываться с пользователем (в данном случае с Clasp’pin) напрямую.

    Ли-Энн Джонстон — консультант и наставник по маркетингу из Великобритании, которая проводит тренинги и мероприятия. Даже в качестве индивидуального предпринимателя или малого бизнеса она должна предоставить Политику конфиденциальности, чтобы соответствовать как Условиям использования Wix, так и таким законам, как GDPR.

    Ли-Энн Джонстон придерживается другого подхода к своей Политике конфиденциальности по сравнению с Clasp’pin.

    Ее политика включает сокращенный раздел с общей информацией о том, какие данные она собирает, как они собираются и как она их использует:

    Ее Политика конфиденциальности работает, потому что она не собирает огромные объемы данных для передачи третьим лицам или хранения для собственного использования.

    Она также обсуждает использование Wix в качестве платформы в своей Политике конфиденциальности и то, как это влияет на данные клиентов:

    Она внимательно отмечает, что, поскольку Wix является ее платформой, данные о пользователях существуют в хранилище данных Wix и в Shopify.

    Наконец, она берет на себя ответственность за данные, собранные в конце ее Политики конфиденциальности, предоставляя адрес электронной почты для связи:

    Наконец, вы можете найти ее Заявление о конфиденциальности в нижнем колонтитуле страницы вместе с Условиями обслуживания:

    Что все это значит для вашего сайта или приложения

    Единственный раз, когда Wix требует от вас включить Политику конфиденциальности, — это , когда вы собираете персональные данные от субъектов данных — ваших пользователей .Это требование соответствует соглашению Wix соблюдать нормы международного права и вашим собственным обязательствам по этим же законам.

    Wix сообщает вам в своем Соглашении об условиях для разработчиков приложений, что вы должны иметь Политику конфиденциальности.

    Невозможность загрузить Политику конфиденциальности не только нарушает Условия использования Wix, но и потенциально нарушает международные законы.

    Политика конфиденциальности

    для Wix — TermsFeed

    Если вы используете Wix для своего веб-сайта или создаете приложения для Wix, вам, скорее всего, потребуется включить Политику конфиденциальности .

    Соглашение об условиях использования Wix App Market включает раздел « Data Protection », в котором написано:

    «Wix рекомендует , а в некоторых случаях требует , чтобы все Сторонние разработчики для приложений в своем APP Market опубликовали политику конфиденциальности или другое заявление, описывающее применяемые методы конфиденциальности приложения в отношении того, как собирается личная информация, совместно используемые и используемые Приложением и его соответствующим поставщиком приложений, будь то Wix или Сторонний разработчик, или через них.»


    Когда для веб-сайтов Wix требуется политика конфиденциальности

    Wix включает рекомендацию в свое собственное соглашение о Политике конфиденциальности, согласно которому все « пользователи публикуют и поддерживают четкую и исчерпывающую политику конфиденциальности на своих пользовательских веб-сайтах в соответствии с применимыми законами и постановлениями … »

    Соглашение с партнерами Wix Developers прямо требует , чтобы любое приложение, разработанное с помощью Wix и отправленное в магазин приложений Wix,

    «собирает или передает любую личную информацию пользователей или любую личную информацию, позволяющую установить личность посетителей веб-сайта пользователя Wix, Партнер должен поддерживать и соблюдать политику конфиденциальности.»

    Wix продолжает излагать требования обязательной Политики конфиденциальности, включая то, что Политика конфиденциальности должна :

    1. Соблюдать применимые законы и постановления,
    2. Сообщать пользователям, как их личная информация собирается приложением и как эта информация используется, хранится, защищается и раскрывается,
    3. Сообщать пользователям о любых категориях третьих лиц, которым может быть раскрыта информация,
    4. Опишите, как пользователи будут уведомлены о важных изменениях в политике конфиденциальности,
    5. Сообщать пользователям об имеющихся у них средствах контроля над использованием и совместным использованием их личной информации и о том, как они могут получить доступ к этой информации, а также
    6. Укажите дату вступления в силу политики конфиденциальности

    Вот скриншот этого требования:

    Даже если политика конфиденциальности не требуется Wix, политика конфиденциальности требуется по закону. Если ваш сайт или приложение, созданное Wix, собирает и использует личную информацию пользователей, вам потребуется Политика конфиденциальности в соответствии с законом.

    Законы и правила, на которые Wix ссылается в своей Политике конфиденциальности и в Соглашении с разработчиками и партнерами, включают ряд международных законов, директив и актов, направленных на защиту конфиденциальности конечных пользователей веб-сайтов и мобильных веб-сайтов.

    Эти законы могут применяться к веб-сайтам и мобильным приложениям, которые собирают личную информацию от пользователей, , даже если веб-сайт размещен на Wix или не .

    Личная информация включает в себя любую информацию, которая может быть использована для идентификации пользователя, например, дату рождения , адрес электронной почты , имя или фамилию , домашний адрес , IP-адрес и другие данные.

    Вот несколько наиболее распространенных применимых законов и постановлений, на которые ссылается Политика конфиденциальности Wix выше.

    США CalOPPA

    В США Закон Калифорнии о защите конфиденциальности в Интернете (CalOPPA) требует, чтобы в случае сбора и использования какой-либо личной информации от пользователя, находящегося в штате Калифорния, этот бизнес должен включать Политику конфиденциальности .

    Поскольку высока вероятность того, что человек в Калифорнии может посетить ваш сайт и предоставить личную информацию, , если вы вообще собираете информацию о пользователях, вам нужно будет включить Политику конфиденциальности, чтобы обеспечить соответствие CalOPPA .

    CalOPPA не зависит от штата или страны, в которой ведется ваш бизнес. Это определяется исключительно тем, где могут находиться ваши пользователи.

    Директива ЕС о конфиденциальности

    В ЕС и Великобритании следующие законы требуют наличия Политики конфиденциальности, если вы собираете персональные данные от пользователей:

    Самый первый принцип требует справедливой и законной обработки личной информации.Это было истолковано как призыв к прозрачности обработки личной информации.

    Прозрачность может быть достигнута путем включения полностью информативной Политики конфиденциальности при сборе личной информации.

    Закон Австралии о конфиденциальности

    Австралия имеет тринадцать принципов конфиденциальности, которые регулируют порядок обработки личной информации.

    Первый принцип охватывает «открытое и прозрачное управление личной информацией , включая наличие политики конфиденциальности

    Канада PIPEDA

    В Канаде Закон о защите личной информации и электронных документах (PIPEDA). — это федеральный закон, который определяет, как предприятия частного сектора должны обращаться с личной информацией пользователей.

    Одним из требований PIPEDA является то, что предприятий должны сообщать пользователям, какая личная информация будет собираться, и почему она будет собираться .

    Политика конфиденциальности — самый простой способ сделать это.

    Как добавить Политику конфиденциальности на ваш сайт Wix

    Используйте Генератор Политики конфиденциальности, чтобы создать Политику конфиденциальности для вашего сайта Wix.

    Поскольку вы знаете, что вам понадобится Политика конфиденциальности для вашего веб-сайта Wix, вот как вы можете довольно легко добавить страницу Политики конфиденциальности на свой веб-сайт с помощью редактора Wix. :

    1. В редакторе Editor щелкните меню Pages , расположенное в верхней части редактора Editor .

    2. В нижней части панели щелкните Добавить страницу .
    3. Щелкните значок Страница , чтобы добавить новую страницу:

    4. Введите « Privacy Policy » в качестве имени новой страницы.
    5. Нажмите Готово .
    6. Снова щелкните меню Pages в верхней части панели Editor .

    7. Только что созданная страница Privacy Policy должна появиться в меню. Нажмите здесь.
    8. Теперь вы можете добавить содержание своей Политики конфиденциальности на вновь созданную страницу.

    Как перейти по ссылке на Политику конфиденциальности со своего веб-сайта Wix

    Обычно рекомендуется размещать ссылку на вашу Политику конфиденциальности и другие юридические соглашения в нижнем колонтитуле вашего веб-сайта.Wix упрощает внесение изменений, выполнив следующие действия.

    Вот как вы можете использовать Генератор политики конфиденциальности на сайте TermsFeed, чтобы создать Политику конфиденциальности и разместить ссылку на нее со своего веб-сайта Wix.

    1. Запустите Генератор политики конфиденциальности с сайта TermsFeed.
    2. Выберите « Веб-сайт » на вопрос « Где будет использоваться ваша Политика конфиденциальности? ».

    3. Введите URL-адрес вашего веб-сайта Wix в ответ на вопрос « Каков URL вашего веб-сайта? ».

    4. Продолжайте с Генератором, пока не дойдете до последнего шага. Вам будет задано еще несколько вопросов, чтобы создать собственную политику.
    5. Скопируйте URL-адрес вашей Политики конфиденциальности со страницы загрузки.

    6. Войдите в свой аккаунт Wix.
    7. В редакторе Editor щелкните меню Pages , расположенное в верхней части редактора Editor .

    8. Щелкните Политика конфиденциальности в меню «Страницы».
    9. Щелкните значок Показать больше .
    10. Щелкните Информация о странице .
    11. В меню Информация о странице щелкните переключатель рядом с Скрыть из меню , чтобы скрыть эту страницу из меню навигации.
    12. Выйдите из меню «Информация о странице» и вернитесь в главный экран редактора.
    13. Нажмите кнопку Добавить в левой части главного экрана редактора.

    14. Щелкните опцию Кнопка .
    15. Щелкните кнопку нижнего колонтитула под опцией Текстовые кнопки или перетащите кнопку в место нижнего колонтитула.
    16. Щелкните Изменить текст в меню кнопки.

    17. Менее Что говорит эта кнопка? , введите Политика конфиденциальности .

    18. Щелкните значок Link под Куда ведет ссылка?

    19. Добавьте URL-адрес из своей Политики конфиденциальности, который вы создали с помощью Генератора Политики конфиденциальности TermsFeed.
    20. Нажмите Готово .

    Примеры веб-сайтов Wix и их политик конфиденциальности

    Застежки товары

    Clasp’pin Goods, веб-сайт, созданный с помощью Wix, связывает свою Политику конфиденциальности со своим нижним колонтитулом вместе с другими юридическими соглашениями и политиками:

    Настоящая Политика конфиденциальности содержит необходимую и актуальную информацию:

    • Какая личная информация собирается,
    • Как отозвать согласие,
    • И подробная информация о хостинге Wix

    Есть целый раздел, посвященный информированию пользователей о том, как Wix предоставляет платформу электронной коммерции, через которую работает Clasp’pin Goods .

    В этом разделе есть ссылки на Условия использования и Политику конфиденциальности Wix:

    Wix также регулярно появляется в разделах, посвященных сторонним службам и безопасности .

    Пользователи

    проинформированы, что Wix может делиться информацией с третьими сторонами для таких вещей, как безопасность, биллинг и оптимизация данных. Также обсуждаются меры безопасности, реализованные Wix, в том числе зашифрованные соединения SSL / TLS и сертификация PCI DSS.

    Несмотря на то, что пользователь просматривает Политику конфиденциальности для Clasp’pin Goods, важны именно функции безопасности Wix, поскольку Wix — это платформа, на которой происходит электронная коммерция Clasp’pin Goods и где будет собираться и храниться финансовая информация пользователя. .

    От фермы к вилке

    Farm to Fork, еще один веб-сайт, размещенный на Wix, включает ссылку на свою Политику конфиденциальности в нижнем колонтитуле, а также несколько других политик и юридических соглашений:

    Wix упоминается в Политике конфиденциальности Farm to Fork в отдельном разделе.

    «Раздел 4» называется Wix.com и сообщает пользователям, что магазин Farm to Fork размещен на Wix.com, что Wix предоставляет используемую платформу электронной коммерции и что пользовательские данные хранятся в хранилище данных Wix, базах данных Wix. и общее приложение Wix.com.

    Информация о платеже

    в Политике конфиденциальности Farm to Fork включена в «Раздел 4» на Wix, и пользователи информируются о функциях шифрования и безопасности Wix.com для защиты финансовой информации.

    Здесь также приведены ссылки

    для Условий обслуживания и Политики конфиденциальности Wix.com, чтобы при желании пользователи могли узнать больше о методах и политиках Wix.

    Ли-Энн Джонстон

    Веб-сайт Ли-Энн Джонстон, созданный с помощью Wix, включает ссылку на Политику конфиденциальности в ярком нижнем колонтитуле:

    Единственное упоминание Wix в настоящей Политике конфиденциальности находится в «Разделе 4», который называется «Wix».

    Пользователи проинформированы о том, что сайт Ли-Энн Джонстон размещен на Wix, Wix предоставляет платформу электронной коммерции на сайте и что Wix отвечает за хранение и безопасность хранения данных:

    Wix рекомендует всегда включать Политику конфиденциальности на свой сайт Wix.Однако, если ваш веб-сайт собирает какую-либо личную информацию от пользователей, Wix требует , чтобы вы включили Политику конфиденциальности.

    Международные законы также требуют наличия Политики конфиденциальности, если личная информация собирается от пользователей.

    Автоматизируйте загрузку файлов в Wix с помощью загрузчика файлов Uploadcare

    Wix — это бесплатный конструктор веб-сайтов. С помощью Uploadcare вы можете разрешить ваши пользователи могут отправлять медиа через формы, не беспокоясь о хранении или загрузке интерфейс.

    Всего за 5 минут мы построим рабочую форму с поддержкой загрузки через Загрузчик файлов Uploadcare, используя всего несколько строк код.

    Как Uploadcare загружает файлы в Wix

    Наш адаптивный и готовый для мобильных устройств загрузчик файлов входит в стандартную комплектацию Библиотека JavaScript. Технически File Uploader заменяет ваш основной элементы управления, которые затем становятся кнопками, активирующими файл диалоговое окно загрузчика. Каждый контент, загруженный через Uploadcare, мгновенно получает кэшируется на нашем CDN и быстро и надежно доставляется в более чем 130 стран.

    Как это выглядит для конечного пользователя? Например, предположим, вам нужен пользователи могут загружать отсканированные документы. Благодаря интегрированному загрузчику файлов они посмотрите форму отправки, где они могут легко добавить PDF-файлы на ваш сайт Wix.

    Но, конечно, дело не только в файлах PDF. Сохраненные изображения и видеофайлы в различных источниках, от локальных папок на вашем ПК до социальных сетей, также могут быть загружено на Wix.

    Итак, приступим.

    Добавление PDF в Wix

    Шаг 1.Установка

    Прежде чем мы начнем, давайте убедимся, что все на месте.

    Прежде всего, вам нужен сайт на базе Wix. Если у вас его нет, он будет всего несколько щелчков мышью, чтобы создать его.

    Во-вторых, вам необходимо иметь учетную запись Uploadcare. Если вы этого не сделаете, подпишите За одного. Создав его, перейдите к своему панель инструментов, чтобы создать новый проект или открыть для себя ваш публичный ключ API для существующего.

    Кстати, если вы планируете разрешить пользователям отправлять файлы без изображений через вашу форму, добавьте платежную информацию в вашу учетную запись.

    Теперь, когда вы настроили, перейдите на свой сайт Wix и перейдите к следующему шагу.

    Шаг 2. Создайте блок HTML

    Перейдите в редактор Wix и откройте свой сайт. Используйте панель инструментов слева, чтобы разместите HTML-элемент на своей странице: нажмите знак плюса, , затем нажмите Еще, и выберите HTML iframe в разделе «Встраивание ».

    Добавление HTML-кода для загрузки в Wix

    Теперь разместите элемент в своей рабочей области. Убедитесь, что ширина блока равна не менее 760 пикселей, чтобы средство загрузки файлов отображалось правильно.

    Шаг 3. Добавьте загрузчик файлов Uploadcare

    Выберите блок, который вы только что разместили, и нажмите кнопку Enter Code . А появится окно настроек с двумя вариантами: переключатель «Код» и поле кода HTML. Скопируйте приведенный ниже код и вставьте его туда.

    Не забудьте заменить YOUR_PUBLIC_KEY настоящим открытым ключом API, который у вас есть после регистрации в Uploadcare.

      <сценарий>
      UPLOADCARE_PUBLIC_KEY = 'YOUR_PUBLIC_KEY'
    
    <сценарий
      src = "https: // ucarecdn.com / libs / widget / 3.x / uploadcare.full.min.js "
      data-integration = "Wix"
    > 
    
    
    Отправить вопрос <форма>

    <ввод type = "скрытый" name = "files" role = "uploadcare-uploader" с возможностью очистки данных только изображения-данные data-crop = "бесплатно, 2: 3,4: 3,16: 9" />

    HTML-код для загрузки Wix

    Параметр только изображения данных находится в конфигурация загрузчика файлов для обеспечения безотказной работы при работе с аккаунты на бесплатном плане без добавления платежной информации: в них разрешены только изображения загружает.

    Шаг 4. Опубликуйте форму загрузки в Wix

    Нажмите Обновить, , и вы закончите интеграцию загрузчика файлов.

    Окончательный вид загрузчика файлов для Wix

    Вы можете изменить порядок блоков в редакторе Wix, переместив их на слой вверх или вниз. Убедитесь, что ваша форма находится на самом верхнем слое (Ctrl + Shift + → подойдет that), поэтому никакие другие элементы не блокируют представление, когда диалог активирован.

    Обратите внимание, что Wix помещает внешний HTML в элемент