Описание и настройка директивы Clean-param — SEO на vc.ru
Clean-param — директива файла robots.txt, которую поддерживают роботы «Яндекса». Она позволяет сообщить динамические параметры, которые присутствуют в URL страницы, но не изменяют её содержание. Это могут быть идентификаторы пользователя, сессии, параметры сортировки товаров и другие элементы.
19 874 просмотров
Например, имеются страницы:
- site.ru/catalog/category/?sort_field=PRICE&order=asc
- site.ru/catalog/category/?sort_field=PRICE&order=desc
- site.ru/catalog/category/?sort_field=id&order=asc
Все они содержат одинаковый контент, но имеют в своих URL-адресах параметры sort_field и order, которые определяют сортировку товаров на этой странице, но формально не меняют ее содержание. В результате у нас получается 3 страницы-дубликата.
Правильно настроить обработку таких страниц нам поможет директива Clean-param.
User-Agent: Yandex … Clean-param: sort_field&order /catalog/category/
После этого индексироваться роботом Яндекса будет только одна страница: site.ru/catalog/category/, параметры sort_field и order учитываться не будут.
Данная настройка позволит снизить нагрузку на сервер, т.к. робот не будет загружать страницы с указанными параметрами, повысится эффективность обхода сайта роботом, и убережет Вас от появления в индексе дубликатов страниц.
Синтаксис директивы
Clean-param: p0[&p1&p2&..&pn] [path]
Поле p — это динамические параметры, влияние которых на индексацию необходимо устранить. Если таких несколько, их нужно перечислить через амперсанд, например, sort&price.
Поле path — префикс, указывающий путь применения директивы. Если его не указывать, Clean-param применится для всего сайта.
Файл robots.txt не имеет ограничений на количество указываемых директив Clean-param.
В любом месте файла и количестве они будут учтены. В написании директивы учитывается регистр, а также длина правила ограничена 500 символами.Пример применения
Допустим у нас имеется страница с такими get-параметрами:
- https://orteka.ru/catalog/kompressionnyi-trikotazh/golfy/?sort=popularity&order=asc
- https://orteka.ru/catalog/kompressionnyi-trikotazh/golfy/?sort=price&order=asc
- https://orteka.ru/catalog/kompressionnyi-trikotazh/golfy/?sort=price&order=desc
Директива Clean-param должна иметь следующее содержание:
Clean-param: sort&order /catalog/kompressionnyi-trikotazh/golfy/
- sort&order — это динамическиt параметры, которые не нужно учитывать;
- /catalog/kompressionnyi-trikotazh/golfy/– префикс применения директивы, обозначает, что данные параметры не нужно учитывать только для страниц, начинающихся с /catalog/kompressionnyi-trikotazh/golfy/. Если необходимо, чтобы правило применялось ко всем страницам сайта, префикс указывать не нужно.
Весь справочник в статьях на vc.ru или на сайте.
Навигатор по первым пятидесяти заметкам.
param — что это такое, и для чего используется
#Оптимизация сайта #Индексация
#111
Апрель’19 24 Апрель’19 24Clean-param — это директива файла robots.txt, которую поддерживают роботы Яндекса. Она позволяет сообщить динамические параметры, которые присутствуют в url-адресе страницы, но не изменяют ее содержание. Это могут быть идентификаторы пользователя, сессии, параметры сортировки товаров и другие элементы.
Например, имеются страницы:
- site.ru/catalog/category/?sort_field=PRICE&order=asc
- site.ru/catalog/category/?sort_field=PRICE&order=desc
- site.ru/catalog/category/?sort_field=id&order=asc
Все они содержат одинаковый контент, но имеют в своих URL-адресах параметры sort_field и order, которые определяют сортировку товаров на этой странице, но формально не меняют ее содержание. В результате у нас получается 3 страницы-дубликата. Правильно настроить обработку таких страниц нам поможет директива Clean-param. Необходимо прописать её в файле robots.txt следующим образом:
User-Agent: Yandex … Clean-param: sort_field&order /catalog/category/
После этого индексироваться роботом Яндекса будет только одна страница: site.ru/catalog/category/, параметры sort_field и order учитываться не будут.
Данная настройка позволит снизить нагрузку на сервер, т.к. робот не будет загружать страницы с указанными параметрами, повысится эффективность обхода сайта роботом, и убережет Вас от появления в индексе дубликатов страниц.
Синтаксис директивы
Clean-param: p0[&p1&p2&..&pn] [path]
Поле p — это динамические параметры, влияние которых на индексацию необходимо устранить. Если таких несколько, их нужно перечислить через амперсанд, например, sort&price.
Поле path — префикс, указывающий путь применения директивы. Если его не указывать, Clean-param применится для всего сайта.
Файл robots.txt не имеет ограничений на количество указываемых директив Clean-param. В любом месте файла и количестве они будут учтены. В написании директивы учитывается регистр, а также длина правила ограничена 500 символами.
Пример применения
Допустим у нас имеется страница с такими get-параметрами:
- https://orteka.ru/catalog/kompressionnyi-trikotazh/golfy/?sort=popularity&order=asc
- https://orteka.ru/catalog/kompressionnyi-trikotazh/golfy/?sort=price&order=asc
- https://orteka.ru/catalog/kompressionnyi-trikotazh/golfy/?sort=price&order=desc
Директива Clean-param должна иметь следующее содержание:
Clean-param: sort& order /catalog/kompressionnyi-trikotazh/golfy/
- sort& order — это динамическиt параметры, которые не нужно учитывать;
- /catalog/kompressionnyi-trikotazh/golfy/— префикс применения директивы, обозначает, что данные параметры не нужно учитывать только для страниц, начинающихся с /catalog/kompressionnyi-trikotazh/golfy/. Если необходимо, чтобы правило применялось ко всем страницам сайта, префикс указывать не нужно.
Похожее
Оптимизация сайта Индексация
Атрибут rel=canonical
Оптимизация сайта Индексация
Индексация ссылок
Оптимизация сайта Индексация
#133
Атрибут rel=canonical
Июнь’23 13534 23Оптимизация сайта Индексация
#119
Индексация ссылок
Апрель’19 5040 30Оптимизация сайта Индексация
#104
Как привлечь быстроробота Яндекс
Февраль’19Оптимизация сайта Индексация
#94
Проверка индекса сайта. Как найти мусорные или недостающие страницы
Декабрь’18 10741 28Оптимизация сайта Индексация
#86
Как закрыть ссылки и текст от поисковых систем
Ноябрь’18 7037 22Оптимизация сайта Индексация
#82
Почему Яндекс удаляет страницы из поиска
Ноябрь’18 3609 19Оптимизация сайта Индексация
#60
Правильная индексация страниц пагинации
Февраль’18 9127 19Оптимизация сайта Индексация
#47
Как узнать дату индексации страницы
Ноябрь’17 8678 19Оптимизация сайта Индексация
#46
Какие страницы надо закрывать от индексации
Ноябрь’17 11846 19Оптимизация сайта Индексация
#38
Как удалить страницу из индекса Яндекса и Google
Ноябрь’17 15763 20Оптимизация сайта Индексация
#37
Как добавить страницу в поиск Яндекса и Google
Оптимизация сайта Индексация
#7
Как закрыть сайт от индексации
Ноябрь’17 11338 18Оптимизация сайта Индексация
#2
Как проверить индексацию сайта в поисковых системах
Ноябрь’17 19172 27Оптимизация сайта Индексация
#1
Как ускорить индексацию сайта
Ноябрь’17 7669 29Директива Clean-param — Webmaster.
СправкаИспользуйте директиву Clean-param, если URL-адреса страниц сайта содержат параметры GET (например, идентификаторы сеансов, идентификаторы пользователей) или теги (например, UTM), которые не влияют на их содержимое.
Примечание. Иногда для закрытия этих страниц используется директива Disallow. Мы рекомендуем использовать Clean-param, так как эта директива позволяет перенести некоторые накопленные метрики на основной URL или сайт.
Как можно полнее укажите директиву Clean-param и поддерживайте ее в актуальном состоянии. Новый параметр, не влияющий на содержимое страницы, может привести к дублированию страниц, которые не следует включать в поиск. Из-за большого количества таких страниц робот медленнее сканирует сайт. Это означает, что для отображения важных изменений в результатах поиска потребуется больше времени.
Робот Яндекса использует эту директиву, чтобы избежать повторной загрузки дублирующейся информации. Это повышает эффективность работы робота и снижает нагрузку на сервер.
Например, ваш сайт содержит следующие страницы:
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123
Параметр ref используется только для отслеживания того, с какого ресурса был отправлен запрос. Это не меняет содержимое страницы. Все три URL будут отображать одну и ту же страницу с книгой book_id=123. Тогда, если указать директиву следующим образом:
User-agent: Яндекс Запретить: Clean-param: ref /some_dir/get_book.pl
робот Яндекса соберет все адреса страниц в один:
www.example.com/some_dir/get_book.pl?book_id=123
Если такая страница есть на сайт, он включается в результаты поиска.
Clean-param: p0[&p1&p2&..&pn] [путь]
В первом поле перечислите параметры, которые робот не должен учитывать, разделенные символом &. Во втором поле укажите префикс пути для страниц, к которым должно применяться правило.
Примечание. Директива Clean-Param является межсекционной, поэтому ее можно указывать в любом месте файла robots.txt. Если указано несколько директив, все они будут учтены роботом.
Префикс может содержать регулярное выражение в формате, аналогичном используемому в файле robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. Однако символ * обрабатывается так же, как и в файле robots.txt: символ * всегда неявно добавляется в конец префикса. Примеры:
Параметр очистки: s /forum/showthread.php
означает, что параметр s игнорируется для всех URL-адресов, начинающихся с /forum/showthread.php. Второе поле является необязательным, и в этом случае правило будет применяться ко всем страницам сайта.
С учетом регистра. Максимальная длина правила составляет 500 символов. Примеры:
Чистый параметр: abc /forum/showthread. php Чистый параметр: sid&sort /forum/*.php Clean-param: someTrash&otherTrash
# для таких URL-адресов, как: www.example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/showthread.php?s=1e71c4427317a117a&t=8243 #robots.txt будет содержать: User-agent: Яндекс Запретить: Чистый параметр: s /forum/showthread.php
# для таких URL-адресов, как: www.example2.com/index.php?page=1&sid=2564126ebdec301c607e5df www.example2.com/index.php?page=1&sid=974017dcd170d6c4a5d76ae #robots.txt будет содержать: User-agent: Яндекс Запретить: Clean-param: sid /index.php
#если таких параметров несколько: www.example1.com/forum_old/showthread.php?s=681498605&t=8243&ref=1311 www.example1.com/forum_new/showthread.php?s=1e71c417a&t=8243&ref=9896 #robots.txt будет содержать: User-agent: Яндекс Запретить: Clean-param: s&ref /forum*/showthread.php
#если параметр используется в нескольких скриптах: www. example1.com/forum/showthread.php?s=681498b9648949605&t=8243 www.example1.com/forum/index.php?s=1e71c4427317a117a&t=8243 #robots.txt будет содержать: User-agent: Яндекс Запретить: Чистый параметр: s /forum/index.php Чистый параметр: s /forum/showthread.php
Директива Клин-парам: когда и как применять, принцип действия и аналоги
Все контакты
На несколько сайтов в Яндекс Вебмастер пришло сообщение о том, что некоторые страницы с GET-параметрами в URL дублируют содержимое других страниц (без GET-параметров). Нужно ли в таких случаях прописывать директиву Clean-param в Robots.txt? Пробовал зарегистрироваться и при проверке файла robots.txt в Вебмастере пишет, что директива Clean-param неверна. Можете привести пример, как его нужно назначать и объяснить, как он может помочь в данной ситуации? Как Google отреагирует на эту директиву?
Ответ
Страницы с GET параметрами в URL оставлять открытыми для поисковых роботов нежелательно, так как они приводят к дублированию страниц, а также зря тратят краулинговый бюджет.
Директива Clean-param в Robots.txt не только решает эту проблему, но и передает показатели, накопленные на страницах с GET-параметрами, в основной URL. Однако эта директива работает только для роботов Яндекса.
Синтаксис директив следующий:
Clean-param: p0[&p1&p2&..&pn] [путь]
p — динамические параметры. Если их несколько, перечисляем их через амперсанд, например, sid&sort
path — префикс, указывающий путь для применения директивы. Например, если написать /catalog/oboi/, то директива будет применена только к этому разделу. Если ничего не регистрировать — на весь сайт.
Например, если мы хотим закрыть страницы фильтра https://mysite.com/shop/all/good1?partner_fid=1
https://mysite.com/shop/all/good1?partner_fid=2
Директива будет выглядеть так:
Clean- param: partner_fid/shop
Подробнее об этой директиве можно прочитать в Справке Яндекса.
Для Google существуют следующие варианты решения проблемы:
- Запретить ручное сканирование URL-адресов с параметрами GET с помощью инструмента «Параметры URL» в Search Console (находится в разделе «Устаревшие инструменты»). Подробнее читайте в справке Search Console.
- Использовать метатег на этих страницах.
Параллельно нужно указать в атрибуте Canonical страниц с GET параметрами ссылку на основную версию страницы.
Хотите получить ответ на свой вопрос? Задайте вопрос через телеграм-бот!↓
Задайте свой вопрос
Подпишитесь на рассылкуЕще по теме:
- Как быстро проверить индексацию купленных ссылок? Как быстро проверить индексацию купленных ссылок? И насколько краудлинки помогут проиндексировать купленную статью со ссылкой? Ответ Есть несколько способов проверить индексацию купленных ссылок. Надежно…
- Влияет ли рекламный трафик на индексацию и ранжирование? Может ли реклама в социальных сетях или в Я.