Метатег robots и HTTP-заголовок X-Robots-Tag
Вы можете указать роботам правила загрузки и индексирования определенных страниц сайта одним из способов:прописать метатег robots в HTML-коде страницы в элементе head;
настроить HTTP-заголовок X-Robots-Tag для определенного URL на сервере вашего сайта.
По умолчанию метатег и заголовок учитываются поисковыми роботами. Можно указать директивы для определенных роботов.
- Поддерживаемые Яндексом директивы
- Указание нескольких директив
- Указания для определенных роботов
Разрешающие директивы используются роботом по умолчанию, поэтому их можно не указывать, если нет других директив. В сочетании с запрещающими директивами разрешающие имеют приоритет. Пример.
Роботы других поисковых систем и сервисов могут иначе интерпретировать директивы.
Пример:
Запись, которая запрещает индексирование страницы.
<html>
<head>
<meta name="robots" content="noindex" />
</head>
<body>...</body>
</html>
HTTP-ответ, где заголовок запрещает индексирование страницы.
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noindex
Вы можете указать директивы через запятую.
<meta name="yandex" content="noindex, nofollow" />
Вы можете передать несколько заголовков в одном ответе, а также перечислить директивы через запятую.
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noindex, nofollow
X-Robots-Tag: noarchive
Если для робота Яндекса указаны противоречивые директивы, то он учтет положительное значение. Пример с директивами метатега:
<meta name="robots" content="all"/>
<meta name="robots" content="noindex, follow"/>
<!--Робот выберет значение all, текст и ссылки будут проиндексированы.-->
<meta name="robots" content="all"/>
<meta name="robots" content="noarchive"/>
<!--Текст и ссылки будут проиндексированы, но в результатах поиска не будет ссылки
на сохраненную копию страницы.-->
Указать директиву только для роботов Яндекса можно с помощью метатега robots. Пример:
<meta name="yandex" content="noindex" />
Если вы перечислите общие директивы и директивы для роботов Яндекса, то поисковая система учтет все указания.
<meta name="robots" content="noindex" />
<meta name="yandex" content="nofollow" />
Такие директивы робот Яндекса воспримет как noindex, nofollow
.
noindex — Викиреальность
noindex — ключевое слово, которым обычно называют параметры, влияющие на индексирование всей или отдельных частей веб-страницы. Поддерживается Яндексом, который предложил его в качестве альтернативы атрибуту nofollow.
Есть парный HTML-тег <noindex>, обозначающий, что определенная гиперссылка на веб-странице не должна индексироваться поисковой системой Яндекса.
Тег введен компанией Yandex как альтернатива параметра nofollow, выполняющего аналогичную функцию для прочих популярных поисковых систем, который ранее не поддерживался Яндексом (с 2010 года поддерживаются оба формата). noindex применяется только для конкретной ссылки, размещаясь между тегов <a>, для запрета индексации всех ссылок на странице применяется мета-тег nofollow.
Тег noindex не входит в спецификацию HTML, в связи с чем с точки зрения многих автоматических валидаторов HTML-разметки его использование является ошибкой.
Обычно тег применяют для экранирования ссылок в комментариях блогов, википроектах и прочих местах, в которых ссылки могут добавлять любые пользователи без проверки модератором. Помимо этого он может применять для поисковой оптимизации сайта, так как сайты с небольшим числом внешних ссылок имеют бо́льшие показатели.
Мета-тег noindex запрещает индексирование всего текста веб-страницы поисковыми роботами. Он определяется для мета-тега robots:
<meta name="robots" content="noindex" />
При этом индексирование может быть запрещено только определенным роботам, для этого надо поменять имя мета-тега на название бота, например «googlebot» [1].
Обычно этот мета-тег применяется для запрета индексирования служебных страниц, не содержащих полезного для человека контента. Иногда его применяют для защиты «секретных» страниц, что не является полностью корректным, так как при случайной утечке адреса пользователь сможет легко просмотреть страницу, для этих целей правильнее использовать аутентификацию по паролю или IP-адресу.
При помощи этого файла можно запретить поисковое индексирование отдельных страниц или каталогов сайта (например, ссылок «Редактировать» и пр. на викисайтах).
В MediaWiki начиная с версии 1.14 есть переключатель поведения __NOINDEX__
который запрещает индексацию страницы поисковыми системами при вставке его в код страницы. Используется преимущественно для страниц-черновиков (заготовок, не соответствующих критериям полноценной статьи или не соответствующих правилам википроекта), появление которых в поисковых запросах нежелательно, но полное удаление не планируется.
О сайте
Свидетельство о регистрации средства массовой информации Эл № ФС77-68768 17.02.2017 г., выдано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).Название: AST-NEWS.ru — Астраханские новости
Учредитель и главный редактор: Терский Максим Николаевич
E-mail: [email protected]
Телефон: +79275636657
© AST-NEWS.ru – Астраханские новости, 2009-2021.
Все права на материалы, опубликованные на сайте AST-NEWS.ru, охраняются в соответствии с законодательством России. Цитирование и использование материалов в интернете возможно только с активной гиперссылкой на AST-NEWS.ru (без тегов ‘noindex’ и ‘nofollow’), а в печатном издании — электронный адрес материала.
AST-NEWS.ru – Астраханские новости — это собственные новости и обзоры происходящих событий, аналитика, а также лучшие и интересные материалы об Астраханском регионе, размещённые в СМИ, на сайтах и блогах.
На сайте созданы регулярно обновляющиеся архивы информации на известных астраханцев и местные организации, интервью.
Нашим читателям предоставлена (в рамках российского законодательства) полная свобода выражения собственного мнения относительно каждой опубликованной темы.
Комментарии не подлежат удалению, даже если администрация сайта с ними категорически не согласна по политическим, религиозным и другим убеждениям.
Удалению подлежит рекламный спам и повторяющиеся неоднократно одни и те же комментарии к разным темам, а также те комментарии, которые не соответствуют обсуждаемому материалу, флуд. Кроме этого, редактируются или удаляются комментарии, содержащие экстремистские высказывания, клевету, оскорбления и мат.
Владелец сайта AST-NEWS.RU не несёт ответственности за содержание информации в комментариях к опубликованным темам. Ответственность за комментарии несёт их автор.
По всем вопросам, связанным с сайтом, пишите по адресу: [email protected]
НАШИ СТРАНИЦЫ В СОЦСЕТЯХ:
ГРУППА В ФЕЙСБУКЕ: https://www.facebook.com/groups/astnews2/
СТРАНИЦА В ФЕЙСБУКЕ: https://www.facebook.com/AstNews
ГРУППА ВКОНТАКТЕ: https://vk.com/astnews
ТВИТТЕР: https://twitter.com/astrakhan_news/
ГРУППА В ОДНОКЛАССНИКАХ: https://ok.ru/astnews
СТРАНИЦА В ИНСТАГРАМЕ: https://www.instagram.com/ast_news.ru/
ТЕЛЕГРАМ: https://t.me/ast_news
ЖИВОЙ ЖУРНАЛ: https://astnews-ru.livejournal.com
Описание отчета по блокировкам индексации, необходимого для продвижения сайта в поисковых системах
Индексация — это процесс анализа страниц сайта поисковыми системами и внесение информации о них в индекс (базу данных) для последующего использования её в ранжировании и формировании результатов поиска.
Индексация осуществляется с помощью краулера (поискового робота).
Зачем нужны блокировки от индексации?
Как правило, от поисковых систем закрывают информацию, которая не должна отображаться в поисковой выдаче. Чаще всего это разного рода техническая, служебная и конфиденциальная информация, страницы с непригодным для размещения в результатах поиска содержанием. Например, при продвижении коммерческого сайта оптимизаторы запрещают для индексации личный кабинет пользователей, корзину, сравнение товаров, дубли страниц, результаты поиска внутри сайта, и т. п.
Иметь информацию о таких страницах необходимо уже потому, что некоторые из них могут быть закрыты по ошибке.
Виды блокировок от индексации
Существует множество способов запретить индексацию страниц:
С помощью файла robots.txt
Robots.txt — это специальный текстовый файл, в котором приводятся рекомендации для поисковых систем о том, какие страницы можно индексировать, а какие не следует.
Чтобы заблокировать страницу от индексации в robots.txt, необходимо воспользоваться директивой Disallow.
Пример:
# Содержание файла robots.txt,# который обязательно должен находиться в корневом каталоге сайта# Задаём директиву, что дальше идут правила для робота ЯндексаUser-agent: Yandex# разрешаем индексацию страниц и файлов, начинающихся с '/catalog'Allow: /catalog# блокируем индексацию страниц и файлов, начинающихся с '/cart'Disallow: /cart
При помощи тега
<meta>
robots с атрибутом noindex.Чтобы заблокировать страницу с помощью этого атрибута, необходимо добавить в раздел страницы
<head>
следующие строчки:# заблокировать страницу от индексации целиком# строка должна размещаться в блоке <head> на самой странице<meta name="robots" content="noindex">
При помощи закрытия от индексации ссылок, которые ведут на нужную страницу.
Закрыть переход краулера по конкретной ссылке:
# Блокировка перехода краулера по конкретной ссылке на страницу /page# блокируется непосредственно ссылка<a href="/page" rel="nofollow">текст ссылки</a>
Имейте в виду, что страница при этом способе будет заблокирована от индексации, только если все ссылки на неё будут заблокированы. Так как если останется хотя бы одна незакрытая ссылка, то краулер поисковой системы перейдет по ней и проиндексирует страницу.
Закрыть переход краулера по всем ссылкам на странице:
# Блокировка перехода краулера по всем ссылкам на странице,# при этом, если мы не добавили директиву noindex, то сама страница будет проиндексирована# строка должна размещаться в блоке <head> на самой странице<meta name="robots" content="nofollow" />
Также можно закрыть страницу от какой-либо конкретной поисковой системы прямо в заголовке HTML страницы, например:
# строка должна размещаться в блоке <head> на самой странице заблокировать страницу от индексации в Google<meta name="googlebot" content="noindex"># заблокировать страницу от индексации в Yandex<meta name="yandex" content="noindex" />
Можно использовать комбинации директив:
# строка должна размещаться в блоке <head> на самой странице# заблокировать страницу от индексации в Google, но перейти по ссылкам дальше, чтобы проиндексировать страницы глубже<meta name="googlebot" content="noindex, follow"># в Yandex страницу разрешить для индексации, но по ссылкам дальше не переходить<meta name="yandex" content="index, nofollow" />
Еще вариант:
# строка должна размещаться в блоке <head> на самой странице# заблокировать страницу от индексации в Yandex, и заблокировать переход краулера по ссылкам<meta name="yandex" content="none"># строка будет аналогична строке:<meta name="yandex" content="noindex, nofollow" />
Прописать каноническую страницу:
Атрибут
rel=canonical
применяется для указания поисковым системам канонической страницы. Каноническая страница — это страница сайта, которая является предпочтительной для индексации в поисковых системах. То есть, когда поисковый робот находит этот атрибут на какой-либо странице, он индексирует не ее, а ту страницу, которая указана в атрибуте. В отличие от редиректа,rel=canonical
переадресует на другую страницу не пользователей, а только поисковые системы.Указание канонической страницы необходимо, когда документы с идентичным содержанием можно найти по разным адресам. Это позволяет избежать точных дублей в индексе поисковой системы и не попасть под фильтр.
Например, когда у вас страница с одним содержанием для разных устройств:
https://example.com/news/
https://m.example.com/news/
https://amp.example.com/news/
Или когда на странице несколько видов сортировок:
https://example.com/catalog/
https://example.com/catalog?sort=date
https://example.com/catalog?sort=cost
Если товар имеет несколько размеров, и полностью идентичное описание:
https://example.com/catalog/shirt
https://example.com/catalog/shirt?size=XL
https://example.com/catalog/shirt38
Прописывается атрибут
rel=canonical
следующим образом:# строка должна размещаться в блоке <head> на самой странице<link rel="canonical" href="https://example.com/catalog/shirt"/>
Также можно передать каноническую страницу в заголовке HTTP-запроса.
Внимание! При таком способе передачи вы не сможете увидеть эту блокировку без специального программного обеспечения или плагинов!
# передаётся в заголовке страницы. Браузер без специальных плагинов не показывает HTTP заголовки пользователямHTTP/1.1 200 OKLink: <https://example.com/catalog/shirt>; rel=“canonical”
Подробнее про канонические страницы читайте в документации Google.
При помощи заголовка HTTP-запроса «X-Robots-Tag» для определенного URL:
Внимание! При таком способе передачи вы не сможете увидеть эту блокировку без специального программного обеспечения или плагинов!
# передаётся в заголовке страницы. Браузер без специальных плагинов не показывает HTTP заголовки пользователямHTTP/1.1 200 OKX-Robots-Tag: yandex: noindex
Как обнаружить на сайте заблокированные от индексации страницы?
Посмотреть данные обо всех страницах вашего сайта с блокировкой от индексации вы можете в разделе «SEO-аудит» -> «Блокировки индексации».
На странице отчета можно отфильтровать результаты и проверить только блокировки посадочных страниц. Для этого нужно кликнуть по кнопке «Блокировки посадочных».
Содержание отчёта:
- Адреса страниц, закрытых от индексации;
- Директива в robots.txt, если страница заблокирована этим способом от индексации в Яндексе;
- Директива в robots.txt, если страница заблокирована этим способом от индексации в Google;
- Блокировка ссылок на страницу при помощи атрибута nofollow;
- Блокировка страницы при помощи атрибута noindex.
Как убрать блокировку?
Во многих современных системах управления сайтом (CMS) можно изменить файл robots.txt, метатеги rel=canonical
и robots
. Поэтому для внесения изменения необходимы только знания принципов блокировок индексации. В противном случае для внесения изменений потребуется разработчик. Если схема блокировок на сайте сложная, то рекомендуется сначала составить графическую схему, чтобы избежать ошибок.
Вопросы-ответы
Использование robots.txt и мета тега noindex
Все, кто сталкивался с разработкой или просто использованием сайтов слышали о таком термине как robots.txt.
Это специальный файл с кодировкой UTF-8, который должен находится в корне домена (https://mypersonaldomen.com/robots.txt) и весить не более 500 Кб. Команды в этом файле рекомендуют (но не гарантируют) поисковым роботам Google, Yandex и другим исполнять те или иные указания. Например, мы можем попросить ботов не индексировать страницы с регистрацией, формой поиска, личного кабинете клиентов или любую другую страницу.
Важно понимать, что это просто рекомендации которые мы хотим передать, однако это не дает 100% гарантии. Если на закрытую страницу в robots.txt будет найдена внутренняя или внешняя ссылка то существует некая вероятность что страница все равно попадет в индекс поисковой выдачи.
Синтаксис файла robots.txt
User-Agent: указывает название бота поисковой системы, к которому будем обращаться.
Disallow: путь к странице, куда хотим закрыть доступ.
Crawl-delay: команда, указывающая как часто должен робот поисковой системы заходить на сайт.
Иногда может быть полезно при большой посещаемости, для уменьшения нагрузки на сервер.
На заметку:
- Символ #: используется для комментариев внутри файла robots.txt
- Файлы и папки нужно писать, учитывая их регистр
- Host: директива для Яндекс, которая указывает главное зеркало сайта
- Sitemap: тут прописывается полный пусть с https к карте сайта
- * — данный знак обозначает любую последовательность символов
Пример использования файла robots.txt
Запрещаем индексацию всех страниц (полезно при разработке нового сайта):
User-agent: *
Disallow: /
Запретим роботу от google индексировать папку /tmp
User-agent: Googlebot
Disallow: /tmp/
Запретим роботу от google индексировать файл /provider.html
User-agent: Googlebot
Disallow: /tmp/provider.html
Запретим всем ботам индексировать файлы .pdf
User-agent: *
Disallow: /*.pdf$
Разрешим роботам Яндекс индексироват страницу provider.html
User-agent: Yandex
Allow: /tmp/provider.html
Путь к карте сайта:
User-agent: *
Disallow:
Sitemap: https://mypersonaldomen.com/sitemap.xml
Для чего используется мета тег noindex
В отличии от наших рекомендаций в файле robots.txt, мы можем указать для ботов поисковых систем гарантированный запрет индексации страницы.
Для этого в HEAD страницы нужно прописать строку:
<meta name=»robots» content=»noindex, follow»> — запретить индексацию, но разрешить переходить по ссылкам на текущей странице
<meta name=»robots» content=»noindex, nofollow»> — запретить как индексацию так и переходить по ссылкам на текущей странице
Причины удаления страницы из индекса поисковой системы Яндекс?
Анализируя индексацию сайта в поисковой системе Яндекс, можно увидеть, что некоторые страницы сайта были исключены из индекса.
Основные причины удаления страниц из поиска
Ошибки ответа сервера — 3**, 4**, 5**
- Код ответа 3** связан с переадресацией страниц. Наиболее простой пример, когда из индекса удаляется страница — когда она имеет 301 редирект.
- Код ответа 4** связан с недоступностью страницы. Самые популярные ошибки — 404 и 403.
Первый код означает, что страница больше не открывается по данному адресу, и соответственно Яндекс удаляет ее из поиска.
Важно: если вы поменяли адрес странице, но она уже была в индексе, то необходимо настроить 301 редирект на новую страницу.
403 код ответа сервера указывает на то, что отсутствует доступ к данному ресурсу. В таком случае необходимо разобраться с настройками хостинга.
- Из-за проблем с сервером (коды ошибок 5**) страницы также удаляются из индекса.
Запрет к индексации
Страница запрещена к индексации через файл robots.txt или через мета-тег noindex.
Страница имеет атрибут rel=«canonical»
Тег <link> с данным атрибутом указывает, какую ссылку необходимо индексировать ПС.
Дубликаты страницы
Обычно из индекса удаляются страницы, имеющие одинаковый контент, но открывающиеся по различным адресам. Но на скриншоте выше разные страницы https://tk9.ru/in/maslo_rapsovoe_neraf/ и https://tk9.ru/catalog/ признаны дубликатами. В таких ситуациях рекомендуется сообщать технической поддержке об ошибке и отправлять страницы на переобход.
Недостаточное качество страницы
Как вовремя реагировать на изменения
Чтобы быть в курсе всех изменений, рекомендуется настроить уведомления в панели вебмастера:
Также рекомендуется добавить целевые страницы в инструмент «Мониторинг важных страниц».
Что делать, если Яндекс удалил нужную страницу из поиска
В таком случае необходимо устранить причину удаления и отправить ее на переобход https://webmaster.yandex.ru/site/indexing/reindex/. Страница вернется в поиск в ближайшие апдейты.
#104
Февраль’19 1296 21#94
Декабрь’18 3414 28#60
Февраль’18 3995 19Мета-тег Robots | SEO-портал
Мета-тег Robots должен содержать инструкции для поисковых роботов по отношению к веб-странице, на которой он указан.
Видео по теме
Для чего нужен мета-тег Robots?
Указание данного мета-тега, в зависимости от используемых в нем значений, может обеспечить запрет или разрешение поисковым роботам на индексирование веб-страницы, на переход по ссылкам, размещенным на данной странице, для последующей индексации, или на комбинацию данных инструкций.
С помощью файла robots.txt можно запретить сканирование определённых страниц и каталогов сайта, однако это не гарантирует того, что данные страницы не будут проиндексированы, т. к. роботы могут попасть на неё по внешним ссылкам. С помощью мета-тега Robots можно точно указать роботу, что данную страницу не следует индексировать.
Корректные инструкции мета-тега Robots гарантированно исполняются роботами поисковых систем по отношению к веб-странице.
Как прописать мета-тег Robots?
Как и другие мета-теги в HTML, Meta Robots указывается в блоке head веб-страницы и должен содержать два обязательных атрибута name
и content
:
<head> <meta name="robots" content="all" /> <head>
Атрибут Name мета-тега Robots
Важно знать, что атрибут name
не обязательно должен содержать значение robots
: в нём можно указывать название конкретного робота, для которого указана инструкция в атрибуте. Если указывается значение robots
, то инструкция в атрибуте content
предназначается для всех поисковых роботов. Таким образом, можно комбинировать инструкции для определённых роботов с помощью нескольких мета-тегов на одной веб-странице:
<head> <!-- Запрет индексирования страницы для всех роботов: --> <meta name="robots" content="noindex" /> <!-- Разрешение индексирования страницы роботу Яндекса: --> <meta name="yandex" content="index" /> </head>
Отметим, что в 99.9% случаев мета-тег Robots содержит общие для всех роботов инструкции и прибегать к использованию нескольких мета-тегов нет необходимости.
Директивы мета-тега Robots
В качестве значения атрибута content
указывается одна или несколько директив (инструкций), перечисленных через запятую. Существуют общие директивы, понятные всем поисковым роботам, а также директивы, понятные только роботам определённых поисковых систем.
Общие директивы
В таблице представлены директивы мета-тега Robots, понятные роботам Яндекса и Google.
Директива | Значение |
---|---|
all | Используется по умолчанию. Означает, что в отношении веб-страницы не предусмотрены исключающие правила для роботов. |
noindex | Запрещает индексирование (отображение в поисковой выдаче) веб-страницы. |
nofollow | Запрещает переход по ссылкам на веб-странице. |
none | Запрещает индексирование и переход по ссылкам на веб-странице. |
noarchive | Запрещает выводить ссылку на сохраненную копию веб-страницы в сниппете поисковой выдачи. |
Директивы для Google
В таблице ниже представлены директивы, понятные только роботам Google.
Директива | Значение |
---|---|
nosnippet | Запрещает отображать фрагмент содержания страницы в поисковой выдаче, размещенный под заголовком сниппета. |
notranslate | Запрещает отображать предложение перевести страницу в сниппете. |
noimageindex | Запрещает индексировать изображения на странице. |
unavailable_after:[date] | Запрещает отображать страницу в поисковой выдаче после указанного в формате RFC 850 времени. |
nositelinkssearchbox | Запрещает отображение поля поиска по сайту в поисковой выдаче. |
Директивы для Яндекса
Кроме общих для всех роботов директив, робот Яндекса способен учитывать отдельную директиву noyaca
, запрещающую использовать описание из Яндекс.Каталога при формировании сниппета поисковой выдачи:
<meta name="yandex" content="noyaca" />
Комбинирование директив
В качестве значения атрибута content
в мета-теге Robots можно применять комбинации директив, перечисляя их через запятую. Рассмотрим на примерах.
Значение «index, follow» или «all»
Для разрешения индексирования и перехода по ссылкам можно не указывать мета-тег Robots совсем, или использовать следующие значения:
<!--отсутствие мета-тега--> <!--или--> <meta name="robots" content="index, follow" /> <!--или--> <meta name="robots" content="all" />
Значение «noindex, nofollow» или «none»
Для запрета индексирования страницы и перехода по ссылкам на ней можно применять следующие значения:
<meta name="robots" content="noindex, nofollow" /> <!--или--> <meta name="robots" content="none" />
Значение «noindex, follow»
Если страницу не следует отображать в поисковой выдаче, но можно её сканировать на предмет ссылок, то применяется комбинация директив noindex, follow
:
<meta name="robots" content="noindex, follow" />
Значение «index, nofollow»
Если страницу следует отображать в поисковой выдаче, но не следует переходить по ссылкам на ней, то применяется комбинация index, nofollow
:
<meta name="robots" content="index, nofollow" />
Рекомендации по применению
Необходимо очень внимательно использовать мета-тег Robots, т. к. он может стать причиной непопадания страниц сайта в поисковую выдачу. Чтобы исключить возможные недоразумения, следуйте указанным рекомендациям:
- применяйте запрещающие директивы мета-тега Robots, совмещая их с директивами файла robots.txt и не допускайте конфликтов между ними;
- учтите, что директивы файла robots.txt выполняются в первую очередь: если в robots.txt установлен запрет на сканирование страницы, а на странице указан мета-тег Robots со значением
all
или другим равнозначным значением, то робот, следуя инструкции в файле robots.txt, не перейдёт на страницу и не проиндексирует её; - исключайте индексирование ненужных в поисковой выдаче страниц сайта (виртуальная корзина, результаты поиска по сайту, дубли страниц и т. д.).
Метатег роботов и HTTP-заголовок X-Robots-Tag
Вы можете указать для роботов правила загрузки и индексации определенных страниц сайта одним из следующих способов: Примечание. Если страница запрещена в файле robots.txt, метатег или директива заголовка не применяются.По умолчанию поисковые роботы учитывают метатег и заголовок. Вы можете указать директивы для определенных роботов.
- Директивы, поддерживаемые Яндексом
- Указание нескольких директив
- Инструкции для конкретных роботов
Робот использует директивы allow по умолчанию, поэтому вы можете опустить их, если нет других директив.Директивы Allow имеют приоритет над запрещающими директивами, если существует их комбинация. Пример.
Роботы из других поисковых систем и служб могут интерпретировать директивы по-другому.
Пример:
Элемент, отключающий индексацию страницы.
...
Ответ HTTP с заголовком, запрещающим индексирование страницы.
HTTP / 1.1 200 ОК
Дата: Вт, 25 мая 2010 г., 21:42:43 GMT
X-Robots-Tag: noindex
Вы можете указать несколько директив, разделенных запятыми.
В одном ответе можно передать несколько заголовков и список директив, разделенных запятыми.
HTTP / 1.1 200 ОК
Дата: Вт, 25 мая 2010 г., 21:42:43 GMT
X-Robots-Tag: noindex, nofollow
X-Robots-Tag: noarchive
Если для робота Яндекса указаны конфликтующие директивы, он будет считать положительное значение.Пример директив метатега:
. Вы можете использовать метатег robots для передачи директивы только роботам Яндекса.Пример:
Если вы укажете общие директивы и директивы для роботов Яндекса, поисковая система учтет их все.
Робот Яндекс будет рассматривать эти директивы как noindex, nofollow
.
Мета-теги роботов и заголовок X-Robots-Tag: их роль в индексации
12 января 2021 г. | 17 мин. Чтения
Метатег robots и тег x-robots используются для указания сканерам, как индексировать страницы веб-сайта.Первый указывается в HTML-коде веб-страницы, а второй включается в HTTP-заголовок URL-адреса.
Процесс индексации проходит в несколько этапов: контент загружается, анализируется роботами поисковых систем и добавляется в базу данных. Информация, попавшая в индекс, отображается в результатах поиска.
В нашей публикации о файле robots.txt мы обсудили, как разрешить ботам сканировать веб-сайт и как предотвратить сканирование ими определенного контента. В этой статье мы узнаем, как получить контроль над индексацией веб-страниц, какой контент следует закрыть из индексации и как это сделать правильно.
Преимущества использования роботов и X-Robots-Tag для SEOДавайте посмотрим, как метатег robots и X-Robots-Tag помогают в поисковой оптимизации и когда их следует использовать.
1. Выбор страниц для индексацииНе все страницы веб-сайта могут привлекать обычных посетителей. В случае индексации некоторые из них могут нанести вред видимости сайта в поисковых системах. Это типы страниц, индексирование которых обычно блокируется с помощью noindex :
- дублированных страниц
- параметров сортировки и фильтров
- страниц поиска и разбивки на страницы
- технических страниц
- сервисных уведомлений (о регистрации процесс, выполненный заказ и т. д.)
- целевых страниц, предназначенных для тестирования идей
- страниц, которые находятся в стадии разработки
- информация, которая еще не актуальна (будущие сделки, объявления и т. Д.)
- устаревшие страницы, которые не приносят никаких traffic
- страниц, которые необходимо заблокировать для определенных поисковых роботов
Вы можете запретить роботам сканировать не только HTML-страницы, но и другие типы контента, такие как URL изображения или.pdf файл.
3. Сохранение ссылочного весаБлокируя ссылки от поисковых роботов с помощью nofollow , вы можете сохранить ссылочный вес страницы, потому что он не будет передан другим источникам через внешние или внутренние ссылки.
4. Оптимизация краул-бюджетаЧем больше сайт, тем важнее направлять поисковые роботы на наиболее ценные страницы. Если поисковые системы сканируют веб-сайт внутри и снаружи, бюджет сканирования просто закончится до того, как боты достигнут контента, полезного для пользователей и SEO.Таким образом, важные страницы не будут проиндексированы или попадут в индекс с опозданием.
Директивы роботов и X-Robots-TagРоботы и X-Robots-Tag различаются по своему базовому синтаксису и использованию. Метатег robots вставляется в HTML-код веб-страницы и имеет два важных атрибута: name (для указания имени поискового робота) и content (команды для поискового робота). X-Robots-Tag добавляется в файл конфигурации и не имеет никаких атрибутов.
Указание Google не индексировать ваш контент с помощью роботов выглядит так:
Если вы решите запретить Google индексировать ваш контент с помощью x-robots, он будет выглядеть так:
X-Robots-Tag: googlebot: noindex, nofollow
Роботы и X-Robots-Tag имеют одни и те же директивы, которые используются для предоставления поисковым роботам разных инструкций. Давайте рассмотрим их подробнее.
Директивы Robots и X-Robots-Tag: функции и поддержка браузераДиректива | Его функция | YANDEX | BING | ||
index / noindex | Указывает индексировать / не индексировать страницу. Используется для страниц, которые не должны отображаться в поисковой выдаче. | + | + | + | + |
follow / nofollow | Указывает переходить / не переходить по ссылкам на странице. | + | + | + | + |
archive / noarchive | Указывает, показывать / не показывать кешированную версию веб-страницы в поиске. | + | + | + | + |
all / none | Все эквивалентно индексу , следуйте , используемому для индексации текста и ссылок. Нет является эквивалентом noindex, nofollow , используемого для блокировки индексации текста и ссылок. | + | + | — | + |
nosnippet | Указывает не показывать фрагмент или видео в поисковой выдаче. | + | — | + | — |
max-snippet | Ограничивает максимальный размер фрагмента. Обозначается как max-snippet: [number] , где number — это количество символов во фрагменте. | + | — | — | + |
max-image-preview | Ограничивает максимальный размер изображений, отображаемых в поиске.Обозначается как max-image-preview: [установка] , где установка может иметь без , стандартное или большое значение . | + | — | — | + |
max-video-preview | Ограничивает максимальную длину видео, отображаемого в поиске (в секундах). Он также позволяет установить статическое изображение (0) или снять любые ограничения (-1). Обозначается как max-video-preview: [значение] . | + | — | — | + |
notranslate | Запрещает поисковым системам переводить страницу в результатах поиска. | + | — | — | — |
noimageindex | Запрещает индексирование изображений на странице. | + | — | — | — |
unavailable_after | Указывает не показывать страницу в поиске после указанной даты. Обозначается как unavailable_after: [дата / время] . | + | — | — | — |
Все вышеупомянутые директивы могут использоваться как с метатегом robots, так и с тегом x-robots, чтобы роботы Google могли понять ваши инструкции.
Обратите внимание, что индексирование содержимого сайта, которое не скрыто от поисковых систем, выполняется по умолчанию, поэтому вам не нужно указывать index и следовать директивам .
Конфликтующие директивыВ сочетании некоторые директивы могут вызвать конфликты, например, разрешая индексирование и в то же время предотвращая индексирование того же контента. Google выберет ограничительную инструкцию, а не разрешительную.
Комбинация директив | Действия Google |
---|---|
Робот выберет noindex и текст страницы не будут проиндексированы. | |
Робот выберет noindex , а текст страницы не будет будет проиндексирован, но он будет переходить по ссылкам и сканировать их. | |
Будут учтены все инструкции: текст и ссылки будут проиндексированы, а ссылки, ведущие на копия страницы не будет проиндексирована. |
Как мы уже говорили, метатег robots вставляется в HTML-код страницы и содержит информацию для поисковых роботов. Он помещается в раздел
HTML-документа и имеет два обязательных атрибута: name и content . В упрощенном виде это выглядит так:Атрибут имени
Этот атрибут определяет тип метатега в соответствии с информацией, которую он предоставляет поисковым системам. .Например, meta name = «description» устанавливает краткое описание страницы, которая будет отображаться в результатах поиска, meta name = «viewport» используется для оптимизации сайта для мобильных устройств, meta http-Equiv = » Content-Type » определяет тип документа и его кодировку.
В meta name = «robots» атрибут name определяет имя бота, для которого разработаны инструкции. Он работает аналогично директиве User-agent в robots.txt, который идентифицирует сканера поисковой системы.
Значение «robots» используется для адресации всех поисковых систем, а если вам нужно установить инструкции специально для Google, вы должны написать meta name = «googlebot» . Для нескольких сканеров вам нужно будет создать отдельные теги.
Атрибут содержимогоЭтот атрибут содержит инструкции для индексации содержимого страницы и его отображения в результатах поиска. Директивы, объясненные в таблице выше, используются в атрибуте content .
Обратите внимание:
- Оба атрибута не чувствительны к регистру.
- Если значения атрибутов не указаны или записаны неправильно, поисковый бот проигнорирует инструкцию по блокировке.
- При обращении к нескольким сканерам нужно использовать отдельный метатег robots для каждого. Что касается атрибута содержимого, вы можете указать его различные директивы в одном метатеге, разделив их запятыми.
Учитывая тот факт, что поисковые роботы сначала смотрят на robots.txt для рекомендаций по сканированию, они не смогут просканировать страницу и увидеть инструкции, включенные в код, если страница закрыта в robots.txt.
Если страница имеет атрибут noindex , но заблокирована в файле robots.txt, ее можно проиндексировать и отобразить в результатах поиска — например, если сканер найдет ее, перейдя по обратной ссылке из другого источника. Поскольку robots.txt обычно доступен, вы не можете быть уверены, что сканеры не найдут ваши «скрытые» страницы.
С учетом сказанного, если вы закрываете страницу с помощью метатега robots, убедитесь, что в файле robots.txt, предотвращающий его сканирование. Когда дело доходит до блокировки изображений от индексации, иногда имеет смысл использовать robots.txt.
Использование метатега robots- Способ 1: в редакторе HTML
Управление страницами аналогично редактированию текстового файла. Вам нужно открыть HTML-документ в редакторе, добавить роботов в раздел
и сохранить.Страницы хранятся в корневом каталоге сайта, к которому вы можете получить доступ, используя свою личную учетную запись от хостинг-провайдера или FTP.Сохраните исходный документ, прежде чем вносить в него изменения.
С помощью CMS проще заблокировать страницу от индексации. Существует ряд плагинов, например Yoast SEO для WordPress, которые позволяют блокировать индексацию или сканирование ссылок при редактировании страницы.
Источник: Yoast Проверка метатега роботовПоисковым системам требуется время, чтобы проиндексировать или деиндексировать страницу. Чтобы убедиться, что ваша страница не проиндексирована, используйте службы для веб-мастеров или плагины браузера, которые проверяют метатеги (например, SEO META в 1 ЩЕЛК для Chrome).
Вы также можете проверить, проиндексирована ли страница с помощью Google Search Console:
Если проверка страницы показывает, что метатег robots не работает, проверьте, не заблокирован ли URL-адрес в файле robots.txt, проверив его. в адресной строке или с помощью тестера robots.txt от Google.
SE Ranking также позволяет проверить, какие страницы веб-сайтов находятся в индексе. Для этого перейдите к инструменту Index Status Checker .
X-Robots-Tag: синтаксис и использованиеX-Robots-Tag — это часть HTTP-ответа для данного URL, добавленного в файл конфигурации.Он действует аналогично метатегу robots и влияет на то, как индексируются страницы, но иногда вам следует использовать x-robots специально для инструкций по индексации.
Вот простой пример X-Robots-Tag:
X-Robots-Tag: noindex, nofollow
Когда вам нужно установить правила для страницы или типа файла, X-Robots-Tag выглядит так:
Заголовочный набор X-Robots-Tag "noindex, nofollow"
Директива
location = filename { add_header X-Robots-Tag "noindex, nofollow"; }
Если имя бота не указано, директивы автоматически используются для всех сканеров. Если идентифицирован конкретный робот, тег будет выглядеть так:
Заголовок set X-Robots-Tag "googlebot: noindex, nofollow"Когда следует использовать X-Robots-Tag
- Deindexing non -HTML files
Поскольку не все страницы имеют формат HTML и раздел
, некоторое содержимое веб-сайта не может быть заблокировано от индексации с помощью метатега robots.Вот тут-то и пригодятся x-robots.Например, если вам нужно заблокировать документы .pdf:
Заголовочный набор X-Robots-Tag "noindex"
С метатегом robots поисковый робот загружает страницу и затем читает директивы, в то время как x-robots дает инструкции по индексации до того, как поисковый бот перейдет на страницу. В последнем случае поисковые системы не тратят время на сканирование страниц и сохраняют бюджет сканирования, чтобы использовать его для более важного содержания.Особенно полезно использовать X-Robots-Tag для крупномасштабных веб-сайтов.
- Установка директив сканирования для всего веб-сайта
Использование X-Robots-Tag в HTTP-ответах позволяет вам устанавливать директивы и управлять тем, как ваш контент индексируется на уровне вашего веб-сайта, а не на отдельных страницах.
- Обращение к локальным поисковым системам
Крупнейшие поисковые системы понимают большинство ограничительных директив, в то время как небольшие локальные поисковые системы могут не знать, как читать инструкции индексации в заголовке HTTP.Если ваш веб-сайт ориентирован на определенный регион, узнайте о местных поисковых системах и их характеристиках.
Основная функция метатега robots — скрыть страницы или некоторые элементы контента из результатов поиска. X-Robots-Tag позволяет вам устанавливать более общие инструкции для всего веб-сайта и информировать поисковых роботов до того, как они будут сканировать веб-страницы, экономя краулинговый бюджет.
Как применить X-Robots-TagЧтобы добавить заголовок X-Robots-Tag, вы должны использовать файлы конфигурации в корневом каталоге веб-сайта.Настройки будут отличаться в зависимости от веб-сервера.
ApacheВам следует отредактировать серверные документы .htaccess и httpd.conf . Если вам нужно предотвратить индексирование всех файлов .png и .gif на веб-сервере Apache, вы должны добавить следующее:
NginxЗаголовочный набор X-Robots-Tag "noindex"
Вы должны отредактировать файл конфигурации conf .Если вам нужно предотвратить индексацию всех файлов .png и .gif на веб-сервере Nginx, вы должны добавить следующее:
location ~ * \. (Png | gif) $ { add_header X-Robots-Tag "noindex"; }
Важно : перед редактированием файла конфигурации сохраните исходный файл, чтобы исключить проблемы с производительностью веб-сайта в случае ошибок.
Как проверить X-Robots-TagЕсть несколько способов узнать, какой ответ дает заголовок HTTP-страницы и содержит ли он тег X-Robots-Tag: онлайн-службы проверки URL, расширения браузера и инструменты для веб-мастеров.
Например, HTTP-заголовок, блокирующий индексацию, выглядит так:
HTTP / 1.1 200 OK Дата: Вт, 10 ноября 2020 г., 09:30:22 GMT X-Robots-Tag: noindexПроверка x-роботов в Google
Чтобы проверить тег с помощью Google Search Console, перейдите на страницу Проверка URL и нажмите Проверить действующий URL и Просмотреть просканированную страницу . Вы увидите информацию об ответе HTTP в разделе Дополнительная информация .
Примеры метатега robots и X-Robots-Tag noindexУказание всем сканерам не индексировать текст на странице и не переходить по ссылкам:
X-Robots-Tag: noindex, nofollownofollow
Указание Google не переходить по ссылкам на странице:
X-Robots-Tag: googlebot: nofollownoarchive
Указание поисковым системам не кэшировать страницу:
X-Robots-Tag: noarchivenone
Указание Google не индексировать и не переходить по ссылкам в HTML-документе:
X-Robots-Tag: googlebot: nonenosnippet
Указание поисковым системам не отображать фрагменты для страницы:
X-Robots-Tag: nosnippetmax-snippet
Ограничение фрагмента до 35 символов:
X-Robots-Tag: max-snippet: 35max-image-preview
Указание показывать версии больших изображений в результатах поиска:
X-Robots-Tag: max-image-preview: largemax-video-preview
Указание показывать видео без ограничений по длине:
X-Robots-Tag: max-video-preview: -1notranslate
Указание поисковым системам не переводить страницу:
X-Robots-Tag: notranslatenoimageindex
Отказ от индексации изображений на странице:
X-Robots-Tag: noimageindexunavailable_after
Указание сканерам не индексировать страницу после 1 января 2021 года:
X-Robots-Tag: unavailable_after: 2021-01-01Распространенные ошибки с роботами и использованием X-Robots-Tag Конфликт с роботами.txt
Официальные инструкции X-Robots-Tag и robots гласят, что поисковый бот должен иметь возможность сканировать контент, предназначенный для скрытия из индекса. Если вы запретите определенную страницу в файле robots.txt, директивы будут недоступны для поисковых роботов.
Еще одна распространенная ошибка — блокировка индексации с помощью robots.txt. Этот файл служит для ограничения сканирования страниц, а не для предотвращения их индексации. Чтобы управлять тем, как ваши страницы отображаются в поиске, используйте метатег robots и x-robots.
Удаление noindexЕсли вы используете директиву noindex , чтобы скрыть контент из индекса на определенный период, важно вовремя открыть доступ для поисковых роботов. Например, у вас есть страница с будущей промо-сделкой: если вы не удалите noindex, пока он будет готов, он не будет отображаться в результатах поиска и не будет генерировать трафик.
Обратные ссылки на страницу nofollowИнструкция nofollow может не работать, если на страницу указывают внешние источники.
Удаление URL-адреса из карты сайта до его деиндексированияЕсли на странице есть директива noindex , нецелесообразно удалять ее из файла карты сайта. Ваша карта сайта позволяет сканерам быстро находить все страницы, включая те, которые предполагается удалить из индекса.
Что вы можете сделать, так это создать отдельный sitemap.xml со списком страниц, содержащим noindex , и удалять URL-адреса из файла по мере их деиндексации. Если вы загрузите этот файл в Google Search Console, роботы, скорее всего, просканируют его быстрее.
Отсутствие проверки статусов индекса после внесения измененийМожет случиться так, что ценный контент будет заблокирован от индексации по ошибке. Чтобы этого избежать, проверяйте статусы индексации своих страниц после внесения в них каких-либо изменений.
Как не деиндексировать важные страницы?Вы можете отслеживать изменения в коде своего сайта с помощью монитора изменений страниц SE Ranking:
Что делать, если страница исчезает из поиска?Когда страницы, которая должна отображаться в поисковой выдаче, нет, проверьте, есть ли в файле robots.txt файл. Также проверьте, включен ли URL в файл карты сайта. Используя Google Search Console, вы можете сообщить поисковым системам, что вам нужно проиндексировать вашу страницу, а также сообщить им об обновленной карте сайта.
СводкаМетатег robots и тег x-robots служат для управления тем, как страницы индексируются и отображаются в результатах поиска. Они различаются по использованию: метатег robots включается в код страницы, а X-Robots-Tag указывается в файле конфигурации.Запомните некоторые из их других важных характеристик:
- Файл robots.txt помогает поисковым роботам правильно сканировать страницы, в то время как метатег robots и X-Robots-Tag влияют на то, как контент попадает в индекс. Все три жизненно важны для технической оптимизации.
- И метатег robots, и тег x-robots используются для блокировки индексации страниц, но последний дает роботам инструкции, прежде чем они будут сканировать страницы, что позволяет сэкономить краулинговый бюджет.
- Если файл robots.txt запрещает роботам сканировать страницу, метатег robots или директивы x-robots работать не будут.
- Ошибки, допущенные при установке метатега robots и тега x-robots, могут привести к неправильной индексации и проблемам с производительностью веб-сайта. Тщательно устанавливайте директивы или доверьте их опытному веб-мастеру.
Просмотров сообщения: 2636
Келли — писатель-фрилансер и специалист по цифровому маркетингу. Она помогает компаниям расширять свое присутствие в Интернете и пишет содержательные статьи о SEO и цифровом маркетинге. В свободное время Келли гуляет, фотографирует природу и играет со своей собакой.
Поддержка метатега HTML x-robots-tag и robots | Free Law Project
Майкл Лисснер
В рамках нашего исследования для наших Почта о том, как мы блокируем поисковые системы, мы изучили, какие поисковые системы поддерживать какие стандарты конфиденциальности. Эта информация не существует где-либо еще в Интернете, поэтому ниже представлены наши результаты, начиная с большие парни и движутся к более малоизвестным или иностранным поисковым системам.
Google, Bing
Google (известный как Googlebot) и Bing (известный как Bingbot) поддерживают x-robots-tag и HTML-тег robots.Вот Google страница по теме. А вот Бинга. Msnbot — это в отставке.
Yahoo, AOL
Поисковая машина Yahoo! предоставлена Bing. AOL предоставлены Google. Это простые.
Ask, Яндекс, Nutch
Ask (известная как теома) и Яндекс (российская поисковая система, известная как yandex), поддерживают метатег robots, но не поддерживают x-robots-tag. Страница вопроса по теме здесь, и Яндекс здесь. Популярный краулер с открытым исходным кодом Nutch также поддерживает роботов HTML тег, но не x-robots-tag заголовок.Обновление : Новые версии Nutch теперь поддерживают x-robots-tag!
Интернет-архив, Alexa
Интернет-архив использует поисковый робот Alexa, известный как ia_archiver. Этот поисковый робот не поддерживает ни HTML метатег robots и HTTP-заголовок x-robots-tag. Их страница на тема здесь. у меня есть запросил у них дополнительную информацию и обновлю эту страницу, если я услышать ответ.
Duckduckgo, Blekko, Baidu
Duckduckgo и Blekko не поддерживают ни метатег robots, ни x-robots-tag, в моих электронных письмах с каждым из них.Я также запросили информацию у Baidu, но в их ответе я полностью проигнорировал вопрос и был на китайском. У них есть некоторая информация здесь, но похоже, что он не предоставляет никакой информации о значении noindex для тег роботов. В любом случае кажется, что единственный способ заблокировать этих поисковых роботов: быть через файл robots.txt.
# Этот файл обслуживается https://www.blurb.com/robots.txt Пользовательский агент: DigExt Запретить: / Пользовательский агент: DTS Agent Запретить: / Пользовательский агент: Mozilla / 4.0 (совместимый; MSIE 5.0; Windows NT; DigExt; Агент DTS Запретить: / Пользовательский агент: ИИ знаний Запретить: / Пользовательский агент: heritrix Запретить: / Пользовательский агент: heritrix / 3.3.0 Запретить: / Пользовательский агент: CRAZYWEBCRAWLER Запретить: / Пользовательский агент: metadataparser Запретить: / Пользовательский агент: сеосканеры Запретить: / Пользовательский агент: SEOkicks-Robot Запретить: / Пользовательский агент: OpenLinkProfiler Запретить: / Пользовательский агент: MegaIndex Запретить: / User-agent: id-search Запретить: / Пользовательский агент: istellabot Запретить: / Пользователь-агент: [email protected] Запретить: / Пользовательский агент: ~ сканер Запретить: / Пользовательский агент: тестовый бот Запретить: / Пользовательский агент: ZumBot Запретить: / Пользовательский агент: Wotbox Запретить: / Пользовательский агент: YisouSpider Запретить: / Пользовательский агент: G-i-g-a-b-o-t Запретить: / Пользовательский агент: yacybot Запретить: / Пользовательский агент: s ~ snapchat-proxy Запретить: / Пользовательский агент: GnowitNewsbot Запретить: / Пользовательский агент: PaperLiBot Запретить: / Пользовательский агент: BUbiNG Запретить: / Пользовательский агент: Applebot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: / *.swf $ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: baiduspider Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запретить: / ebooks / editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Bingbot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: / ebook-creator / editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Googlebot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: msnbot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: / *.swf $ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Naverbot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запретить: / ebooks / editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Twitterbot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: / ebook-creator / editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * User-agent: Яндекс Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Slurp Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: / *.swf $ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: * задержка сканирования: 10 Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запретить: / ebooks / editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Пользовательский агент: SemrushBot-SA Запретить: /
Как предотвратить отображение страницы веб-сайта в результатах поиска
Чтобы страница веб-сайта не отображалась в результатах поиска, установите роботов
мета
тег или отправьте X-Robots-Tag
HTTP
заголовок.
Значит вы можете добавить этот тег на страницу:
Или отправьте этот заголовок для страницы:
Одним из преимуществ подхода с заголовком является то, что вы можете использовать его для содержимого, отличного от HTML, как файл PDF или JSON.
Значение noindex
указывает поисковым роботам, таким как Google и Bing, не индексировать
страницу, поэтому она не будет отображаться в результатах поиска.
Не использовать
robots.txt
Вы можете подумать об использовании исключения роботов
стандартный (т.е. robots.txt
), чтобы запретить сканирование, но это не так.
Работа
потому что тогда сканеры не увидят вашу директиву не индексировать страницу. Ты
проинструктировал их вообще не смотреть на страницу! Итак, если другие веб-сайты ссылаются на
вашу страницу, поисковый робот все еще может выбрать и проиндексировать страницу.
Файл robots.txt
предназначен для управления сканированием , а не индексированием .
Директивы
Существует много возможных значений директивы, и вы можете указать более одного с помощью разделяя их запятыми:
-
все
: без ограничений (поведение по умолчанию) -
noindex
: исключить страницу из результатов поиска -
nofollow
: не переходите по ссылкам на странице -
нет
: то же, что иnoindex, nofollow
-
noarchive
илиnocache
: не ссылаться на кешированную версию страницы -
nosnippet
: не показывать описание, фрагмент, миниатюру или предварительный просмотр видео страница в результатах поиска -
max-snippet: [длина]
: ограничить фрагмент до[длина]
количество символов -
max-image-preview: [настройка]
: установить максимальный размер предварительного просмотра изображения, где[настройка]
может бытьнет
,стандартный
илибольшой
-
max-video-preview: [длина]
: ограничить предварительный просмотр видео до[длина]
количество секунды -
notranslate
: без ссылки на перевод страницы -
noimageindex
: не индексировать изображения на странице -
unavailable_after: [datetime]
: исключить страницу из результатов поиска после[datetime]
, который должен быть в стандартном формате, например ISO. 8601
Однако не все сканеры поддерживают все значения.Например, посмотрите это документация для Google, эта документация для Бинг, и эта документация для Яндекс.
Определение гусеничных машин
Если вы хотите использовать разные директивы в зависимости от конкретного поискового робота, вы можете укажите пользовательский агент в мета имя тега:
Или в значении заголовка:
X-Robots-Тег: googlebot: noindex
X-Robots-Tag: bingbot: nofollow
Пользовательский агент: * Задержка сканирования: 15 Запретить: / pdf / Disallow: / * results.sale.pdf / Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запрещено: /content/dam/sothebys/InsideSothebys*.pdf Запретить: / styleguide / * Запретить: / bsp-api / * Пользовательский агент: Googlebot Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запретить: / content / dam / sothebys / InsideSothebys *.pdf Noindex: / pdf / Noindex: /*results.sale.pdf/ Noindex: /*/auctions/ecatalogue/lot.pdf Noindex: / * / PDFs / Noindex: / минисайт / pdf Noindex: /*/pdf/index.html Noindex: /content/dam/sothebys/InsideSothebys*.pdf Пользовательский агент: Bingbot Задержка сканирования: 1 Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запретить: / content / dam / sothebys / InsideSothebys *.pdf User-agent: Яндекс Задержка сканирования: 10 Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запрещено: /content/dam/sothebys/InsideSothebys*.pdf # Йети (Навер) Пользовательский агент: Yeti Задержка сканирования: 10 Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запретить: / * / pdf / index.html Запрещено: /content/dam/sothebys/InsideSothebys*.pdf Пользовательский агент: Slurp Задержка сканирования: 15 Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запрещено: /content/dam/sothebys/InsideSothebys*.pdf Карта сайта: https://www.sothebys.com/sitemap.xml
Backlink Breaker # 12 — Стандартизация REP, Mobile-First Dates и подробности алгоритма LinkedIn — Jordan Digital Marketing
Праздничная неделя не смогла ничего замедлить в мире SEO и контент-маркетинга.Новые функции и обновления платформ от Google, LinkedIn и Twitter держали всех в курсе, благодаря выпуску бонусной функции от одного из моих любимых инструментов — Wayback Machine.
Новости
Google попросил формализовать протокол исключения роботов (REP). Более 20 лет роботы неофициально соблюдают правила robots.txt, но они никогда не стандартизировались в Интернете, поэтому робот Google интерпретирует директивы роботов несколько иначе, чем Яндекс или Bing. Google хочет создать набор официальных правил, чтобы помочь REP работать лучше и заложить основу для будущего роста.В рамках этого объявления Google удалит код, который обрабатывает неподдерживаемые правила, например noindex в robots.txt. В любом случае вам не следовало использовать noindex в файлах роботов, но если вы это сделаете, существует ряд превосходных альтернатив (метатеги noindex, запрет в robots, коды 404 и т. Д.)
LinkedIn поделился подробной информацией о своем алгоритме новостной ленты, разъяснив, что особое внимание уделяется ранжированию конкретных профессиональных разговоров по сравнению с актуальным контентом. По сути, LinkedIn проверяет людей, страницы и хэштеги, за которыми следует пользователь, чтобы определить, какой контент должен отображаться в ленте.Публикуя в LinkedIn, откажитесь от старой тактики погони за трендами. Сосредоточьтесь на создании реальных связей и публикуйте в нише, которая волнует ваши связи, LinkedIn будет отдавать предпочтение этому контенту. LinkedIn также выпустила новые функции для страниц LinkedIn с пятью новыми кнопками CTA, мобильным редактированием и хэштегами сообщества. Приятно видеть акцент на платформе, поскольку LinkedIn продолжает развиваться как канал контент-маркетинга.
Twitter теперь будет скрывать твиты от общественных деятелей, нарушающие принципы сообщества.Раньше Twitter с радостью отображал твиты от известных людей, которые были бы сожжены дотла, если бы вы или я его твитнули (например, я не знаю … наш президент), но теперь они будут скрывать эти твиты (но не удалять). Это обновление применяется только к твитам от политических деятелей, проверенных аккаунтов и аккаунтов с более чем 100 тыс. Подписчиков. Это шаг в правильном направлении для обеспечения справедливости на платформе, но, в конце концов, должен ли Twitter действительно скрывать то, что подпадает под защиту первой поправки?
The Wayback Machine добавила новую функцию изменения, позволяющую легко определить, когда в прошлом на странице были внесены большие изменения.Супер полезный инструмент для всех, кому нужно диагностировать изменения на сайте. Я часто использую Wayback Machine для проверки изменений ранга и их возможного пересечения с доработками дизайна на сайте.
Google запустил Google для малого бизнеса, новый портал ресурсов, чтобы помочь малым предприятиям использовать продукты Google, такие как GMB и YouTube. Приятно видеть, что Google сосредотачивается на секторе малого и среднего бизнеса, и это то, что вы можете использовать, чтобы дважды проверить работу клиентов или помочь предоставить клиентам SMB инструменты, если им нужна помощь в реализации ваших маркетинговых рекомендаций.
Searchmetrics опубликовал исследование разнообразия Google, показывающее, что Google снизил вероятность увидеть три страницы из одного домена в результатах поиска на 50%. Это означает, что у небольших сайтов теперь есть возможность получить реальную популярность в поиске, особенно по запросам, по которым такие домены, как Amazon, будут доминировать в большинстве лучших результатов.
Google Search Console теперь показывает дату, когда ваш сайт перешел на индексацию с ориентацией на мобильные устройства. Это может помочь вам проанализировать влияние изменения, ориентированного на мобильные устройства, и выявить более серьезные проблемы с сайтом.
Факторы ранжирования
Старый контент все еще может быть актуальным и важным, а дата не является основным фактором ранжирования для определенных запросов. Поэтому, если у вас нет запроса, требующего «свежего» содержания, вам не обязательно сосредотачиваться на дате. Хорошие новости для производства вечнозеленого контента.
Google рекомендует минимизировать HTML и CSS, потому что это уменьшает размер файла, что, как мы все знаем, может помочь в увеличении скорости страницы и производительности
Google пояснил, что правильно выполненная миграция сайта должна занять всего день, чтобы Google понял, и не повлияет на ваш SEO.Я видел, как миграция проходит гладко, а также ужасно рушится, и обычно это происходит из-за, казалось бы, небольшой части надзора, которая выходит из-под контроля. Потратьте время на то, чтобы спланировать миграцию заранее, чтобы ничего не пропустить, и следуйте документации по миграции Google.
XML-карты сайта не влияют напрямую на ранжирование, это чрезвычайно ценный инструмент для индексирования страниц, но не фактор ранжирования сам по себе.
Для Bing семантическая разметка и структурированные данные представляют собой мощные факторы ранжирования, обязательно используйте их при разметке кода! (как будто вам нужна была другая причина)..