Yandex noindex: Как запретить индексирование сайта или страниц

Содержание

Метатег robots и HTTP-заголовок X-Robots-Tag

Вы можете указать роботам правила загрузки и индексирования определенных страниц сайта одним из способов:
  • прописать метатег robots в HTML-коде страницы в элементе head;

  • настроить HTTP-заголовок X-Robots-Tag для определенного URL на сервере вашего сайта.

Примечание. Если страница запрещена в файле robots.txt, то директива метатега или заголовка не действует.

По умолчанию метатег и заголовок учитываются поисковыми роботами. Можно указать директивы для определенных роботов.

  1. Поддерживаемые Яндексом директивы
  2. Указание нескольких директив
  3. Указания для определенных роботов

Разрешающие директивы используются роботом по умолчанию, поэтому их можно не указывать, если нет других директив. В сочетании с запрещающими директивами разрешающие имеют приоритет. Пример.

Роботы других поисковых систем и сервисов могут иначе интерпретировать директивы.

Пример:

Запись, которая запрещает индексирование страницы.

<html>
    <head>
        <meta name="robots" content="noindex" />
    </head>
    <body>...</body>
</html>

HTTP-ответ, где заголовок запрещает индексирование страницы.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noindex

Вы можете указать директивы через запятую.

<meta name="yandex" content="noindex, nofollow" />

Вы можете передать несколько заголовков в одном ответе, а также перечислить директивы через запятую.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: noindex, nofollow
X-Robots-Tag: noarchive

Если для робота Яндекса указаны противоречивые директивы, то он учтет положительное значение. Пример с директивами метатега:

<meta name="robots" content="all"/>
<meta name="robots" content="noindex, follow"/>
<!--Робот выберет значение all, текст и ссылки будут проиндексированы.-->
<meta name="robots" content="all"/>
<meta name="robots" content="noarchive"/>
<!--Текст и ссылки будут проиндексированы, но в результатах поиска не будет ссылки 
на сохраненную копию страницы.-->

Указать директиву только для роботов Яндекса можно с помощью метатега robots. Пример:

<meta name="yandex" content="noindex" />

Если вы перечислите общие директивы и директивы для роботов Яндекса, то поисковая система учтет все указания.

<meta name="robots" content="noindex" />
<meta name="yandex" content="nofollow" />

Такие директивы робот Яндекса воспримет как noindex, nofollow.

noindex — Викиреальность

noindex — ключевое слово, которым обычно называют параметры, влияющие на индексирование всей или отдельных частей веб-страницы. Поддерживается Яндексом, который предложил его в качестве альтернативы атрибуту nofollow.

Есть парный HTML-тег <noindex>, обозначающий, что определенная гиперссылка на веб-странице не должна индексироваться поисковой системой Яндекса.

Тег введен компанией Yandex как альтернатива параметра nofollow, выполняющего аналогичную функцию для прочих популярных поисковых систем, который ранее не поддерживался Яндексом (с 2010 года поддерживаются оба формата). noindex применяется только для конкретной ссылки, размещаясь между тегов <a>, для запрета индексации всех ссылок на странице применяется мета-тег nofollow.

Тег noindex не входит в спецификацию HTML, в связи с чем с точки зрения многих автоматических валидаторов HTML-разметки его использование является ошибкой.

Обычно тег применяют для экранирования ссылок в комментариях блогов, википроектах и прочих местах, в которых ссылки могут добавлять любые пользователи без проверки модератором. Помимо этого он может применять для поисковой оптимизации сайта, так как сайты с небольшим числом внешних ссылок имеют бо́льшие показатели.

Мета-тег noindex запрещает индексирование всего текста веб-страницы поисковыми роботами. Он определяется для мета-тега robots:

<meta name="robots" content="noindex" />

При этом индексирование может быть запрещено только определенным роботам, для этого надо поменять имя мета-тега на название бота, например «googlebot» [1].

Обычно этот мета-тег применяется для запрета индексирования служебных страниц, не содержащих полезного для человека контента. Иногда его применяют для защиты «секретных» страниц, что не является полностью корректным, так как при случайной утечке адреса пользователь сможет легко просмотреть страницу, для этих целей правильнее использовать аутентификацию по паролю или IP-адресу.

При помощи этого файла можно запретить поисковое индексирование отдельных страниц или каталогов сайта (например, ссылок «Редактировать» и пр. на викисайтах).

В MediaWiki начиная с версии 1.14 есть переключатель поведения __NOINDEX__ который запрещает индексацию страницы поисковыми системами при вставке его в код страницы. Используется преимущественно для страниц-черновиков (заготовок, не соответствующих критериям полноценной статьи или не соответствующих правилам википроекта), появление которых в поисковых запросах нежелательно, но полное удаление не планируется.

О сайте

Свидетельство о регистрации средства массовой информации Эл № ФС77-68768 17.02.2017 г., выдано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).

Название: AST-NEWS.ru — Астраханские новости
Учредитель и главный редактор: Терский Максим Николаевич
E-mail: [email protected]
Телефон: +79275636657


© AST-NEWS.ru – Астраханские новости, 2009-2021.

Все права на материалы, опубликованные на сайте AST-NEWS.ru, охраняются в соответствии с законодательством России. Цитирование и использование материалов в интернете возможно только с активной гиперссылкой на AST-NEWS.ru (без тегов ‘noindex’ и ‘nofollow’), а в печатном издании — электронный адрес материала.

AST-NEWS.ru – Астраханские новости — это собственные новости и обзоры происходящих событий, аналитика, а также лучшие и интересные материалы об Астраханском регионе, размещённые в СМИ, на сайтах и блогах.

На сайте созданы регулярно обновляющиеся архивы информации на известных астраханцев и местные организации, интервью.

Нашим читателям предоставлена (в рамках российского законодательства) полная свобода выражения собственного мнения относительно каждой опубликованной темы. 
Комментарии не подлежат удалению, даже если администрация сайта с ними категорически не согласна по политическим, религиозным и другим убеждениям.

Удалению подлежит рекламный спам и повторяющиеся неоднократно одни и те же комментарии к разным темам, а также те комментарии, которые не соответствуют обсуждаемому материалу, флуд. Кроме этого, редактируются или удаляются комментарии, содержащие экстремистские высказывания, клевету, оскорбления и мат.

Владелец сайта AST-NEWS.RU не несёт ответственности за содержание информации в комментариях к опубликованным темам. Ответственность за комментарии несёт их автор.

По всем вопросам, связанным с сайтом, пишите по адресу: [email protected]


НАШИ СТРАНИЦЫ В СОЦСЕТЯХ:

ГРУППА В ФЕЙСБУКЕ: https://www.facebook.com/groups/astnews2/

СТРАНИЦА В ФЕЙСБУКЕ: https://www.facebook.com/AstNews

ГРУППА ВКОНТАКТЕ: https://vk.com/astnews

ТВИТТЕР: https://twitter.com/astrakhan_news/

ГРУППА В ОДНОКЛАССНИКАХ: https://ok.ru/astnews

СТРАНИЦА В ИНСТАГРАМЕ: https://www.instagram.com/ast_news.ru/

ТЕЛЕГРАМ: https://t.me/ast_news

ЖИВОЙ ЖУРНАЛ: https://astnews-ru.livejournal.com

Описание отчета по блокировкам индексации, необходимого для продвижения сайта в поисковых системах

Индексация — это процесс анализа страниц сайта поисковыми системами и внесение информации о них в индекс (базу данных) для последующего использования её в ранжировании и формировании результатов поиска.

Индексация осуществляется с помощью краулера (поискового робота).

Зачем нужны блокировки от индексации?

Как правило, от поисковых систем закрывают информацию, которая не должна отображаться в поисковой выдаче. Чаще всего это разного рода техническая, служебная и конфиденциальная информация, страницы с непригодным для размещения в результатах поиска содержанием. Например, при продвижении коммерческого сайта оптимизаторы запрещают для индексации личный кабинет пользователей, корзину, сравнение товаров, дубли страниц, результаты поиска внутри сайта, и т. п.

Иметь информацию о таких страницах необходимо уже потому, что некоторые из них могут быть закрыты по ошибке.

Виды блокировок от индексации

Существует множество способов запретить индексацию страниц:

  1. С помощью файла robots.txt

    Robots.txt — это специальный текстовый файл, в котором приводятся рекомендации для поисковых систем о том, какие страницы можно индексировать, а какие не следует.

    Чтобы заблокировать страницу от индексации в robots.txt, необходимо воспользоваться директивой Disallow.

    Пример:

    # Содержание файла robots.txt,# который обязательно должен находиться в корневом каталоге сайта# Задаём директиву, что дальше идут правила для робота ЯндексаUser-agent: Yandex# разрешаем индексацию страниц и файлов, начинающихся с '/catalog'Allow: /catalog# блокируем индексацию страниц и файлов, начинающихся с '/cart'Disallow: /cart
  2. При помощи тега <meta> robots с атрибутом noindex.

    Чтобы заблокировать страницу с помощью этого атрибута, необходимо добавить в раздел страницы <head> следующие строчки:

    # заблокировать страницу от индексации целиком# строка должна размещаться в блоке <head> на самой странице<meta name="robots" content="noindex">
  3. При помощи закрытия от индексации ссылок, которые ведут на нужную страницу.

    Существует 2 способа это сделать.

    1. Закрыть переход краулера по конкретной ссылке:

      # Блокировка перехода краулера по конкретной ссылке на страницу /page# блокируется непосредственно ссылка<a href="/page" rel="nofollow">текст ссылки</a>

      Имейте в виду, что страница при этом способе будет заблокирована от индексации, только если все ссылки на неё будут заблокированы. Так как если останется хотя бы одна незакрытая ссылка, то краулер поисковой системы перейдет по ней и проиндексирует страницу.

    2. Закрыть переход краулера по всем ссылкам на странице:

      # Блокировка перехода краулера по всем ссылкам на странице,# при этом, если мы не добавили директиву noindex, то сама страница будет проиндексирована# строка должна размещаться в блоке <head> на самой странице<meta name="robots" content="nofollow" />
  4. Также можно закрыть страницу от какой-либо конкретной поисковой системы прямо в заголовке HTML страницы, например:

    # строка должна размещаться в блоке <head> на самой странице заблокировать страницу от индексации в Google<meta name="googlebot" content="noindex"># заблокировать страницу от индексации в Yandex<meta name="yandex" content="noindex" />

    Можно использовать комбинации директив:

    # строка должна размещаться в блоке <head> на самой странице# заблокировать страницу от индексации в Google, но перейти по ссылкам дальше, чтобы проиндексировать страницы глубже<meta name="googlebot" content="noindex, follow"># в Yandex страницу разрешить для индексации, но по ссылкам дальше не переходить<meta name="yandex" content="index, nofollow" />

    Еще вариант:

    # строка должна размещаться в блоке <head> на самой странице# заблокировать страницу от индексации в Yandex, и заблокировать переход краулера по ссылкам<meta name="yandex" content="none"># строка будет аналогична строке:<meta name="yandex" content="noindex, nofollow" />
  5. Прописать каноническую страницу:

    Атрибут rel=canonical применяется для указания поисковым системам канонической страницы. Каноническая страница — это страница сайта, которая является предпочтительной для индексации в поисковых системах. То есть, когда поисковый робот находит этот атрибут на какой-либо странице, он индексирует не ее, а ту страницу, которая указана в атрибуте. В отличие от редиректа, rel=canonical переадресует на другую страницу не пользователей, а только поисковые системы.

    Указание канонической страницы необходимо, когда документы с идентичным содержанием можно найти по разным адресам. Это позволяет избежать точных дублей в индексе поисковой системы и не попасть под фильтр.

    Например, когда у вас страница с одним содержанием для разных устройств:

    • https://example.com/news/
    • https://m.example.com/news/
    • https://amp.example.com/news/

    Или когда на странице несколько видов сортировок:

    • https://example.com/catalog/
    • https://example.com/catalog?sort=date
    • https://example.com/catalog?sort=cost

    Если товар имеет несколько размеров, и полностью идентичное описание:

    • https://example.com/catalog/shirt
    • https://example.com/catalog/shirt?size=XL
    • https://example.com/catalog/shirt38

    Прописывается атрибут rel=canonical следующим образом:

    # строка должна размещаться в блоке <head> на самой странице<link rel="canonical" href="https://example.com/catalog/shirt"/>
  6. Также можно передать каноническую страницу в заголовке HTTP-запроса.

    Внимание! При таком способе передачи вы не сможете увидеть эту блокировку без специального программного обеспечения или плагинов!

    # передаётся в заголовке страницы. Браузер без специальных плагинов не показывает HTTP заголовки пользователямHTTP/1.1 200 OKLink: <https://example.com/catalog/shirt>; rel=“canonical”

    Подробнее про канонические страницы читайте в документации Google.

  7. При помощи заголовка HTTP-запроса «X-Robots-Tag» для определенного URL:

    Внимание! При таком способе передачи вы не сможете увидеть эту блокировку без специального программного обеспечения или плагинов!

    # передаётся в заголовке страницы. Браузер без специальных плагинов не показывает HTTP заголовки пользователямHTTP/1.1 200 OKX-Robots-Tag: yandex: noindex

Как обнаружить на сайте заблокированные от индексации страницы?

Посмотреть данные обо всех страницах вашего сайта с блокировкой от индексации вы можете в разделе «SEO-аудит» -> «Блокировки индексации».

На странице отчета можно отфильтровать результаты и проверить только блокировки посадочных страниц. Для этого нужно кликнуть по кнопке «Блокировки посадочных».

Содержание отчёта:

  1. Адреса страниц, закрытых от индексации;
  2. Директива в robots.txt, если страница заблокирована этим способом от индексации в Яндексе;
  3. Директива в robots.txt, если страница заблокирована этим способом от индексации в Google;
  4. Блокировка ссылок на страницу при помощи атрибута nofollow;
  5. Блокировка страницы при помощи атрибута noindex.

Как убрать блокировку?

Во многих современных системах управления сайтом (CMS) можно изменить файл robots.txt, метатеги rel=canonical и robots. Поэтому для внесения изменения необходимы только знания принципов блокировок индексации. В противном случае для внесения изменений потребуется разработчик. Если схема блокировок на сайте сложная, то рекомендуется сначала составить графическую схему, чтобы избежать ошибок.

Вопросы-ответы

Использование robots.txt и мета тега noindex

Все, кто сталкивался с разработкой или просто использованием сайтов слышали о таком термине как robots.txt.
Это специальный файл с кодировкой UTF-8, который должен находится в корне домена (https://mypersonaldomen.com/robots.txt) и весить не более 500 Кб. Команды в этом файле рекомендуют (но не гарантируют) поисковым роботам Google, Yandex и другим исполнять те или иные указания. Например, мы можем попросить ботов не индексировать страницы с регистрацией, формой поиска, личного кабинете клиентов или любую другую страницу.
Важно понимать, что это просто рекомендации которые мы хотим передать, однако это не дает 100% гарантии. Если на закрытую страницу в robots.txt будет найдена внутренняя или внешняя ссылка то существует некая вероятность что страница все равно попадет в индекс поисковой выдачи.

Синтаксис файла robots.txt

User-Agent: указывает название бота поисковой системы, к которому будем обращаться.

Disallow: путь к странице, куда хотим закрыть доступ.

Crawl-delay: команда, указывающая как часто должен робот поисковой системы заходить на сайт.
Иногда может быть полезно при большой посещаемости, для уменьшения нагрузки на сервер.

На заметку:

  • Символ #: используется для комментариев внутри файла robots.txt
  • Файлы и папки нужно писать, учитывая их регистр
  • Host: директива для Яндекс, которая указывает главное зеркало сайта
  • Sitemap: тут прописывается полный пусть с https к карте сайта
  • * — данный знак обозначает любую последовательность символов

Пример использования файла robots.txt

Запрещаем индексацию всех страниц (полезно при разработке нового сайта):
User-agent: *
Disallow: /

Запретим роботу от google индексировать папку /tmp
User-agent: Googlebot
Disallow: /tmp/

Запретим роботу от google индексировать файл /provider.html
User-agent: Googlebot
Disallow: /tmp/provider.html

Запретим всем ботам индексировать файлы .pdf
User-agent: *
Disallow: /*.pdf$

Разрешим роботам Яндекс индексироват страницу provider.html
User-agent: Yandex
Allow: /tmp/provider.html

Путь к карте сайта:
User-agent: *
Disallow:
Sitemap: https://mypersonaldomen.com/sitemap.xml

Для чего используется мета тег noindex

В отличии от наших рекомендаций в файле robots.txt, мы можем указать для ботов поисковых систем гарантированный запрет индексации страницы.
Для этого в HEAD страницы нужно прописать строку:

<meta name=»robots» content=»noindex, follow»> — запретить индексацию, но разрешить переходить по ссылкам на текущей странице

<meta name=»robots» content=»noindex, nofollow»> — запретить как индексацию так и переходить по ссылкам на текущей странице

Причины удаления страницы из индекса поисковой системы Яндекс?

Анализируя индексацию сайта в поисковой системе Яндекс, можно увидеть, что некоторые страницы сайта были исключены из индекса.

Основные причины удаления страниц из поиска

Ошибки ответа сервера — 3**, 4**, 5**

  • Код ответа 3** связан с переадресацией страниц. Наиболее простой пример, когда из индекса удаляется страница — когда она имеет 301 редирект.
  • Код ответа 4** связан с недоступностью страницы. Самые популярные ошибки — 404 и 403.

Первый код означает, что страница больше не открывается по данному адресу, и соответственно Яндекс удаляет ее из поиска.

Важно: если вы поменяли адрес странице, но она уже была в индексе, то необходимо настроить 301 редирект на новую страницу.

403 код ответа сервера указывает на то, что отсутствует доступ к данному ресурсу. В таком случае необходимо разобраться с настройками хостинга.

  • Из-за проблем с сервером (коды ошибок 5**) страницы также удаляются из индекса.

Запрет к индексации

Страница запрещена к индексации через файл robots.txt или через мета-тег noindex.

Страница имеет атрибут rel=«canonical»

Тег <link> с данным атрибутом указывает, какую ссылку необходимо индексировать ПС.

Дубликаты страницы

Обычно из индекса удаляются страницы, имеющие одинаковый контент, но открывающиеся по различным адресам. Но на скриншоте выше разные страницы https://tk9.ru/in/maslo_rapsovoe_neraf/ и https://tk9.ru/catalog/ признаны дубликатами. В таких ситуациях рекомендуется сообщать технической поддержке об ошибке и отправлять страницы на переобход.

Недостаточное качество страницы

Как вовремя реагировать на изменения

Чтобы быть в курсе всех изменений, рекомендуется настроить уведомления в панели вебмастера:

Также рекомендуется добавить целевые страницы в инструмент «Мониторинг важных страниц».

Что делать, если Яндекс удалил нужную страницу из поиска

В таком случае необходимо устранить причину удаления и отправить ее на переобход https://webmaster.yandex.ru/site/indexing/reindex/. Страница вернется в поиск в ближайшие апдейты.

#104

Февраль’19 1296 21

#94

Декабрь’18 3414 28

#60

Февраль’18 3995 19

Мета-тег Robots | SEO-портал

Мета-тег Robots должен содержать инструкции для поисковых роботов по отношению к веб-странице, на которой он указан.

Видео по теме

Для чего нужен мета-тег Robots?

Указание данного мета-тега, в зависимости от используемых в нем значений, может обеспечить запрет или разрешение поисковым роботам на индексирование веб-страницы, на переход по ссылкам, размещенным на данной странице, для последующей индексации, или на комбинацию данных инструкций.

С помощью файла robots.txt можно запретить сканирование определённых страниц и каталогов сайта, однако это не гарантирует того, что данные страницы не будут проиндексированы, т. к. роботы могут попасть на неё по внешним ссылкам. С помощью мета-тега Robots можно точно указать роботу, что данную страницу не следует индексировать.

Корректные инструкции мета-тега Robots гарантированно исполняются роботами поисковых систем по отношению к веб-странице.

Как прописать мета-тег Robots?

Как и другие мета-теги в HTML, Meta Robots указывается в блоке head веб-страницы и должен содержать два обязательных атрибута name и content:

<head>
<meta name="robots" content="all" />
<head>

Атрибут Name мета-тега Robots

Важно знать, что атрибут name не обязательно должен содержать значение robots: в нём можно указывать название конкретного робота, для которого указана инструкция в атрибуте. Если указывается значение robots, то инструкция в атрибуте content предназначается для всех поисковых роботов. Таким образом, можно комбинировать инструкции для определённых роботов с помощью нескольких мета-тегов на одной веб-странице:

<head>

<!-- Запрет индексирования страницы для всех роботов: -->
<meta name="robots" content="noindex" />

<!-- Разрешение индексирования страницы роботу Яндекса: -->
<meta name="yandex" content="index" />

</head>

Отметим, что в 99.9% случаев мета-тег Robots содержит общие для всех роботов инструкции и прибегать к использованию нескольких мета-тегов нет необходимости.

Директивы мета-тега Robots

В качестве значения атрибута content указывается одна или несколько директив (инструкций), перечисленных через запятую. Существуют общие директивы, понятные всем поисковым роботам, а также директивы, понятные только роботам определённых поисковых систем.

Общие директивы

В таблице представлены директивы мета-тега Robots, понятные роботам Яндекса и Google.

Универсальные директивы мета-тега Robots
Директива Значение
all Используется по умолчанию. Означает, что в отношении веб-страницы не предусмотрены исключающие правила для роботов.
noindex Запрещает индексирование (отображение в поисковой выдаче) веб-страницы.
nofollow Запрещает переход по ссылкам на веб-странице.
none Запрещает индексирование и переход по ссылкам на веб-странице.
noarchive Запрещает выводить ссылку на сохраненную копию веб-страницы в сниппете поисковой выдачи.

Директивы для Google

В таблице ниже представлены директивы, понятные только роботам Google.

Директивы мета-тега Robots для Google
Директива Значение
nosnippet Запрещает отображать фрагмент содержания страницы в поисковой выдаче, размещенный под заголовком сниппета.
notranslate Запрещает отображать предложение перевести страницу в сниппете.
noimageindex Запрещает индексировать изображения на странице.
unavailable_after:[date] Запрещает отображать страницу в поисковой выдаче после указанного в формате RFC 850 времени.
nositelinkssearchbox Запрещает отображение поля поиска по сайту в поисковой выдаче.

Директивы для Яндекса

Кроме общих для всех роботов директив, робот Яндекса способен учитывать отдельную директиву noyaca, запрещающую использовать описание из Яндекс.Каталога при формировании сниппета поисковой выдачи:

<meta name="yandex" content="noyaca" />

Комбинирование директив

В качестве значения атрибута content в мета-теге Robots можно применять комбинации директив, перечисляя их через запятую. Рассмотрим на примерах.

Значение «index, follow» или «all»

Для разрешения индексирования и перехода по ссылкам можно не указывать мета-тег Robots совсем, или использовать следующие значения:

<!--отсутствие мета-тега-->
<!--или-->
<meta name="robots" content="index, follow" />
<!--или-->
<meta name="robots" content="all" />
Значение «noindex, nofollow» или «none»

Для запрета индексирования страницы и перехода по ссылкам на ней можно применять следующие значения:

<meta name="robots" content="noindex, nofollow" />
<!--или-->
<meta name="robots" content="none" />
Значение «noindex, follow»

Если страницу не следует отображать в поисковой выдаче, но можно её сканировать на предмет ссылок, то применяется комбинация директив noindex, follow:

<meta name="robots" content="noindex, follow" />
Значение «index, nofollow»

Если страницу следует отображать в поисковой выдаче, но не следует переходить по ссылкам на ней, то применяется комбинация index, nofollow:

<meta name="robots" content="index, nofollow" />

Рекомендации по применению

Необходимо очень внимательно использовать мета-тег Robots, т. к. он может стать причиной непопадания страниц сайта в поисковую выдачу. Чтобы исключить возможные недоразумения, следуйте указанным рекомендациям:

  • применяйте запрещающие директивы мета-тега Robots, совмещая их с директивами файла robots.txt и не допускайте конфликтов между ними;
  • учтите, что директивы файла robots.txt выполняются в первую очередь: если в robots.txt установлен запрет на сканирование страницы, а на странице указан мета-тег Robots со значением all или другим равнозначным значением, то робот, следуя инструкции в файле robots.txt, не перейдёт на страницу и не проиндексирует её;
  • исключайте индексирование ненужных в поисковой выдаче страниц сайта (виртуальная корзина, результаты поиска по сайту, дубли страниц и т. д.).

Метатег роботов и HTTP-заголовок X-Robots-Tag

Вы можете указать для роботов правила загрузки и индексации определенных страниц сайта одним из следующих способов: Примечание. Если страница запрещена в файле robots.txt, метатег или директива заголовка не применяются.

По умолчанию поисковые роботы учитывают метатег и заголовок. Вы можете указать директивы для определенных роботов.

  1. Директивы, поддерживаемые Яндексом
  2. Указание нескольких директив
  3. Инструкции для конкретных роботов

Робот использует директивы allow по умолчанию, поэтому вы можете опустить их, если нет других директив.Директивы Allow имеют приоритет над запрещающими директивами, если существует их комбинация. Пример.

Роботы из других поисковых систем и служб могут интерпретировать директивы по-другому.

Пример:

Элемент, отключающий индексацию страницы.

  
    
        
    
     ... 
  

Ответ HTTP с заголовком, запрещающим индексирование страницы.

  HTTP / 1.1 200 ОК
Дата: Вт, 25 мая 2010 г., 21:42:43 GMT
X-Robots-Tag: noindex  

Вы можете указать несколько директив, разделенных запятыми.

    

В одном ответе можно передать несколько заголовков и список директив, разделенных запятыми.

  HTTP / 1.1 200 ОК
Дата: Вт, 25 мая 2010 г., 21:42:43 GMT
X-Robots-Tag: noindex, nofollow
X-Robots-Tag: noarchive  

Если для робота Яндекса указаны конфликтующие директивы, он будет считать положительное значение.Пример директив метатега:

  




  

. Вы можете использовать метатег robots для передачи директивы только роботам Яндекса.Пример:

    

Если вы укажете общие директивы и директивы для роботов Яндекса, поисковая система учтет их все.

  
  

Робот Яндекс будет рассматривать эти директивы как noindex, nofollow .

Мета-теги роботов и заголовок X-Robots-Tag: их роль в индексации

12 января 2021 г. | 17 мин. Чтения

Метатег robots и тег x-robots используются для указания сканерам, как индексировать страницы веб-сайта.Первый указывается в HTML-коде веб-страницы, а второй включается в HTTP-заголовок URL-адреса.

Процесс индексации проходит в несколько этапов: контент загружается, анализируется роботами поисковых систем и добавляется в базу данных. Информация, попавшая в индекс, отображается в результатах поиска.

В нашей публикации о файле robots.txt мы обсудили, как разрешить ботам сканировать веб-сайт и как предотвратить сканирование ими определенного контента. В этой статье мы узнаем, как получить контроль над индексацией веб-страниц, какой контент следует закрыть из индексации и как это сделать правильно.

Преимущества использования роботов и X-Robots-Tag для SEO

Давайте посмотрим, как метатег robots и X-Robots-Tag помогают в поисковой оптимизации и когда их следует использовать.

1. Выбор страниц для индексации

Не все страницы веб-сайта могут привлекать обычных посетителей. В случае индексации некоторые из них могут нанести вред видимости сайта в поисковых системах. Это типы страниц, индексирование которых обычно блокируется с помощью noindex :

  • дублированных страниц
  • параметров сортировки и фильтров
  • страниц поиска и разбивки на страницы
  • технических страниц
  • сервисных уведомлений (о регистрации процесс, выполненный заказ и т. д.)
  • целевых страниц, предназначенных для тестирования идей
  • страниц, которые находятся в стадии разработки
  • информация, которая еще не актуальна (будущие сделки, объявления и т. Д.)
  • устаревшие страницы, которые не приносят никаких traffic
  • страниц, которые необходимо заблокировать для определенных поисковых роботов

2. Управление индексированием определенных типов файлов

Вы можете запретить роботам сканировать не только HTML-страницы, но и другие типы контента, такие как URL изображения или.pdf файл.

3. Сохранение ссылочного веса

Блокируя ссылки от поисковых роботов с помощью nofollow , вы можете сохранить ссылочный вес страницы, потому что он не будет передан другим источникам через внешние или внутренние ссылки.

4. Оптимизация краул-бюджета

Чем больше сайт, тем важнее направлять поисковые роботы на наиболее ценные страницы. Если поисковые системы сканируют веб-сайт внутри и снаружи, бюджет сканирования просто закончится до того, как боты достигнут контента, полезного для пользователей и SEO.Таким образом, важные страницы не будут проиндексированы или попадут в индекс с опозданием.

Директивы роботов и X-Robots-Tag

Роботы и X-Robots-Tag различаются по своему базовому синтаксису и использованию. Метатег robots вставляется в HTML-код веб-страницы и имеет два важных атрибута: name (для указания имени поискового робота) и content (команды для поискового робота). X-Robots-Tag добавляется в файл конфигурации и не имеет никаких атрибутов.

Указание Google не индексировать ваш контент с помощью роботов выглядит так:

    

Если вы решите запретить Google индексировать ваш контент с помощью x-robots, он будет выглядеть так:

  X-Robots-Tag: googlebot: noindex, nofollow  

Роботы и X-Robots-Tag имеют одни и те же директивы, которые используются для предоставления поисковым роботам разных инструкций. Давайте рассмотрим их подробнее.

Директивы Robots и X-Robots-Tag: функции и поддержка браузера
Директива Его функция GOOGLE YANDEX BING
index / noindex Указывает индексировать / не индексировать страницу. Используется для страниц, которые не должны отображаться в поисковой выдаче. + + + +
follow / nofollow Указывает переходить / не переходить по ссылкам на странице. + + + +
archive / noarchive Указывает, показывать / не показывать кешированную версию веб-страницы в поиске. + + + +
all / none Все эквивалентно индексу , следуйте , используемому для индексации текста и ссылок. Нет является эквивалентом noindex, nofollow , используемого для блокировки индексации текста и ссылок. + + +
nosnippet Указывает не показывать фрагмент или видео в поисковой выдаче. + +
max-snippet Ограничивает максимальный размер фрагмента. Обозначается как max-snippet: [number] , где number — это количество символов во фрагменте. + +
max-image-preview Ограничивает максимальный размер изображений, отображаемых в поиске.Обозначается как max-image-preview: [установка] , где установка может иметь без , стандартное или большое значение . + +
max-video-preview Ограничивает максимальную длину видео, отображаемого в поиске (в секундах). Он также позволяет установить статическое изображение (0) или снять любые ограничения (-1). Обозначается как max-video-preview: [значение] . + +
notranslate Запрещает поисковым системам переводить страницу в результатах поиска. +
noimageindex Запрещает индексирование изображений на странице. +
unavailable_after Указывает не показывать страницу в поиске после указанной даты. Обозначается как unavailable_after: [дата / время] . +

Все вышеупомянутые директивы могут использоваться как с метатегом robots, так и с тегом x-robots, чтобы роботы Google могли понять ваши инструкции.

Обратите внимание, что индексирование содержимого сайта, которое не скрыто от поисковых систем, выполняется по умолчанию, поэтому вам не нужно указывать index и следовать директивам .

Конфликтующие директивы

В сочетании некоторые директивы могут вызвать конфликты, например, разрешая индексирование и в то же время предотвращая индексирование того же контента. Google выберет ограничительную инструкцию, а не разрешительную.

Комбинация директив Действия Google
Робот выберет noindex и текст страницы не будут проиндексированы.
Робот выберет noindex , а текст страницы не будет будет проиндексирован, но он будет переходить по ссылкам и сканировать их.
Будут учтены все инструкции: текст и ссылки будут проиндексированы, а ссылки, ведущие на копия страницы не будет проиндексирована.

Мета-тег robots: синтаксис и использование

Как мы уже говорили, метатег robots вставляется в HTML-код страницы и содержит информацию для поисковых роботов. Он помещается в раздел HTML-документа и имеет два обязательных атрибута: name и content . В упрощенном виде это выглядит так:

    

Атрибут имени

Этот атрибут определяет тип метатега в соответствии с информацией, которую он предоставляет поисковым системам. .Например, meta name = «description» устанавливает краткое описание страницы, которая будет отображаться в результатах поиска, meta name = «viewport» используется для оптимизации сайта для мобильных устройств, meta http-Equiv = » Content-Type » определяет тип документа и его кодировку.

В meta name = «robots» атрибут name определяет имя бота, для которого разработаны инструкции. Он работает аналогично директиве User-agent в robots.txt, который идентифицирует сканера поисковой системы.

Значение «robots» используется для адресации всех поисковых систем, а если вам нужно установить инструкции специально для Google, вы должны написать meta name = «googlebot» . Для нескольких сканеров вам нужно будет создать отдельные теги.

Атрибут содержимого

Этот атрибут содержит инструкции для индексации содержимого страницы и его отображения в результатах поиска. Директивы, объясненные в таблице выше, используются в атрибуте content .

Обратите внимание:

  • Оба атрибута не чувствительны к регистру.
  • Если значения атрибутов не указаны или записаны неправильно, поисковый бот проигнорирует инструкцию по блокировке.
  • При обращении к нескольким сканерам нужно использовать отдельный метатег robots для каждого. Что касается атрибута содержимого, вы можете указать его различные директивы в одном метатеге, разделив их запятыми.

Файл robots.txt и метатег robots

Учитывая тот факт, что поисковые роботы сначала смотрят на robots.txt для рекомендаций по сканированию, они не смогут просканировать страницу и увидеть инструкции, включенные в код, если страница закрыта в robots.txt.

Если страница имеет атрибут noindex , но заблокирована в файле robots.txt, ее можно проиндексировать и отобразить в результатах поиска — например, если сканер найдет ее, перейдя по обратной ссылке из другого источника. Поскольку robots.txt обычно доступен, вы не можете быть уверены, что сканеры не найдут ваши «скрытые» страницы.

С учетом сказанного, если вы закрываете страницу с помощью метатега robots, убедитесь, что в файле robots.txt, предотвращающий его сканирование. Когда дело доходит до блокировки изображений от индексации, иногда имеет смысл использовать robots.txt.

Использование метатега robots
  • Способ 1: в редакторе HTML

Управление страницами аналогично редактированию текстового файла. Вам нужно открыть HTML-документ в редакторе, добавить роботов в раздел и сохранить.

Страницы хранятся в корневом каталоге сайта, к которому вы можете получить доступ, используя свою личную учетную запись от хостинг-провайдера или FTP.Сохраните исходный документ, прежде чем вносить в него изменения.

С помощью CMS проще заблокировать страницу от индексации. Существует ряд плагинов, например Yoast SEO для WordPress, которые позволяют блокировать индексацию или сканирование ссылок при редактировании страницы.

Источник: Yoast

Проверка метатега роботов

Поисковым системам требуется время, чтобы проиндексировать или деиндексировать страницу. Чтобы убедиться, что ваша страница не проиндексирована, используйте службы для веб-мастеров или плагины браузера, которые проверяют метатеги (например, SEO META в 1 ЩЕЛК для Chrome).

Вы также можете проверить, проиндексирована ли страница с помощью Google Search Console:

Если проверка страницы показывает, что метатег robots не работает, проверьте, не заблокирован ли URL-адрес в файле robots.txt, проверив его. в адресной строке или с помощью тестера robots.txt от Google.

SE Ranking также позволяет проверить, какие страницы веб-сайтов находятся в индексе. Для этого перейдите к инструменту Index Status Checker .

X-Robots-Tag: синтаксис и использование

X-Robots-Tag — это часть HTTP-ответа для данного URL, добавленного в файл конфигурации.Он действует аналогично метатегу robots и влияет на то, как индексируются страницы, но иногда вам следует использовать x-robots специально для инструкций по индексации.

Вот простой пример X-Robots-Tag:

  X-Robots-Tag: noindex, nofollow  

Когда вам нужно установить правила для страницы или типа файла, X-Robots-Tag выглядит так:

   
Заголовочный набор X-Robots-Tag "noindex, nofollow"
 

Директива выполняет поиск файлов на веб-сайте с помощью регулярных выражений.Если вы используете Nginx вместо Apache , эта директива заменяется на location :

  location = filename {
  add_header X-Robots-Tag "noindex, nofollow";
} 

Если имя бота не указано, директивы автоматически используются для всех сканеров. Если идентифицирован конкретный робот, тег будет выглядеть так:

  Заголовок set X-Robots-Tag "googlebot: noindex, nofollow"  

Когда следует использовать X-Robots-Tag
  • Deindexing non -HTML files

Поскольку не все страницы имеют формат HTML и раздел , некоторое содержимое веб-сайта не может быть заблокировано от индексации с помощью метатега robots.Вот тут-то и пригодятся x-robots.

Например, если вам нужно заблокировать документы .pdf:

   
    Заголовочный набор X-Robots-Tag "noindex"
 

С метатегом robots поисковый робот загружает страницу и затем читает директивы, в то время как x-robots дает инструкции по индексации до того, как поисковый бот перейдет на страницу. В последнем случае поисковые системы не тратят время на сканирование страниц и сохраняют бюджет сканирования, чтобы использовать его для более важного содержания.Особенно полезно использовать X-Robots-Tag для крупномасштабных веб-сайтов.

  • Установка директив сканирования для всего веб-сайта

Использование X-Robots-Tag в HTTP-ответах позволяет вам устанавливать директивы и управлять тем, как ваш контент индексируется на уровне вашего веб-сайта, а не на отдельных страницах.

  • Обращение к локальным поисковым системам

Крупнейшие поисковые системы понимают большинство ограничительных директив, в то время как небольшие локальные поисковые системы могут не знать, как читать инструкции индексации в заголовке HTTP.Если ваш веб-сайт ориентирован на определенный регион, узнайте о местных поисковых системах и их характеристиках.

Основная функция метатега robots — скрыть страницы или некоторые элементы контента из результатов поиска. X-Robots-Tag позволяет вам устанавливать более общие инструкции для всего веб-сайта и информировать поисковых роботов до того, как они будут сканировать веб-страницы, экономя краулинговый бюджет.

Как применить X-Robots-Tag

Чтобы добавить заголовок X-Robots-Tag, вы должны использовать файлы конфигурации в корневом каталоге веб-сайта.Настройки будут отличаться в зависимости от веб-сервера.

Apache

Вам следует отредактировать серверные документы .htaccess и httpd.conf . Если вам нужно предотвратить индексирование всех файлов .png и .gif на веб-сервере Apache, вы должны добавить следующее:

   
 Заголовочный набор X-Robots-Tag "noindex"
 
Nginx

Вы должны отредактировать файл конфигурации conf .Если вам нужно предотвратить индексацию всех файлов .png и .gif на веб-сервере Nginx, вы должны добавить следующее:

  location ~ * \. (Png | gif) $ {
 add_header X-Robots-Tag "noindex";
} 

Важно : перед редактированием файла конфигурации сохраните исходный файл, чтобы исключить проблемы с производительностью веб-сайта в случае ошибок.

Как проверить X-Robots-Tag

Есть несколько способов узнать, какой ответ дает заголовок HTTP-страницы и содержит ли он тег X-Robots-Tag: онлайн-службы проверки URL, расширения браузера и инструменты для веб-мастеров.

Например, HTTP-заголовок, блокирующий индексацию, выглядит так:

  HTTP / 1.1 200 OK 
Дата: Вт, 10 ноября 2020 г., 09:30:22 GMT
X-Robots-Tag: noindex 
Проверка x-роботов в Google

Чтобы проверить тег с помощью Google Search Console, перейдите на страницу Проверка URL и нажмите Проверить действующий URL и Просмотреть просканированную страницу . Вы увидите информацию об ответе HTTP в разделе Дополнительная информация .

Примеры метатега robots и X-Robots-Tag
noindex

Указание всем сканерам не индексировать текст на странице и не переходить по ссылкам:

   
X-Robots-Tag: noindex, nofollow 
nofollow

Указание Google не переходить по ссылкам на странице:

   
X-Robots-Tag: googlebot: nofollow 
noarchive

Указание поисковым системам не кэшировать страницу:

   
X-Robots-Tag: noarchive 
none

Указание Google не индексировать и не переходить по ссылкам в HTML-документе:

   
X-Robots-Tag: googlebot: none 
nosnippet

Указание поисковым системам не отображать фрагменты для страницы:

   
X-Robots-Tag: nosnippet 
max-snippet

Ограничение фрагмента до 35 символов:

   
X-Robots-Tag: max-snippet: 35 
max-image-preview

Указание показывать версии больших изображений в результатах поиска:

   
X-Robots-Tag: max-image-preview: large 
max-video-preview

Указание показывать видео без ограничений по длине:

   
X-Robots-Tag: max-video-preview: -1 
notranslate

Указание поисковым системам не переводить страницу:

   
X-Robots-Tag: notranslate 
noimageindex

Отказ от индексации изображений на странице:

   
X-Robots-Tag: noimageindex 
unavailable_after

Указание сканерам не индексировать страницу после 1 января 2021 года:

   
X-Robots-Tag: unavailable_after: 2021-01-01 

Распространенные ошибки с роботами и использованием X-Robots-Tag

Конфликт с роботами.txt

Официальные инструкции X-Robots-Tag и robots гласят, что поисковый бот должен иметь возможность сканировать контент, предназначенный для скрытия из индекса. Если вы запретите определенную страницу в файле robots.txt, директивы будут недоступны для поисковых роботов.

Еще одна распространенная ошибка — блокировка индексации с помощью robots.txt. Этот файл служит для ограничения сканирования страниц, а не для предотвращения их индексации. Чтобы управлять тем, как ваши страницы отображаются в поиске, используйте метатег robots и x-robots.

Удаление noindex

Если вы используете директиву noindex , чтобы скрыть контент из индекса на определенный период, важно вовремя открыть доступ для поисковых роботов. Например, у вас есть страница с будущей промо-сделкой: если вы не удалите noindex, пока он будет готов, он не будет отображаться в результатах поиска и не будет генерировать трафик.

Обратные ссылки на страницу nofollow

Инструкция nofollow может не работать, если на страницу указывают внешние источники.

Удаление URL-адреса из карты сайта до его деиндексирования

Если на странице есть директива noindex , нецелесообразно удалять ее из файла карты сайта. Ваша карта сайта позволяет сканерам быстро находить все страницы, включая те, которые предполагается удалить из индекса.

Что вы можете сделать, так это создать отдельный sitemap.xml со списком страниц, содержащим noindex , и удалять URL-адреса из файла по мере их деиндексации. Если вы загрузите этот файл в Google Search Console, роботы, скорее всего, просканируют его быстрее.

Отсутствие проверки статусов индекса после внесения изменений

Может случиться так, что ценный контент будет заблокирован от индексации по ошибке. Чтобы этого избежать, проверяйте статусы индексации своих страниц после внесения в них каких-либо изменений.

Как не деиндексировать важные страницы?

Вы можете отслеживать изменения в коде своего сайта с помощью монитора изменений страниц SE Ranking:

Что делать, если страница исчезает из поиска?

Когда страницы, которая должна отображаться в поисковой выдаче, нет, проверьте, есть ли в файле robots.txt файл. Также проверьте, включен ли URL в файл карты сайта. Используя Google Search Console, вы можете сообщить поисковым системам, что вам нужно проиндексировать вашу страницу, а также сообщить им об обновленной карте сайта.

Сводка

Метатег robots и тег x-robots служат для управления тем, как страницы индексируются и отображаются в результатах поиска. Они различаются по использованию: метатег robots включается в код страницы, а X-Robots-Tag указывается в файле конфигурации.Запомните некоторые из их других важных характеристик:

  • Файл robots.txt помогает поисковым роботам правильно сканировать страницы, в то время как метатег robots и X-Robots-Tag влияют на то, как контент попадает в индекс. Все три жизненно важны для технической оптимизации.
  • И метатег robots, и тег x-robots используются для блокировки индексации страниц, но последний дает роботам инструкции, прежде чем они будут сканировать страницы, что позволяет сэкономить краулинговый бюджет.
  • Если файл robots.txt запрещает роботам сканировать страницу, метатег robots или директивы x-robots работать не будут.
  • Ошибки, допущенные при установке метатега robots и тега x-robots, могут привести к неправильной индексации и проблемам с производительностью веб-сайта. Тщательно устанавливайте директивы или доверьте их опытному веб-мастеру.

Просмотров сообщения: 2636

Келли — писатель-фрилансер и специалист по цифровому маркетингу. Она помогает компаниям расширять свое присутствие в Интернете и пишет содержательные статьи о SEO и цифровом маркетинге. В свободное время Келли гуляет, фотографирует природу и играет со своей собакой.

Поддержка метатега HTML x-robots-tag и robots | Free Law Project

Майкл Лисснер

В рамках нашего исследования для наших Почта о том, как мы блокируем поисковые системы, мы изучили, какие поисковые системы поддерживать какие стандарты конфиденциальности. Эта информация не существует где-либо еще в Интернете, поэтому ниже представлены наши результаты, начиная с большие парни и движутся к более малоизвестным или иностранным поисковым системам.

Google, Bing

Google (известный как Googlebot) и Bing (известный как Bingbot) поддерживают x-robots-tag и HTML-тег robots.Вот Google страница по теме. А вот Бинга. Msnbot — это в отставке.

Yahoo, AOL

Поисковая машина Yahoo! предоставлена ​​Bing. AOL предоставлены Google. Это простые.

Ask, Яндекс, Nutch

Ask (известная как теома) и Яндекс (российская поисковая система, известная как yandex), поддерживают метатег robots, но не поддерживают x-robots-tag. Страница вопроса по теме здесь, и Яндекс здесь. Популярный краулер с открытым исходным кодом Nutch также поддерживает роботов HTML тег, но не x-robots-tag заголовок.Обновление : Новые версии Nutch теперь поддерживают x-robots-tag!

Интернет-архив, Alexa

Интернет-архив использует поисковый робот Alexa, известный как ia_archiver. Этот поисковый робот не поддерживает ни HTML метатег robots и HTTP-заголовок x-robots-tag. Их страница на тема здесь. у меня есть запросил у них дополнительную информацию и обновлю эту страницу, если я услышать ответ.

Duckduckgo, Blekko, Baidu

Duckduckgo и Blekko не поддерживают ни метатег robots, ни x-robots-tag, в моих электронных письмах с каждым из них.Я также запросили информацию у Baidu, но в их ответе я полностью проигнорировал вопрос и был на китайском. У них есть некоторая информация здесь, но похоже, что он не предоставляет никакой информации о значении noindex для тег роботов. В любом случае кажется, что единственный способ заблокировать этих поисковых роботов: быть через файл robots.txt.

# Этот файл обслуживается https://www.blurb.com/robots.txt Пользовательский агент: DigExt Запретить: / Пользовательский агент: DTS Agent Запретить: / Пользовательский агент: Mozilla / 4.0 (совместимый; MSIE 5.0; Windows NT; DigExt; Агент DTS Запретить: / Пользовательский агент: ИИ знаний Запретить: / Пользовательский агент: heritrix Запретить: / Пользовательский агент: heritrix / 3.3.0 Запретить: / Пользовательский агент: CRAZYWEBCRAWLER Запретить: / Пользовательский агент: metadataparser Запретить: / Пользовательский агент: сеосканеры Запретить: / Пользовательский агент: SEOkicks-Robot Запретить: / Пользовательский агент: OpenLinkProfiler Запретить: / Пользовательский агент: MegaIndex Запретить: / User-agent: id-search Запретить: / Пользовательский агент: istellabot Запретить: / Пользователь-агент: [email protected] Запретить: / Пользовательский агент: ~ сканер Запретить: / Пользовательский агент: тестовый бот Запретить: / Пользовательский агент: ZumBot Запретить: / Пользовательский агент: Wotbox Запретить: / Пользовательский агент: YisouSpider Запретить: / Пользовательский агент: G-i-g-a-b-o-t Запретить: / Пользовательский агент: yacybot Запретить: / Пользовательский агент: s ~ snapchat-proxy Запретить: / Пользовательский агент: GnowitNewsbot Запретить: / Пользовательский агент: PaperLiBot Запретить: / Пользовательский агент: BUbiNG Запретить: / Пользовательский агент: Applebot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: / *.swf $ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: baiduspider Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запретить: / ebooks / editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Bingbot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: / ebook-creator / editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Googlebot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: msnbot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: / *.swf $ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Naverbot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запретить: / ebooks / editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Twitterbot Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: / ebook-creator / editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * User-agent: Яндекс Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: Slurp Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: / *.swf $ Запретить: / bookshow / cache / Запретить: / feeds / user * Запрещено: /ebooks/editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Разрешить: / tags / * Пользовательский агент: * задержка сканирования: 10 Запретить: / my / Запретить: / admin / Запретить: / status / Запретить: / feeds / search * Запретить: / книжный магазин / поиск * Запретить: /*.swf$ Запретить: / bookshow / cache / Запретить: / feeds / user * Запретить: / ebooks / editor.html Запретить: /ebooks/reader.html Запретить: /ebook-creator/editor.html Запретить: / узел / * Запрещено: / книжный магазин / приглашен / * Disallow: / distribution / * Запретить: / search / * Запретить: / пользователь / Noindex: / пользователь / Пользовательский агент: SemrushBot-SA Запретить: /

Как предотвратить отображение страницы веб-сайта в результатах поиска

Чтобы страница веб-сайта не отображалась в результатах поиска, установите роботов мета тег или отправьте X-Robots-Tag HTTP заголовок.

Значит вы можете добавить этот тег на страницу:

  
  

Или отправьте этот заголовок для страницы:

Одним из преимуществ подхода с заголовком является то, что вы можете использовать его для содержимого, отличного от HTML, как файл PDF или JSON.

Значение noindex указывает поисковым роботам, таким как Google и Bing, не индексировать страницу, поэтому она не будет отображаться в результатах поиска.

Не использовать

robots.txt

Вы можете подумать об использовании исключения роботов стандартный (т.е. robots.txt ), чтобы запретить сканирование, но это не так. Работа потому что тогда сканеры не увидят вашу директиву не индексировать страницу. Ты проинструктировал их вообще не смотреть на страницу! Итак, если другие веб-сайты ссылаются на вашу страницу, поисковый робот все еще может выбрать и проиндексировать страницу.

Файл robots.txt предназначен для управления сканированием , а не индексированием .

Директивы

Существует много возможных значений директивы, и вы можете указать более одного с помощью разделяя их запятыми:

  • все : без ограничений (поведение по умолчанию)
  • noindex : исключить страницу из результатов поиска
  • nofollow : не переходите по ссылкам на странице
  • нет : то же, что и noindex, nofollow
  • noarchive или nocache : не ссылаться на кешированную версию страницы
  • nosnippet : не показывать описание, фрагмент, миниатюру или предварительный просмотр видео страница в результатах поиска
  • max-snippet: [длина] : ограничить фрагмент до [длина] количество символов
  • max-image-preview: [настройка] : установить максимальный размер предварительного просмотра изображения, где [настройка] может быть нет , стандартный или большой
  • max-video-preview: [длина] : ограничить предварительный просмотр видео до [длина] количество секунды
  • notranslate : без ссылки на перевод страницы
  • noimageindex : не индексировать изображения на странице
  • unavailable_after: [datetime] : исключить страницу из результатов поиска после [datetime] , который должен быть в стандартном формате, например ISO. 8601

Однако не все сканеры поддерживают все значения.Например, посмотрите это документация для Google, эта документация для Бинг, и эта документация для Яндекс.

Определение гусеничных машин

Если вы хотите использовать разные директивы в зависимости от конкретного поискового робота, вы можете укажите пользовательский агент в мета имя тега:

  

  

Или в значении заголовка:

  X-Robots-Тег: googlebot: noindex
X-Robots-Tag: bingbot: nofollow
  

Пользовательский агент: * Задержка сканирования: 15 Запретить: / pdf / Disallow: / * results.sale.pdf / Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запрещено: /content/dam/sothebys/InsideSothebys*.pdf Запретить: / styleguide / * Запретить: / bsp-api / * Пользовательский агент: Googlebot Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запретить: / content / dam / sothebys / InsideSothebys *.pdf Noindex: / pdf / Noindex: /*results.sale.pdf/ Noindex: /*/auctions/ecatalogue/lot.pdf Noindex: / * / PDFs / Noindex: / минисайт / pdf Noindex: /*/pdf/index.html Noindex: /content/dam/sothebys/InsideSothebys*.pdf Пользовательский агент: Bingbot Задержка сканирования: 1 Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запретить: / content / dam / sothebys / InsideSothebys *.pdf User-agent: Яндекс Задержка сканирования: 10 Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запрещено: /content/dam/sothebys/InsideSothebys*.pdf # Йети (Навер) Пользовательский агент: Yeti Задержка сканирования: 10 Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запретить: / * / pdf / index.html Запрещено: /content/dam/sothebys/InsideSothebys*.pdf Пользовательский агент: Slurp Задержка сканирования: 15 Запретить: / pdf / Запрещено: /*results.sale.pdf/ Запрещено: /*/auctions/ecatalogue/lot.pdf Запретить: / * / PDFs / Запретить: / minisite / pdf Запрещено: /*/pdf/index.html Запрещено: /content/dam/sothebys/InsideSothebys*.pdf Карта сайта: https://www.sothebys.com/sitemap.xml

Backlink Breaker # 12 — Стандартизация REP, Mobile-First Dates и подробности алгоритма LinkedIn — Jordan Digital Marketing

Праздничная неделя не смогла ничего замедлить в мире SEO и контент-маркетинга.Новые функции и обновления платформ от Google, LinkedIn и Twitter держали всех в курсе, благодаря выпуску бонусной функции от одного из моих любимых инструментов — Wayback Machine.

Новости

Google попросил формализовать протокол исключения роботов (REP). Более 20 лет роботы неофициально соблюдают правила robots.txt, но они никогда не стандартизировались в Интернете, поэтому робот Google интерпретирует директивы роботов несколько иначе, чем Яндекс или Bing. Google хочет создать набор официальных правил, чтобы помочь REP работать лучше и заложить основу для будущего роста.В рамках этого объявления Google удалит код, который обрабатывает неподдерживаемые правила, например noindex в robots.txt. В любом случае вам не следовало использовать noindex в файлах роботов, но если вы это сделаете, существует ряд превосходных альтернатив (метатеги noindex, запрет в robots, коды 404 и т. Д.)

LinkedIn поделился подробной информацией о своем алгоритме новостной ленты, разъяснив, что особое внимание уделяется ранжированию конкретных профессиональных разговоров по сравнению с актуальным контентом. По сути, LinkedIn проверяет людей, страницы и хэштеги, за которыми следует пользователь, чтобы определить, какой контент должен отображаться в ленте.Публикуя в LinkedIn, откажитесь от старой тактики погони за трендами. Сосредоточьтесь на создании реальных связей и публикуйте в нише, которая волнует ваши связи, LinkedIn будет отдавать предпочтение этому контенту. LinkedIn также выпустила новые функции для страниц LinkedIn с пятью новыми кнопками CTA, мобильным редактированием и хэштегами сообщества. Приятно видеть акцент на платформе, поскольку LinkedIn продолжает развиваться как канал контент-маркетинга.

Twitter теперь будет скрывать твиты от общественных деятелей, нарушающие принципы сообщества.Раньше Twitter с радостью отображал твиты от известных людей, которые были бы сожжены дотла, если бы вы или я его твитнули (например, я не знаю … наш президент), но теперь они будут скрывать эти твиты (но не удалять). Это обновление применяется только к твитам от политических деятелей, проверенных аккаунтов и аккаунтов с более чем 100 тыс. Подписчиков. Это шаг в правильном направлении для обеспечения справедливости на платформе, но, в конце концов, должен ли Twitter действительно скрывать то, что подпадает под защиту первой поправки?

The Wayback Machine добавила новую функцию изменения, позволяющую легко определить, когда в прошлом на странице были внесены большие изменения.Супер полезный инструмент для всех, кому нужно диагностировать изменения на сайте. Я часто использую Wayback Machine для проверки изменений ранга и их возможного пересечения с доработками дизайна на сайте.

Google запустил Google для малого бизнеса, новый портал ресурсов, чтобы помочь малым предприятиям использовать продукты Google, такие как GMB и YouTube. Приятно видеть, что Google сосредотачивается на секторе малого и среднего бизнеса, и это то, что вы можете использовать, чтобы дважды проверить работу клиентов или помочь предоставить клиентам SMB инструменты, если им нужна помощь в реализации ваших маркетинговых рекомендаций.

Searchmetrics опубликовал исследование разнообразия Google, показывающее, что Google снизил вероятность увидеть три страницы из одного домена в результатах поиска на 50%. Это означает, что у небольших сайтов теперь есть возможность получить реальную популярность в поиске, особенно по запросам, по которым такие домены, как Amazon, будут доминировать в большинстве лучших результатов.

Google Search Console теперь показывает дату, когда ваш сайт перешел на индексацию с ориентацией на мобильные устройства. Это может помочь вам проанализировать влияние изменения, ориентированного на мобильные устройства, и выявить более серьезные проблемы с сайтом.

Факторы ранжирования

  • Старый контент все еще может быть актуальным и важным, а дата не является основным фактором ранжирования для определенных запросов. Поэтому, если у вас нет запроса, требующего «свежего» содержания, вам не обязательно сосредотачиваться на дате. Хорошие новости для производства вечнозеленого контента.

  • Google рекомендует минимизировать HTML и CSS, потому что это уменьшает размер файла, что, как мы все знаем, может помочь в увеличении скорости страницы и производительности

  • Google пояснил, что правильно выполненная миграция сайта должна занять всего день, чтобы Google понял, и не повлияет на ваш SEO.Я видел, как миграция проходит гладко, а также ужасно рушится, и обычно это происходит из-за, казалось бы, небольшой части надзора, которая выходит из-под контроля. Потратьте время на то, чтобы спланировать миграцию заранее, чтобы ничего не пропустить, и следуйте документации по миграции Google.

  • XML-карты сайта не влияют напрямую на ранжирование, это чрезвычайно ценный инструмент для индексирования страниц, но не фактор ранжирования сам по себе.

  • Для Bing семантическая разметка и структурированные данные представляют собой мощные факторы ранжирования, обязательно используйте их при разметке кода! (как будто вам нужна была другая причина)..

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *