Скрыть от индексации сайт: Как скрыть сайт от индексации Google и Яндекс

Содержание

Как закрыть ссылки и тексты от поисковых систем — SEO на vc.ru

{«id»:13783,»url»:»\/distributions\/13783\/click?bit=1&hash=f0cc7f316b770dc4875e7513d2029d033fc9167343c63983bb14feeb434669ad»,»title»:»\u0417\u043d\u0430\u043a\u043e\u043c\u0438\u043c \u0431\u0430\u0431\u0443\u0448\u043a\u0443 \u0441 \u0432\u0438\u0434\u0435\u043e\u0438\u0433\u0440\u0430\u043c\u0438 «,»buttonText»:»\u041f\u043e\u0441\u043c\u043e\u0442\u0440\u0435\u0442\u044c»,»imageUuid»:»bfaa0db8-3bbe-5e0d-ac65-b3d1953a0a21″,»isPaidAndBannersEnabled»:false}

SEO

SEO блиц

Встречаются такие ситуации, когда требуется закрыть контент от индексации. Это может быть:

15 347 просмотров

  • неуникальный контент;
  • шаблонный текст, встречающийся на всех страницах сайта;
  • ссылки на сторонние ресурсы.

Ссылки (внешние и внутренние)

Закрывать от поисковых систем внешние ссылки необходимо, если вы не хотите, чтобы страница, имеющая ссылку, теряла свой вес.

Это может происходить следующим образом:

  • Удалением внешних ссылок. Рекомендуется убирать внешние ссылки на сторонние ресурсы.
  • Если удалить ссылку нет возможности, то необходимо скрыть ссылку от индексации посредством скрипта так, чтобы в исходном коде страницы не было <a href=»» …></a>, а блок выводился в виде: <div></div>. Далее при формировании страницы скриптом выводилось содержимое данного блока в виде ссылок и прочего. Сам скрипт требуется закрыть от индексации в файле robots.txt.
  • Добавлением атрибута rel=»nofollow». Необходимо прописать атрибут rel=»nofollow» для внешней ссылки (<a href=»» rel=»nofollow» target=»_blank»>текст ссылки</a>).

Помимо внешних ссылок, аналогичное рекомендуют проводить с внутренними ссылками вида добавить в корзину, вход, авторизация, фильтр, сбросить фильтр и т.д. (для всех элементов, которые сверстаны ссылками <a href>, но при этом не ведут на реальные страницы).

Текст

Если у вас на сайте используется большое количество неуникального или дублирующегося контента, то его необходимо скрыть от индексации.

Это можно сделать двумя способами:

  • выделить кусок необходимого текста с помощью тега <!—noindex—>…<!—/noindex—>
  • прописать мета-тег <meta name=»robots» content=»noindex»/> странице.

Важно

Если вы прописали мета-тег <meta name=»robots» content=»noindex»/>, то ссылки на странице все будут доступны для поисковых систем и роботы будут переходить по ним. Поэтому необходимо добавить атрибут nofollow, если хотите полностью запретить индексацию страницы. Выглядеть это может следующим образом: <meta name=»robots» content=»noindex, nofollow»/> или <meta name=»robots» content=»none»/>.

Ждите новые заметки в блоге или ищите на нашем сайте.

Как закрыть сайт от индексации в поисковых системах

Доброго дня, дорогие читатели.

В этой статье мы расскажем о том, как закрыть сайт от индексации с помощью самых разных способов. Индексация – это процесс занесения информации вашего ресурса в базы поисковых систем. При этом поисковые роботы могут заносить абсолютно любую информацию вашего проекта. Даже ту, что не нужно. Подобное особенно часто встречается в случаях, когда сам сайт только создан, и какой-то полезной информации там еще нет.

Естественно, ПС все равно могут начать индексацию, что в дальнейшем может создать некоторые проблемы с SEO-продвижением. Сегодня мы разберем наиболее популярные способы сокрытия проекта от взора поисковых роботов. Давайте начинать!

Что такое индексация

Индексация – это процесс, который подразумевает считывание всей информации вашего ресурса для дальнейшего занесения ее в базы ПС. Иными словами, это когда поисковики анализируют ваш сайт, чтобы потом выдавать его пользователям в поисковой выдаче. В процессе индексации учитывается абсолютно все: начиная от дизайна и заканчивая количеством текста в статьях.

В процессе индексации сайта ПС могут делать для себя определенные пометки. Например, если вы начнете размещать на своем веб-ресурсе копипаст, то ваш сайт может попасть под фильтр. В таком случае он больше не будет участвовать в поисковом ранжировании на равных условиях с другими проектами. Поисковик будет просто занижать ресурс в позициях либо вовсе уберет его из результатов.

То же касается и каких-то других аспектов SEO-продвижения. Во время индексации поисковые роботы анализируют все показатели, чтобы определить качество сайта и возможность размещения страниц по каким-то определенным запросам. Если на проекте отсутствует информация (статьи и страницы), то разместить его где-то либо не представляется возможным.

Такой веб-ресурс будет доступен только по прямому обращению с использованием специальных регулярных выражений. В общих результатах его не встретить.

Роботы ПС начинают индексацию всех открытых сайтов сразу же после их создания. Вы даже можете не добавлять свой проект в Яндекс.Вебмастер и Google Search Console, но роботы все равно придут на ваш ресурс и начнут аудит всей доступной информации. Если вы только что создали свой проект, естественно, вам подобная индексация не нужна. Например, очень часто при создании проектов люди пользуются шаблонами.

Чтобы лучше настроить внешний вид ресурса, они загружают специальные демо-конфигурации, которые в автоматическом режиме создают тестовые варианты статей. Это, как правило, копипастные материалы, которые нужны только для того, чтобы тема оформления выглядела должным образом. Согласитесь, настраивать шаблон намного проще, если ты сразу видишь, как это все будет выглядеть в конечном итоге. Когда ресурс пустой, настроить шаблон должным образом бывает очень сложно.

Это особенно актуально для проектов на WordPress, потому как тема на заполненном проекте и тема на пустом выглядят совершенно по-разному. Пользователи выгружают демо-контент, чтобы настроить внешний вид, и в случае, если проект не был закрыт от ПС, эти самые страницы с демо-контентом могут попасть в поисковую выдачу.

Естественно, они будут на самых последних страницах, но тем не менее это будет создавать негативный эффект для SEO-продвижения. По сути, это можно рассматривать как попадание мусорных страниц и документов в ПС. Потом вам придется удалять их все, на что может потребоваться определенное время.

Видимого негативного эффекта от этого, конечно, быть не должно. Однако некоторые трудности возникнут. Ваш веб-ресурс не будет классифицироваться как полностью уникальный, и в некоторых случаях поисковые роботы будут занижать позиции уже настоящих статей в выдаче. Даже после удаления всех этих демо-материалов эффект может держаться еще какое-то время.

Именно поэтому при начальной разработке проекта лучше закрыть его от индексации и открывать уже только после того, как он будет полностью готов. Причем это касается не только демо-контента, но и, вообще, любой разработки – дизайна, скорости загрузки и т. д. Если что-то на ресурсе не работает должным образом, лучше это на время скрыть от глаз пользователей и ПС.

Помимо закрытия на этапе разработки, есть и другие причины для того, чтобы исключить свой проект из поисковой выдачи. К примеру, это может понадобиться специализированным ресурсам, материалы которых не должны быть в общем доступе. Обычно это какие-то специальные закрытые проекты, информация на которых предназначена для ограниченного количества людей.

Естественно, если поисковые системы начнут считывать информацию с таких проектов, то ни о какой приватности речь идти не будет. Все данные будут доступны для изучения с помощью различных сервисов. Сами ПС сохраняют слепки сайтов, поэтому, даже если владельцы проекта решат удалить информацию, которая по ошибке попала в поисковик, где-то может остаться сохраненная копия.

Также закрытие проекта от индексации актуально для внутренних ресурсов различных компаний, которые создают такие сайты для своих сотрудников. Это могут быть специальные панели управления, страницы с расписанием и т. д.

В общем, причин для закрытия проекта от поисковых систем очень много. Да и способов реализации этого тоже.

Закрываем сайт от поисковиков разными способами

Способов скрыть свой сайт от взгляда поисковиков очень много. Например, в WordPress для этого есть специальная галочка, которая автоматически проставляет специальный тег на всех страницах проекта. Подобный функционал есть и в некоторых других платформах. Достаточно просто перейти в панель управления, найти нужный параметр и активировать его. Также есть и более универсальные способы, которые будут работать на большинстве известных CMS. Даже на самописных или HTML-сайтах подобные способы будут работать. О них мы и расскажем далее.

В WordPress

Для скрытия ресурса от ПС вам достаточно активировать настройку, которая отвечает за видимость для роботов ПС. Перейдите в панель управления, наведите курсор на пункт “Настройки” и выберите там подпункт “Чтение”. Откроется страница, где самой последней опцией будет нужная нам галочка.

Активируйте чекбокс с галочкой, после чего кликните на кнопку “Сохранить изменения”. Отныне ваш ресурс не будет индексироваться поисковыми системами. WordPress проставит на всех страницах ресурса специальные теги, которые сообщают, что данный материал не должен участвовать в поисковом ранжировании.

При этом даже в самих настройках сообщается, что далеко не всегда поисковые системы следуют этому запросу. Яндекс и Google, скорее всего, последуют, а вот менее популярные ПС могут проиндексировать ваш ресурс несмотря на все усилия.

В любой момент вы можете вернуться в настройки и отключить эту галочку. Тогда метатег автоматически уберется со всех страниц, и вы сможете отправить их на переобход с помощью Яндекс.Вебмастера или Google Search Console.

Помимо полного закрытия ресурса, вы можете делать то же самое, но только с нужными статьями или страницами. Для этого вам необходимо будет установить плагин для поисковой оптимизации Yoast SEO или любое аналогичное расширение. В рамках этой статьи мы рассмотрим именно Yoast SEO.

Чтобы закрыть нужную страницу или статью, вы должны открыть редактор в панели управления, после чего прокрутить страницу вниз. Вплоть до сниппета с Yoast SEO, где расположено окно с title, описанием и ключевым словом для вашего материала.

Перейдите во вкладку “Дополнительно” (значок шестеренки), после чего выберите пункт “Нет” в раскрывающемся меню “Разрешить поисковым системам показывать Запись в результатах поиска?”

Здесь же вы можете указать и другие настройки. Например, расширить метатег robots для этой конкретной страницы. Однако новичкам вряд ли потребуются эти функции. Достаточно будет выбрать соответствующий пункт в настройках записи, после чего сохранить изменения с помощью нужной кнопки.

Это можно сделать с любой записью и страницей. Также это можно сделать с метками (тегами) и другими кастомными таксономиями.

Чтобы закрыть полностью все страницы или полностью все записи, вы также можете воспользоваться параметрами плагина Yoast SEO. Просто перейдите в меню “SEO” – “Отображение в поисковой выдаче”. Откроется страница, где в верхнем меню необходимо выбрать пункт “Типы содержимого”. Там будут указаны все таксономии вашего ресурса.

К каждой таксономии будет свой набор настроек, который, как правило, имеет один шаблон. Вам необходимо перейти к нужной таксономии (например, к записям), развернуть содержимое вкладки и выбрать “Нет” в пункте “Показать Записи в результатах поиска?” После этого вам нужно просто сохранить настройки.

На всех записях автоматически проставится метатег robots, который будет сообщать поисковикам, что именно эти документы индексировать не нужно. В то же время другие таксономии и страницы будут доступны для индексации.

То же самое вы можете сделать и со страницами, и с архивами, и с метками. Нужно просто перейти к нужному пункту, изменить эту настройку, после чего сохранить изменения.

Запрет через robots.txt

Закрыть ресурс от взгляда ПС можно с помощью самого стандартного способа – через robots.txt, который есть практически на каждом проекте. Данный файл имеет очень большое значение для поисковиков, потому что именно в нем описываются все правила для роботов. Если этого файла нет, ПС классифицируют подобное как ошибку.

Для закрытия всего проекта вам необходимо стереть все нынешнее содержимое файла, после чего добавить туда следующие строки.

User-agent: *

Disallow: /

Эти правила будут закрывать ваш сайт от всех ПС. При желании вы можете закрыть ресурс только от одного поисковика. Для этого вместо звездочки необходимо указать название робота.

Например, чтобы скрыть проект конкретно от Google, вам нужно использовать такой код.

User-agent: Googlebot

Disallow: /

Также вместо Googlebot можно прописать “Yandex”, тогда ваш ресурс будет скрыт только от Яндекса.

Чтобы скрыть конкретную папку или страницу, вы должны указать ее в файле, используя директиву “Disallow”.

К примеру, вы хотите закрыть страницу /blog/ от всех ПС. Остальные материалы по вашему замыслу должны индексироваться. Для этого вы должны использовать следующие строчки в robots.txt.

User-agent: *

Disallow: /blog/

Проверить правильность использования robots.txt вы можете в панелях управления для вебмастеров. Подобные инструменты есть и в Яндексе, и в Google.

Кстати говоря, использование правильного файла robots.txt – залог успешного SEO-продвижения. О том, как создать правильный robots.txt для WordPress и Joomla мы рассказывали в отдельном материале. Рекомендуем ознакомиться.

Через метатег robots

Этот способ очень похож на самый первый, где мы рассказывали, как закрыть ресурс от индексации в WordPress через настройки и плагин. Только в этом случае вам придется добавлять нужный метатег в код самостоятельно без всяких интерфейсов и т. д.

Во все страницы, которые вы хотите закрыть от ПС, нужно добавить следующий тег.

<meta name=”robots” content=”noindex, nofollow”/>

В WordPress это можно сделать при помощи редактора тем, который расположен в меню “Внешний вид”. Просто перейдите в панель управления, найдите там нужный пункт, наведите на него курсор и выберите “Редактор тем”.

Далее, вам нужно будет выбрать файл заголовка (header.php), который используется почти на всех страницах проекта. Туда-то и нужно вставить данный метатег.

Сразу скажу, что ручное размещение тега именно на WordPress неоправданно. Зачем это делать, если есть настройки, которые могут помочь реализовать все в более упрощенном варианте.

Такой способ больше подойдет для самописных сайтов или ресурсов, которые используют какие-то сторонние платформы, где нет возможности так просто активировать данный метатег в настройках.

Через htaccess

С помощью этого файла можно закрыть ресурс от индексации. bot» search_bot

Нужно добавить их в файл. Эти правила закроют ваш проект от всех известных ПС.

Заключение

Как видите, способов закрытия проекта от ПС очень много. Мы рассмотрели наиболее популярные и действенные варианты. Надеемся, что этот материал поможет вам в решении ваших проблем. Все на самом деле очень просто, особенно если вы используете WordPress или аналогичную платформу. Достаточно просто активировать настройку, и проект будет закрыт.

Также можно воспользоваться универсальным способом и закрыть ресурс через robots.txt. Таким вариантом пользуется абсолютное большинство вебмастеров, и никаких нареканий у них не возникает. В любой удобный момент можно просто изменить содержимое файла и отправить сайт на переиндексацию.

Google объясняет, как скрыть веб-сайт из результатов поиска

Google утверждает, что лучший способ скрыть веб-сайт из результатов поиска — использовать пароль, но есть и другие варианты, которые вы можете рассмотреть.

Эта тема освещена в последнем выпуске серии видеороликов Ask Googlebot на YouTube.

Джон Мюллер из Google отвечает на вопрос о том, как предотвратить индексацию контента в поиске и разрешено ли это делать веб-сайтам.

«Короче говоря, да, можете, — говорит Мюллер.

Есть три способа скрыть сайт из результатов поиска:

  • Использовать пароль
  • Обход блока
  • Индексация блока

Веб-сайты могут либо полностью отказаться от индексации, либо проиндексироваться и скрыть контент от робота Googlebot с помощью пароля.

Блокировка контента от робота Googlebot не противоречит рекомендациям для веб-мастеров, если он одновременно заблокирован для пользователей.

Например, если сайт защищен паролем при сканировании роботом Googlebot, он также должен быть защищен паролем для пользователей.

В качестве альтернативы сайт должен иметь директивы, запрещающие роботу Googlebot сканировать или индексировать сайт.

У вас могут возникнуть проблемы, если ваш веб-сайт предоставляет другой контент для робота Googlebot, чем для пользователей.

Это называется «маскировкой» и противоречит рекомендациям Google.

С учетом этого различия, вот правильные способы скрытия контента от поисковых систем.

1. Защита паролем

Блокировка веб-сайта паролем часто является лучшим подходом, если вы хотите сохранить конфиденциальность своего сайта.

Пароль гарантирует, что ни поисковые системы, ни случайные пользователи сети не смогут увидеть ваш контент.

Это обычная практика для веб-сайтов в разработке. Публикация веб-сайта в режиме реального времени — это простой способ поделиться с клиентами незавершенной работой, не позволяя Google получить доступ к веб-сайту, который еще не готов к просмотру.

2. Заблокировать сканирование

Еще один способ запретить роботу Googlebot доступ к вашему сайту — заблокировать сканирование. Это делается с помощью файла robots. txt.

С помощью этого метода люди могут получить доступ к вашему сайту по прямой ссылке, но она не будет обнаружена «приличными» поисковыми системами.

По словам Мюллера, это не лучший вариант, потому что поисковые системы могут индексировать адрес веб-сайта без доступа к его содержимому.

Такое случается редко, но о такой возможности вам следует знать.

3. Заблокировать индексирование

Третий и последний вариант — заблокировать индексирование вашего веб-сайта.

Для этого вы добавляете на свои страницы метатег noindex robots.

Тег noindex указывает поисковым системам не индексировать эту страницу до тех пор, пока после они ее не просканируют.

Пользователи не видят метатег и могут нормально открывать страницу.

Заключительные мысли Мюллера

Мюллер завершает видео, говоря, что главная рекомендация Google — использовать пароль:

«В целом, для частного контента мы рекомендуем использовать защиту паролем.

Легко проверить, работает ли он, и он не позволяет никому получить доступ к вашему контенту.

Блокировка сканирования или индексации — хорошие варианты, когда контент не является частным. Или если есть только части веб-сайта, которые вы не хотите отображать в поиске».

См. полное видео ниже:


Избранное изображение: снимок экрана с сайта YouTube.com/GoogleSearchCentral, ноябрь 2021 г.

Категория Новости SEO

Полное руководство по сокрытию страниц сайта от индексации

Индексация страниц сайта — это то, с чего начинается процесс поисковой оптимизации. Предоставление ботам движка доступа к вашему контенту означает, что ваши страницы готовы для посетителей, и вы хотите, чтобы они отображались в поисковой выдаче, поэтому всеобъемлющая индексация на первый взгляд кажется огромным преимуществом.

Однако некоторые типы страниц лучше держать подальше от SERP. Это означает, что вам нужно скрыть их от индексации. В этом посте я расскажу вам о типах контента, который нужно скрыть от поисковых систем, и покажу, как это сделать.

Содержание

  1. Страницы, которые нужно скрыть от поиска
  2. Как скрыть страницу из поиска
    1. Ограничение сканирования с помощью файлов robots.txt
    2. Ограничить индексирование с помощью метатега robots и тега X-Robots
      1. Роботы noindex метатег
      2. X-Robots-тег
  3. Особые случаи

Страницы, которые нужно скрыть от поиска

Давайте без лишних слов приступим к делу. Вот список страниц, которые вам лучше скрыть от поисковых систем, чтобы они не появлялись в поисковой выдаче.

Страницы с личными данными

Защита контента от прямого поискового трафика обязательна, если страница содержит личную информацию. Это страницы с конфиденциальной информацией о компании, информацией об альфа-продуктах, информацией о профилях пользователей, личной перепиской, платежными данными и т. д. Поскольку частный контент должен быть скрыт от кого-либо, кроме владельца данных, Google (или любая поисковая система) не должен t сделать эти страницы видимыми для более широкой аудитории.

Страницы входа

Если форма входа размещена не на главной, а на отдельной странице, нет необходимости показывать эту страницу в поисковой выдаче. Такие страницы не несут никакой дополнительной ценности для пользователей, которую можно считать малосодержательным контентом.

Страницы благодарности

Это страницы, которые пользователи видят после успешного действия на веб-сайте, будь то покупка, регистрация или что-то еще. Эти страницы также, вероятно, будут иметь мало контента и практически не несут никакой дополнительной ценности для пользователей.

Версии страниц для печати или чтения

Содержимое страниц этого типа дублирует содержание основных страниц вашего веб-сайта, то есть эти страницы будут рассматриваться как дубликаты содержимого при сканировании и индексировании.

Страницы с похожими товарами

Это обычная проблема для крупных интернет-магазинов, на которых много товаров, отличающихся только размером или цветом. Google может не определить разницу между ними и рассматривать их как дубликаты контента.

Внутренние результаты поиска

Когда пользователи приходят на ваш сайт из поисковой выдачи, они ожидают, что щелкнут вашу ссылку и найдут ответ на свой запрос. Не очередная внутренняя поисковая выдача с кучей ссылок. Поэтому, если ваши внутренние результаты поисковой выдачи попадут в индекс, они, скорее всего, не принесут ничего, кроме низкого времени пребывания на странице и высокого показателя отказов.

Страницы с биографией автора в блогах с одним автором

Если в вашем блоге все сообщения написаны одним автором, то страница с биографией автора является чистой копией главной страницы блога.

Страницы формы подписки

Подобно страницам входа в систему, формы подписки обычно не содержат ничего, кроме формы для ввода ваших данных для подписки. Таким образом, страница а) пуста, б) не представляет ценности для пользователей. Вот почему вы должны запретить поисковым системам вытягивать их в поисковую выдачу.

Страниц в разработке

Практическое правило: страницы, которые находятся в процессе разработки, должны быть недоступны для роботов поисковых систем, пока они не будут полностью готовы для посетителей.

Зеркальные страницы

Зеркальные страницы — это идентичные копии ваших страниц на отдельном сервере/в другом месте. Они будут считаться техническими дубликатами, если будут просканированы и проиндексированы.

Специальные предложения и рекламные целевые страницы

Специальные предложения и рекламные страницы предназначены для просмотра пользователями только после выполнения ими каких-либо специальных действий или в течение определенного периода времени (специальные предложения, события и т. д.). После завершения мероприятия эти страницы не должны быть видны никому, в том числе поисковым системам.

Как скрыть страницу из поиска

А теперь вопрос: как скрыть все вышеперечисленные страницы от надоедливых пауков и сохранить остальную часть вашего сайта видимой, как и должно быть?

При настройке инструкций для поисковых систем у вас есть два варианта. Вы можете ограничить сканирование или ограничить индексирование страницы.

Ограничение сканирования с помощью файлов robots.txt

Возможно, самый простой и прямой способ ограничить доступ сканеров поисковых систем к вашим страницам — это создать файл robots.txt. Файлы robots.txt позволяют заблаговременно исключить нежелательный контент из результатов поиска. С помощью этого файла вы можете ограничить доступ к одной странице, целому каталогу или даже одному изображению или файлу.

Как это работает
Создание файла robots.txt

Процедура довольно проста. Вы просто создаете файл .txt со следующими полями:

  • User-agent:  – в этой строке вы указываете рассматриваемого поискового робота;
  • Disallow:  – две или более строк, которые предписывают указанным поисковым роботам не получать доступ к определенным частям сайта.

Обратите внимание, что некоторые поисковые роботы (например, Google) также поддерживают дополнительное поле с именем Разрешить: . Как следует из названия, Разрешить: позволяет явно перечислить файлы/папки, которые можно сканировать.

Вот некоторые основные примеры файлов robots.txt.

*  в строке User-agent  означает, что всем ботам поисковых систем предписывается не сканировать ни одну из страниц вашего сайта, что обозначается / . Скорее всего, это то, чего вы предпочли бы избежать, но теперь вы поняли идею.

В приведенном выше примере вы запрещаете роботу изображений Google сканировать ваши изображения в выбранном каталоге.

Дополнительные инструкции о том, как писать такие файлы вручную, можно найти в руководстве разработчика Google.

А вот процесс создания robots.txt можно полностью автоматизировать — существует множество инструментов, способных создавать такие файлы. Например, WebSite Auditor может легко скомпилировать файл robots. txt для вашего сайта.

Когда вы запустите инструмент и создадите проект для своего веб-сайта, перейдите к Структура сайта > Страницы , щелкните значок гаечного ключа и выберите Robots.txt .

Загрузите WebSite Auditor

Затем нажмите Добавить правило и укажите инструкции. Выберите поискового робота и каталог или страницу, для которых вы хотите ограничить сканирование.

Когда вы закончите со всеми настройками, нажмите Далее , чтобы инструмент сгенерировал файл robots.txt, который вы затем можете загрузить на свой веб-сайт.

Чтобы просмотреть ресурсы, заблокированные для сканирования, и убедиться, что вы не запретили сканирование ничего, перейдите к Структура сайта > Аудит сайта и проверьте раздел Ресурсы, индексация которых запрещена :

Загрузить WebSite Auditor

Примечание: Хотя файл robots. txt запрещает поисковым системам сканировать определенные страницы, URL-адреса этих страниц могут быть проиндексированы, если другие страницы указывают на них с описательным текстом. URL-адрес с ограниченным доступом может отображаться в результатах поиска без описания, поскольку контент не будет сканироваться и индексироваться.

Также имейте в виду, что протокол robots.txt носит исключительно рекомендательный характер. Это не блокировка страниц вашего сайта, а больше похоже на «Личное — не входить». Robots.txt может предотвратить доступ «законопослушных» ботов (например, ботов Google, Yahoo! и Bing) к вашему контенту. Однако вредоносные боты просто игнорируют его и все равно просматривают ваш контент. Таким образом, существует риск того, что ваши личные данные могут быть удалены, скомпилированы и повторно использованы под видом добросовестного использования. Если вы хотите, чтобы ваш контент был на 100% безопасным, вам следует ввести более безопасные меры (например, добавить регистрацию на сайте, скрыть контент под паролем и т. д.).

Распространенные ошибки

Вот наиболее распространенные ошибки, которые допускают люди при создании файлов robots.txt. Внимательно прочитайте эту часть.

1) Использование прописных букв в имени файла. Имя файла — robots.txt. Период. Не Robots.txt и не ROBOTS.txt

2) Не помещать файл robots.txt в основной каталог

3)  Заблокировать весь ваш веб-сайт (если вы этого не хотите), оставив инструкцию запрета следующим образом

4)  Неверное указание user-agent

5)  Упоминание нескольких каталогов в одной строке запрета. Для каждой страницы или каталога нужна отдельная строка

6)  Оставить строку агента пользователя пустой

7) Список всех файлов в каталоге. Если вы скрываете весь каталог, вам не нужно заморачиваться перечислением каждого отдельного файла

8)  Без упоминания о строке запрета инструкций

9)  Не указана карта сайта внизу файла robots. txt

10)  Добавление инструкций noindex в файл

Ограничить индексирование с помощью метатега robots и X-Robots-tag

Использование метатега robots noindex или X-Robots-tag страницу, но предотвратить попадание страницы в индекс, т.е. от появления в результатах поиска.

Теперь давайте рассмотрим каждый вариант поближе.

Метатег robots noindex

Метатег robots noindex размещается в исходном коде HTML вашей страницы (раздел). Процесс создания этих тегов требует совсем немного технических знаний и может быть легко выполнен даже младшим SEO-специалистом.

Как это работает

Когда бот Google получает страницу, он видит метатег noindex и не включает эту страницу в веб-индекс. Страница по-прежнему сканируется и существует по указанному URL-адресу, но не будет отображаться в результатах поиска независимо от того, как часто на нее ссылаются с любой другой страницы.

Примеры метатегов robots

Добавление этого метатега в HTML-код вашей страницы указывает роботу поисковой системы проиндексировать эту страницу и все ссылки переход с этой страницы.

Изменяя «follow» на «nofollow», вы влияете на поведение бота поисковой системы. Вышеупомянутая конфигурация тега указывает поисковой системе индексировать страницу, но не переходить ни по каким ссылкам, размещенным на ней.

Этот метатег указывает роботу поисковой системы игнорировать страницу, на которой он размещен, но переходить по всем размещенным на нем ссылкам.

Этот тег, размещенный на странице, означает, что ни страница, ни содержащиеся на ней ссылки не будут отслеживаться или индексироваться.

Примечание: Упомянутые выше атрибуты Nofollow и Follow не имеют ничего общего с rel=nofollow. Это две разные вещи. Rel=nofollow применяется к ссылкам, чтобы предотвратить передачу ссылочного веса. Упомянутый выше атрибут nofollow применяется ко всей странице и не позволяет сканерам переходить по ссылкам.

X-Robots-tag

Помимо метатега robots noindex, вы можете скрыть страницу, настроив ответ HTTP-заголовка с X-Robots-Tag со значением noindex или none .

Помимо страниц и элементов HTML, X-Robots-Tag позволяет не индексировать отдельные файлы PDF, видео, изображения или любые другие файлы, отличные от HTML, где использование метатегов robots невозможно.

Как это работает

Механизм очень похож на механизм тега noindex. Как только поисковый бот заходит на страницу, ответ HTTP возвращает заголовок X-Robots-Tag с инструкциями noindex. Страница или файл все еще сканируются, но не отображаются в результатах поиска.

Примеры тегов X-Robots

Это наиболее распространенный пример ответа HTTP с указанием не индексировать страницу.

HTTP/1.1 200 OK

(…)

X-Robots-Tag: noindex

(…)

Вы можете указать тип поискового бота, если вам нужно скрыть свою страницу от определенных ботов. В приведенном ниже примере показано, как скрыть страницу от любой другой поисковой системы, кроме Google, и запретить всем ботам переходить по ссылкам на этой странице:

X-Robots-Tag: googlebot: nofollow

X-Robots-Tag: otherbot: noindex, nofollow

Если вы не укажете тип робота, инструкции будут действительны для всех типов сканеров.

Чтобы ограничить индексирование определенных типов файлов на всем веб-сайте, вы можете добавить инструкции ответа X-Robots-Tag в файлы конфигурации программного обеспечения веб-сервера вашего сайта.

Вот как вы ограничиваете все файлы PDF на сервере на базе Apache:

  Заголовок set X-Robots-Tag «noindex, nofollow»

И это те же инструкции для NGINX:

location ~* \.pdf$ {

  add_header X-Robots-Tag » noindex, nofollow»;

}

Чтобы ограничить индексацию одного элемента, для Apache используется следующий шаблон:

# файл htaccess должен быть помещен в каталог соответствующего файла.

  Набор заголовков X-Robots-Tag «noindex, nofollow»

А вот как вы ограничиваете индексацию одного элемента для NGINX:

location = /secrets/unicorn.pdf {

  add_header X-Robots-Tag «noindex, nofollow»;

}

Тег robots noindex против X-Robots-Tag

Хотя тег robots noindex кажется более простым решением для ограничения индексации ваших страниц, в некоторых случаях использование X-Robots-Tag для страниц является лучший вариант :

  • Не индексировать весь поддомен или категорию. X-Robots-Tag позволяет вам делать это массово, избегая необходимости помечать каждую страницу одну за другой;
  • Нет индексирования файла, отличного от HTML. В этом случае X-Robots-Tag — не лучший, а единственный вариант, который у вас есть.

Тем не менее, помните, что только Google точно следует инструкциям X-Robots-Tag. Что касается остальных поисковых систем, то нет гарантии, что они правильно интерпретируют тег. Например, Seznam вообще не поддерживает теги x-robots. Поэтому, если вы планируете, чтобы ваш веб-сайт отображался в различных поисковых системах, вам необходимо использовать тег robots noindex 9.0060 во фрагментах HTML.

Распространенные ошибки

Наиболее распространенные ошибки пользователей при работе с тегами noindex:

1) Добавление неиндексируемой страницы или элемента в файл robots.txt. Robots.txt ограничивает сканирование, поэтому поисковые боты не будут заходить на страницу и видеть директивы noindex. Это означает, что ваша страница может быть проиндексирована без содержания и по-прежнему отображаться в результатах поиска.

Чтобы проверить, попала ли какая-либо из ваших папок с тегом noindex в файл robots.txt, проверьте Инструкции для роботов в разделе Структура сайта > Страницы WebSite Auditor.

Загрузить WebSite Auditor


Примечание: Не забудьте включить экспертные опции и снять флажок «Следовать инструкциям robots. txt» при сборке проекта, чтобы инструмент видел инструкции, но не следовал им.

2) Использование прописных букв в директивах тегов. Согласно Google, все директивы чувствительны к регистру, поэтому будьте осторожны.

Особые случаи

Теперь, когда с основными проблемами индексации контента все более-менее понятно, перейдем к нескольким нестандартным случаям, заслуживающим отдельного упоминания.

1)  Убедитесь, что страниц, которые вы не хотите индексировать, не включены в вашу карту сайта . На самом деле карта сайта — это способ сообщить поисковым системам, куда идти в первую очередь при сканировании вашего сайта. И нет причин просить поисковых ботов посещать страницы, которые вы не хотите, чтобы они видели.

2) Тем не менее, если вам нужно деиндексировать страницу, которая уже присутствует в карте сайта, не удаляйте страницу из карты сайта, пока она не будет повторно просканирована и деиндексирована поисковыми роботами. В противном случае деиндексация может занять больше времени, чем ожидалось.

3) Защитите паролем страницы, содержащие личные данные. Защита паролем — самый надежный способ скрыть конфиденциальный контент даже от тех ботов, которые не следуют инструкциям robots.txt. Поисковые системы не знают ваших паролей, поэтому они не попадут на страницу, не увидят конфиденциальный контент и не выведут страницу в поисковую выдачу.

4) Чтобы поисковые роботы не индексировали саму страницу, но переходили по всем ссылкам на странице и индексировали контент по этим URL-адресам , настройте следующую директиву

Это обычная практика для внутренних страниц результатов поиска, которые содержат много полезных ссылок, но сами по себе не несут никакой ценности.

5) Для конкретного робота могут быть указаны ограничения индексации. Например, вы можете заблокировать свою страницу от новостных ботов, ботов с изображениями и т. д. Имена ботов могут быть указаны для любого типа инструкций, будь то файл robots.txt, метатег robots или X-Robots-Tag.

6) Не используйте тег noindex в A/B-тестах , когда часть ваших пользователей перенаправляется со страницы A на страницу B. Так как если noindex сочетается с 301 (постоянной) переадресацией, то поисковые системы получат следующие сигналы:

  • Страница A больше не существует, так как она навсегда перемещена на страницу B;
  • Страница B не должна быть проиндексирована, так как она имеет тег noindex.

В результате обе страницы A и B исчезают из индекса.

Чтобы правильно настроить A/B-тест, используйте переадресацию 302 (временную) вместо 301. Это позволит поисковым системам сохранить старую страницу в индексе и вернуть ее, когда вы закончите тест. Если вы тестируете несколько версий страницы (A/B/C/D и т. д.), используйте тег rel=canonical, чтобы отметить каноническую версию страницы, которая должна попасть в поисковую выдачу.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *