Скрыть страницу от индексации: Как и зачем нужно удалять некоторые страницы из индекса – robots.txt, Google meta- | Дропшиппинг

Содержание

Как скрыть от поисковых систем часть контента на странице (текст, часть страницы, ссылки)? И зачем?

На некоторых сайтах имеет смысл скрыть часть контента от поисковых систем.

Как скрыть часть контента на страницах сайта от роботов поисковых систем?

Для каких целей следует скрывать содержание?

Разберемся с вопросами далее.

Зачем скрывать контент сайта от индексации?

Контент на сайте скрывается от поисковых систем для достижения различных целей.

Если скрыть часть контента от поискового краулера, то алгоритмы ранжирования обработают не всю страницу, а лишь ее часть. В результате поисковый оптимизатор может извлечь выгоду.

Если от поисковых систем часть сайта скрывается, то для пользователей весь контент остается полностью видимым.

Итак, какой контент имеет смысл скрывать и зачем? Например:

Ссылки для улучшения внутренней перелинковки на сайте. Улучшение достигается за счет оптимизации распределения статического ссылочного веса на сайте;
Часть текста для повышения релевантности страницы;
Часть страницы для улучшения ранжирования. Например, скрытие рекламных блоков со страницы, которые находятся в верхней части страницы. Если такие рекламные блоки не скрывать, то поисковая система после рендеринга на так называемом первом экране распознает нерелевантный контент, что не позволит сайту ранжироваться лучше;
Часть страницы для защиты от санкций поисковых систем. Например, часто требуется скрывать исходящие ссылки на различные сайты.

Есть еще множество различных ситуаций при которых требуется скрывать от поисковых систем часть страницы

Например, поисковые системы пессимизируют сайты с реферальными ссылками. Такие сайты зарабатывают на партнерских отчислениях. С точки поисковых систем таких как Google подобные сайты не несут никакой дополнительной ценности для пользователя, а значит и не должны находиться среди лидеров поиска.

Если реферальные ссылки скрыть, проблем не будет.

Как скрыть от поисковых систем часть страницы?

На практике скрыть контент сайта от индексации можно используя разные способы.

Наиболее распространенным способом по скрытию текста от поисковых систем является использование подгрузки текста по параметру в хеш-ссылке. Исходя из заявлений Google, протокол HTTP/HTTPS не был разработан для такого использования, поэтому при использовании данного метода индексация не происходит.

Наиболее распространенным способом

по скрытию ссылки от поисковых систем является использование контейнера div при создании ссылки.

Но что делать, если речь идет о создании системы для скрытия контента?

Какую технологию использовать? Основные требования следующие:

У пользователя на экране должен отображаться весь контент страницы сайта;
Для поисковой системы должен отдаваться не весь контент страницы сайта;
Способ должен быть условно белым, чтобы сложнее было найти повод для санкций.

В результате оптимальной технологией является та технология, которая официально:

Не поддерживается движком поисковой системы;
Поддерживается популярными браузерами.

Ситуация ухудшается тем, что Google обновил поисковый краулер. Теперь Google выполняет скрипты, написанные на современном JavaScript.

Рекомендованный материал в блоге MegaIndex по теме обновления краулера по ссылке далее — Google обновил поисковый краулер. Что изменилось? Как это повлияет на ранжирование?

Все приведенные способы основаны на принципах работы поискового краулера.

Но лазейка все еще есть. В результате обновления стала известна информация о принципах работы поискового краулера, используя которую можно сделать выводы о том, какие именно технологии поисковый робот не поддерживает, а значит не передает в систему ранжирования.

До начала этапа ранжирования происходит ряд процессов.

Весь процесс обработки информации до этапа ранжирования выглядит так:

После рендеринга происходит передача данных в систему ранжирования.

Если после рендеринга часть документа отсутствует, значит данная часть документа не будет участвовать и в ранжировании.

Теперь требуется разобраться с тем, какую технологию пока еще

не поддерживает движок рендеринга. Применяя такую технологию на практике можно скрывать часть содержания страниц сайта от поисковой системы.

Итак, скрыть любую часть страницы от поисковой системы можно используя так называемые service workers.

Что такое сервис-воркеры? Сервис-воркеры — это событийный управляемый веб-воркер, регистрируемый на уровне источника и пути. Сервис-воркер может контролировать сайт, с которым ассоциируется, перехватывать и модифицировать запросы навигации и ресурсов.

Да, я вижу ваши лица. Подождите пугаться.

Если упростить, то сервис-воркером является программируемый сетевой проксификатор.

Иными словами, применяя сервис-воркер можно контролировать контент, который передаются пользователю.

В результате применения сервис-воркеров контент может изменяться. Поисковая система же обрабатывает такие корректировки, так как не поддерживает выполнения таких скриптов.

Почему метод эффективен в применении на практике? Сервис-воркеры поддерживаются всеми популярными браузерами и не поддерживаются движком рендеринга поисковой системы Google, через который данные передаются в систему ранжирования.

Следующие браузеры поддерживают сервис-воркеры:

Chrome;
Android Chrome;
Opera;
Safari;
iOS Safari;
Edge;
Firefox.

Задача поискового оптимизатора заключается в следующем:

Найти элементы, которые требуется скрыть от поисковой системы;
Если такие элементы есть, то передать задачу в отдел разработки и оповестить про способы реализации на практике;

Протестировать работу на примере одного документа путем использования программного решения Chrome Dev Tools или путем анализа кеша страницы в Google после индексации.

Вопросы и ответы

Есть ли официальные заявления о том, что Google действительно не поддерживает сервис-воркеры

Да, такие заявление являются публичными и есть на видео.

Зачем нужны сервис-воркеры?

На сайтах серивс-воркеры используют для разных целей. Например, для адаптации сайта под ситуацию с прерванным доступом к интернету.

Если интернет пропал, то при использовании сервис-воркеров сайты могут вести себя как приложения на мобильных устройствах, то есть отдавать уже скачанный контент и сигнализировать о необходимости подключения.

На практике сервис-воркеры используются еще и для кеширования изображений.

Еще используя сервис-воркеры можно сохранять данные заполненных форм и отправлять их в интернет при появлении подключения. Для реализации используется

Background Sync API. Цепь следующая:

Сайт - Index DB - Service Worker - Интернет

Еще сервис-воркеры вместе с Content-Length и Range можно использовать для загрузки больших файлов частями. Например, так можно защищать видео от копирования.

Еще сервис-воркеры используются для отправки push уведомлений.

Кстати, сервис-воркеры продолжают работать даже когда окно браузера закрыто.

Кто использует сервис-воркеры?

Например сервис-воркеры используются на таких сайтах как:

Google;
YouTube;
Twitter;
Booking;
Facebook;
Washington Post;

Как скрыть весь сайт от поисковых систем?

В редких случаях сайты полностью могут быть закрыты от поисковых роботов. Например так защищают площадки от Роскомнадзора при продвижении сайтов различных спортивных тематик. Если стоит задача скрыть всю страницу или весь сайт от конкретных роботов, то наиболее эффективный способ заключается в запрете индексации на уровне сервера. Рекомендованный материал в блоге MegaIndex по теме защиты сайта от парсинга различными роботами по ссылке далее — Эффективные способы защиты от парсинга сайта.

Кстати, краулер MegaIndex индексирует больше ссылок за счет того, что для робота MegaIndex доступ к сайтам не закрыт.

Почему так происходит? Поисковые оптимизаторы используют различные плагины для того, чтобы закрыть ссылки от таких сервисов как SEMrush, Majestic, Ahrefs. В таких плагинах используются черные списки. Если вести речь про глобальный рынок, то MegaIndex является менее расхожим сервисом, и поэтому часто краулер MegaIndex не входит в черный список. Как результат, применяя сервис MegaIndex у поисковых оптимизаторов есть возможность найти те ссылки, которые не находят другие сервисы.

Ссылка на сервис — Внешние ссылки.

Еще выгрузку ссылок можно провести посредством API. Полный список методов доступен по ссылке — MegaIndex API. Метод для выгрузки внешних ссылок называется backlinks. Ссылка на описание метода — метод backlinks.

Пример запроса для сайта indexoid.com:

http://api.megaindex.com/backlinks?key={ключ}&domain=indexoid.com&link_per_domain=1&offset=0

Пример запроса для сайта smmnews.com:

http://api.megaindex.com/backlinks?key={ключ}&domain=smmnews.com&link_per_domain=1&offset=0

Выводы

С обновлением Googlebot скрыть ссылки, текст и другие части страниц сайта от поисковой системы стало сложнее, но лазейки есть. Поисковый движок рендеринга по прежнему не поддерживает сервис-воркеры.

Используя service workers с запросами можно проводить следующие манипуляции:

Отправлять;
Принимать.
Модифицировать.

Применяя сервис-воркеры можно скрыть от поисковых систем ссылки, текст, и даже блок страницы.

Итак, в результате при необходимости поисковый оптимизатор может:

Закрыть от индексации внешние ссылки с целью улучшения распределения статического ссылочного веса;
Закрыть от индексации страницы тегов с низкой частотностью;
Закрыть от индексации страницы пагинации;
Скрытый текст или часть текста от индексации;
Закрыть от индексации файлы;
Закрыть от индексации блок и часть страницы;
Скрыть от индексации реферальные ссылки.

Сервис-воркеры можно использовать и в целях улучшения производительности сайта. Например, намедни Google стал использовать сервис-воркеры в поисковой выдаче.

Схема одного из интересных трюков выглядит так:

Вы искали ресторан, например утром;
Спустя время, вы снова искали ресторан, например по той причине, что забыли о том, где находится заведение. На данном шаге Google выдаст результаты из кеша, который управляется сервис-воркером. Как результат, данные выдаются без отправки запроса в интернет.

Преимущества следующие:

Снижается нагрузка на сервер Google, что приводит к снижению затрат;
Увеличивается скорость загрузки страницы с ответом. Повышается лояльность пользователя;
Страницы откроется даже без интернета. Повышается лояльность пользователя.

Остались ли у вас вопросы, замечания или комментарии по теме скрытия части содержания страниц от поисковых систем?

Как закрыть сайт или страницу от индексации в Google и Яндекс

Существует множество причин, по которым возникает необходимость скрыть от поисковых роботов ту или иную часть сайта, а может и полностью весь ресурс. Если на сайте размещен неуникальный контент, его нужно спрятать от поисковиков, в обязательном порядке скрывают технические страницы, админки и прочее. Если на сайте имеется повторяющийся элемент контента, то такие страницы также лучше скрыть.

В арсенале имеется несколько способов скрытия контента, отдельных страниц или сайта полностью.

Скрываем от поисковых роботов домен

Мы представляем вам несколько способов закрыть домен от индексации:

Использовать файл robots.txt.
В файле прописываем строки:

User-agent: *

Disallow: /

— Такой синтаксис позволяет скрыть ресурс полностью от всех поисковых систем. Существует вариант для каждой поисковой системы отдельно. Для этого необходимо прописать отдельную строку к каждому поисковику:

User-agent: yandex

Disallow: /

— Следующая комбинация позволяет скрыть сайт от всех поисковых машин,кроме одной определенной:

User-agent: *

Disallow: /

User-agent: Yandex

Allow: /

Чтобы ваш сайт действительно не попал в индекс, файл роботс должен быть написан строго по синтаксису, иначе вы рискуете продемонстрировать поисковым роботам нежелательные страницы ресурса.

Использование мета-тега

Также домен закрывается от индексации путем добавление в код страницы мета-тега:

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

Мета-тег размещается в HEAD кода HTML той страницы, которую необходимо скрыть. Такой метод удобнее применять, когда необходимо скрыть отдельные страницы.

Использование .htaccess

Такой способ позволяет закрывать отдельные страницы, защищенные паролем, от поисковых роботов. Особенность данного метода заключается в том, что процедура ввода пароля доступна не всем парсерам, следовательно, полностью проверить ресурс на наличие ошибок будет невозможно.

Процесс закрытия текста от поисковых машин

На сегодняшний день имеется возможность скрыть от индекса любую часть текстового контента, будь то меню, ссылки, текст и прочее. В этом случае метод с использованием <noindex> не эффективен. На данном этапе активно используется закрытие от индексации посредством Javaskript. Производится кодирование элементов с помощью JS в виде отдельных скриптов, которые скрываются от индекса с помощью Robots.txt.

Данный метод хорошо применять, к примеру, для большого количества ссылок, чтобы было удобней распределять их вес по страницам. Это поможет избежать путаницы. Остальные элементы также можно скрывать от индексации, будь то обычный текст, пункты меню, ссылки и даже изображения.

Хотя этот метод и считается одним из самых удобных, но Google рекомендует избегать его, так как пользователи должны видеть на сайте файлы формата JS и CSS.

Как скрыть отдельную страницу?

Для закрытия отдельной страницы от роботов лучше всего использовать Robots.txt и мета-тег <noindex>.

Первый вариант подразумевает под собой использование следующей комбинации, которая включает в себя элемент для скрытия (в данном случае это ссылка на страницу):

User-agent: ag

Disallow: http://site.com/page

После добавления такого текста в файл роботс, скорее всего желаемая страница будет скрыта от поисковых роботов, но стопроцентной гарантии нет.

Лучший вариант – это использование мета-тега:

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

Благодаря мета-тегу файл роботс не будет нагружен лишними элементами, так как он добавляется HEAD HTML страницы. Robots.txt может перегружаться, когда нужно скрыть не одну страницу, а, к примеру, 100-200 и более.

Как скрыть раздел по параметру URL?

Если страницы имеют общий параметр, по которому их можно объединить, то можно поступить следующим образом:

Рассмотрим пример, когда в определенном разделе сайта расположена информация, которую необходимо скрыть от индексации. Она объединяется единой папкой или разделом.

Чтобы скрыть весь раздел или папку необходимо прописать такие строки в роботс:

Disallow: /папка/ или Disallow: /Раздел/*

Для полной гарантии скрытия файлов от индексации, лучше воспользоваться еще одним методом с мета-тегом:

META NAME=»ROBOTS» CONTENT=»NOINDEX”

Такую строку добавляют в HTML-код каждой страницы, которую нужно скрыть.

Дополнительные способы скрыть страницы сайта от поисковых роботов

Существует еще несколько способов закрытия информации от индекса, но они относятся к более рискованным, нежели упомянутые выше. Можно заблокировать запросы от User-agents, которых нежелательно пропускать на сайт, к примеру, они несут какую-то опасность ресурсу или же перегружают систему лишними запросами.

Для скрытия информации на сайте используйте только те методы, которые не вызывают у вас сомнения, чтобы ненужный контент не попал в поле зрения поисковых ботов.

Любой поисковик, парсер и т.п. можно назвать вредоносным и не подпустить его к сайту. Только если вы уверены в своих действиях и имеете опыт в этом деле, тогда можно использовать данный метод. В ином случае вы рискуете еще больше навредить сайту, нежели защитить его от роботов наподобие Ахревса и прочих.

Применение HTTP-заголовка

X-robots-Tag – это часть HTTP-заголовка, которая соответствует определенному URL. Все директивы, которые содержит в себе мета-тег роботс, применяются и к данному заголовку. В X-robots-Tag прописывается агент пользователя, для которого страница не будет высвечиваться в выдаче.

Выводы

Существует множество причин, по которым весь сайт или определенную его страницу необходимо скрыть от поисковых систем. Для улучшения позиций сайта в выдаче такие действия бывают обязательны, так как может быть риск попадания неуникальных элементов сайта на общее обозрение. Это может привести к ухудшению позиций ресурса. Бывает, что просто какой-то элемент нужно скрыть с глаз пользователей, так как он является частью технического содержания сайта.

Способы, которые мы рассмотрели, являются основными и универсальными для всех случаев. Некоторые из них более просты и актуальны для постоянного применения (к примеру, использование дополнительных директив в файле robots.txt или же использование мета-тега).

Стоит отметить, что использование роботс не всегда удобно в применении и не может гарантировать стопроцентное скрытие ресурса от поисковых ботов. Поэтому в качестве страховочного варианта используют мета-тег <noindex>, который дает больше гарантий, что к роботам не попадет ненужная информация.

Если дело касается скрытия всего сайта или нескольких страниц, тогда отличным вариантом будет использование роботс. Если же вам необходимо скрыть много страниц, объединенных единым параметром, тогда лучше использовать noindex и не перегружать файл роботс множеством директив.

Остальные способы стоит применять с большой осторожностью, чтобы не навредить ресурсу, к примеру, блокировка запросов от различных юзер-агентов. Такая манипуляция оградит вас от вероятных вредоносных систем, но также подвергнет другим рискам, если вы недостаточно компетентны в этом деле.

Кроме целых сайтов и страниц данные методы помогают скрыть отдельные папки и разделы сайта.

Как закрыть страницу от индексации

Здравствуйте друзья! Не все знают, как закрыть страницу от индексации на блоге и зачем это нужно. В сегодняшней статье мы разберем, какой вред приносят для блога нетематические статьи. Почему они влияют на продвижение блога в сети и как писать нетематические статьи на блоге если очень хочется.

Нетематические и тематические статьи на блоге

Давно не писал статей на тему блогосферы, на тему продвижения блога, немного соскучился. К тому же на блоге есть подписчики, которым интересны статьи именно на тему продвижения блога. Сегодня мы поговорим о том, можно ли писать на блоге нетематические статьи. А если можно, то, как сделать так, чтобы для блога была польза. Поговорим о том, как закрыть страницу от индексации, если она будет приносить блогу вред.

Итак, всем блоггерам известно, что блог должен быть на определенную тематику, отражать вопросы заранее выбранной ниши. Казалось бы, на нём должны постоянно публиковаться именно тематические статьи. Вместе с тем, согласно Википедии, блог это веб-сайт, на котором регулярно публикуются статьи и он больше похож на дневник ведущего его блоггера.

Естественно, блоггер пишет не только тематические статьи, но и рассказывает о своей жизни, о своих путешествиях, об интересных новостях и это правильно. Когда я обучался в Тренинг Центре «Твой Старт» на тему создания и продвижения блога, то нам говорили, что на блоге допустимо писать до 15% нетематических статей. Поэтому впоследствии на моём блоге тоже публиковались нетематические статьи примерно в указанном объёме.

Конечно, нетематические статьи, отчеты несут в себе много положительных моментов:

читателям блога интересно читать и узнавать, как живет автор, какие у него есть увлечения, где он бывает на отдыхе;
такие статьи разряжают обстановку, ведь читатели иногда устают от однообразия деловых статей, кроме того, можно узнать много интересного о природе России, много интересного о зарубежных странах;
нетематические статьи часто привлекают большой трафик на блог, и хоть он нецелевой, но многим читателям становится интересна тематика блога и они становятся постоянными его читателями и подписчиками, согласитесь это еще и полезно;
исходя из практики замечено, что нецелевые читатели ждут новых статей, например, на тему путешествий и снова приходят на блог, увеличивается число кликов по рекламным баннерам на блоге, соответственно растет доход от рекламы;
эти статьи задерживают внимание посетителей блога, соответственно, увеличивается количество просмотренных страниц и время просмотра, то есть улучшается поведенческий фактор на блоге;
такое общение с читателями блога поднимает авторитет владельца блога, к нему растет доверие со стороны читателей и подписчиков, как результат, владелец блога больше зарабатывает.

Вместе с тем, нетематические статьи приносят и вред блогу, поисковые запросы становятся более размытыми. Поисковые системы не всегда понимают, так какая же ниша у блога? Особенно это ярко проявляется, когда блог еще молодой, в глазах поисковика не понятно семантическое ядро блога и ниша. В этом случае блог просто не продвигается, естественно не растет посещаемость.

Не секрет, что требования поисковых систем к блогам и сайтам от года к году ужесточаются и то, что работало пару лет назад, сегодня не работает. Например, мой блог год назад имел суточную посещаемость более 700 посетителей в сутки, а иногда и более 800, сегодня посещаемость снизилась в несколько раз. Сейчас посещаемость составляет в среднем 180 посетителей за сутки, а выходные снижается до 120, а ведь на блоге более 500 статей. И это притом, что на блоге за год добавилось больше сотни статей.

Проведя аудит блога со специалистом, проведя анализ с помощью нового Яндекс вебмастера, мы пришли к выводу, что нужно нетематические статьи закрыть от индексации. Этим самым почти до нуля снизить нецелевые поисковые запросы по моему блогу.

к оглавлению ↑

Как закрыть страницу от индексации

Итак, в этом разделе статьи мы рассмотрим вопрос, как закрыть страницу от индексации в WordPress, если у вас установлен плагин by Yoast SEO. Этот плагин использует сейчас большинство блоггеров. Хотя эту работу можно сделать точно так же с помощью любого другого SEO плагина, установленного на Вашем сайте (блоге).

Вы можете настроить запрет индексации страниц, как новых, так и старых. Если Вы увидели, что посещаемость Вашего блога не растет, а новые статьи пишутся регулярно, то стоит проанализировать поисковые запросы по нетематическим статьям. Если их много, то нужно запретить индексацию старых страниц (статей). Если Вы хотите написать новую нетематическую статью, то опять же, закрываем страницу от индексации.

Чтобы закрыть страницу от индексации, необходимо перейти в редактор. Если мы хотим закрыть от индексации старые статьи, то выбираем режим «Все записи», находим нужную статью и нажимаем «Изменить». Далее переходим в самый низ статьи и нажимаем на шестеренку плагина by Yoast SEO, открывается новое окно.

Необходимо запретить индексацию страниц для Яндекса и для Google отдельно. Для этого для Яндекса выбираем тег «noindex», а для Google «nofollow» (смотрите скрин) или представленное ниже видео.

После этого не забываем нажать на кнопку «Обновить». Точно так же прописываем теги «noindex» и «nofollow» для новой статьи, только там нужно будет нажать кнопку справа вверху «Сохранить».

Как показывает опыт, старые статьи постепенно начнут выпадать из индекса и их в поиске не будет. Например, у меня все статьи ушли из индекса Яндекса и Google через пару недель? Были статьи, которые ушли через три дня. Вместе с тем, на нетематические статьи иногда заходят посетители через проиндексированные ранее картинки или через рубрики, но это уже в разы меньше, чем было до запрета.

к оглавлению ↑

Заключение

В данной статье мы увидели, что поисковые системы стали строже относиться к нетематическим запросам. В статье было показано, как закрыть страницу от индексации с помощью плагина by Yoast при написании статьи. Можно убрать и старые статьи из индексации.

Не бойтесь писать нетематические статьи. Если Вы закроете их от индексации, они не принесу вреда Вашему блогу, а люди всегда их найдут. Во-первых, они получат анонсы статей через RSS рассылку, во-вторых, они придут через социальные сети. Если Вы захотите, можете разместить анонсы статей на новостном портале Subscribe, оттуда на статью придут десятки, а то и сотни новых читателей.

Если в поисковых системах будут только тематические запросы, то Ваш блог будет быстрее и лучше продвигаться. Думаю, этим не стоит пренебрегать. В моём случае это была ошибка – индексация не тематических статей. Всё хорошо работало до декабря 2015 года. Позже поисковики видимо изменили свои алгоритмы и не тематические статьи стали приносить больше вреда, чем пользы.

С уважением, Иван Кунпан.

P.S. Если у Вас есть вопросы по правильному созданию и продвижению блога, скачайте мою интеллект карту «Пошаговый алгоритм создания блога для новичков«.

Получайте новые статьи блога прямо себе на почту. Заполните форму, нажмите кнопку «Подписаться»

Вы можете почитать:

Какие страницы закрывать от индексации и как

Любая страница на сайте может быть открыта или закрыта для индексации поисковыми системами. Если страница открыта, поисковая система добавляет ее в свой индекс, если закрыта, то робот не заходит на нее и не учитывает в поисковой выдаче.

При создании сайта важно на программном уровне закрыть от индексации все страницы, которые по каким-либо причинам не должны видеть пользователи и поисковики.

К таким страницам можно отнести административную часть сайта (админку), страницы с различной служебной информацией (например, с личными данными зарегистрированных пользователей), страницы с многоуровневыми формами (например, сложные формы регистрации), формы обратной связи и т.д.

Пример:
Профиль пользователя на форуме о поисковых системах Searchengines.

Обязательным также является закрытие от индексации страниц, содержимое которых уже используется на других страницах.Такие страницы называются дублирующими. Полные или частичные дубли сильно пессимизируют сайт, поскольку увеличивают количество неуникального контента на сайте.

Пример:
Типичный блог на CMSWordPress, который содержит дубли.
http://reaktivist.ru/ — главная страница.
http://reaktivist.ru/category/liniya-zhizni — страница категории.

Как видим, контент на обеих страницах частично совпадает. Поэтому страницы категорий на WordPress-сайтах закрывают от индексации, либо выводят на них только название записей.

То же самое касается и страниц тэгов– такие страницы часто присутствуют в структуре блогов на WordPress. Облако тэгов облегчает навигацию по сайту и позволяет пользователям быстро находить интересующую информацию. Однако они являются частичными дублями других страниц, а значит – подлежат закрытию от индексации.

Еще один пример – магазин на CMS OpenCart.
Страница категории товаров http://www.masternet-instrument.ru/Lampy-energosberegajuschie-c-906_910_947.html.
Страница товаров, на которые распространяется скидка http://www.masternet-instrument.ru/specials.php.
Данные страницы имеют схожее содержание, так как на них размещено много одинаковых товаров.

Особенно критично к дублированию контента на различных страницах сайта относится Google. За большое количество дублей в Google можно заработать определенные санкции вплоть до временного исключения сайта из поисковой выдачи.

Мы рекомендуем закрывать страницу от индексации, если она содержит более 40 % контента с другой страницы. В идеале структуру сайта нужно создавать таким образом, чтобы дублирования контента не было вовсе.

Примечание:
Для авторитетных сайтов с большим количеством страниц и хорошей посещаемостью (от 3000 человек в сутки) дублирование не столь существенно, как для новых сайтов.

Еще один случай, когда содержимое страниц не стоит «показывать» поисковику – страницы с неуникальным контентом. Типичный пример — инструкции к медицинским препаратам в интернет-аптеке. Контент на странице с описанием препарата http://www.piluli.ru/product271593/product_info.html неуникален и опубликован на сотнях других сайтов.

Сделать его уникальным практически невозможно, поскольку переписывание столь специфических текстов – дело неблагодарное и запрещенное. Наилучшим решением в этом случае будет закрытие страницы от индексации, либо написание письма в поисковые системы с просьбой лояльно отнестись к неуникальности контента, который сделать уникальным невозможно по тем или иным причинам.

Как закрывать страницы от индексации

Классическим инструментом для закрытия страниц от индексации является файл robots.txt. Он находится в корневом каталоге вашего сайта и создается специально для того, чтобы показать поисковым роботам, какие страницы им посещать нельзя. Это обычный текстовый файл, который вы в любой момент можете отредактировать. Если файла robots.txt у вас нет или если он пуст, поисковики по умолчанию будут индексировать все страницы, которые найдут.

Структура файла robots.txt довольно проста. Он может состоять из одного или нескольких блоков (инструкций). Каждая инструкция, в свою очередь, состоит из двух строк. Первая строка называется User-agent и определяет, какой поисковик должен следовать этой инструкции. Если вы хотите запретить индексацию для всех поисковиков, первая строка должна выглядеть так:

User-agent: *

Если вы хотите запретить индексацию страницы только для одной ПС, например, для Яндекса, первая строка выглядит так:

User-agent: Yandex

Вторая строчка инструкции называется Disallow (запретить). Для запрета всех страниц сайта напишите в этой строке следующее:

Disallow: /

Чтобы разрешить индексацию всех страниц вторая строка должна иметь вид:

Disallow:

В строке Disallow вы можете указывать конкретные папки и файлы, которые нужно закрыть от индексации.

Например, для запрета индексации папки images и всего ее содержимого пишем:

User-agent: *
Disallow: /images/

Чтобы «спрятать» от поисковиков конкретные файлы, перечисляем их:

User-agent: *
Disallow: /myfile1.htm
Disallow: /myfile2.htm
Disallow: /myfile3.htm

Это – основные принципы структуры файла robots.txt. Они помогут вам закрыть от индексации отдельные страницы и папки на вашем сайте.

Еще один, менее распространенный способ запрета индексации – мета-тэг Robots. Если вы хотите закрыть от индексации страницу или запретить поисковикам индексировать ссылки, размещенные на ней, в ее HTML-коде необходимо прописать этот тэг. Его надо размещать в области HEAD, перед тэгом <title>.

Мета-тег Robots состоит из двух параметров. INDEX – параметр, отвечающий за индексацию самой страницы, а FOLLOW – параметр, разрешающий или запрещающий индексацию ссылок, расположенных на этой странице.

Для запрета индексации вместо INDEX и FOLLOW следует писать NOINDEX и NOFOLLOW соответственно.

Таким образом, если вы хотите закрыть страницу от индексации и запретить поисковикам учитывать ссылки на ней, вам надо добавить в код такую строку:

<meta name=“robots” content=“noindex,nofollow”>

Если вы не хотите скрывать страницу от индексации, но вам необходимо «спрятать» ссылки на ней, мета-тег Robots будет выглядеть так:

<metaname=“robots” content=“index,nofollow”>

Если же вам наоборот, надо скрыть страницу от ПС, но при этом учитывать ссылки, данный тэг будет иметь такой вид:

<meta name=“robots” content=“noindex,follow”>

Большинство современных CMS дают возможность закрывать некоторые страницы от индексации прямо из админ.панели сайта. Это позволяет избежать необходимости разбираться в коде и настраивать данные параметры вручную. Однако перечисленные выше способы были и остаются универсальными и самыми надежными инструментами для запрета индексации.

Как скрыть от поисковых систем часть контента на странице (текст, часть страницы, ссылки)? И зачем?

Зачем скрывать контент сайта от индексации?

Как скрыть от поисковых систем часть страницы?

Вопросы и ответы

Есть ли официальные заявления о том, что Google действительно не поддерживает сервис-воркеры

Зачем нужны сервис-воркеры?

Кто использует сервис-воркеры?

Как скрыть весь сайт от поисковых систем?

Выводы

Как закрыть сайт или страницу от индексации в Google и Яндекс

Скрываем от поисковых роботов домен

Процесс закрытия текста от поисковых машин

Как скрыть отдельную страницу?

Как скрыть раздел по параметру URL?

Дополнительные способы скрыть страницы сайта от поисковых роботов

Применение HTTP-заголовка

Выводы

Как закрыть страницу от индексации

Нетематические и тематические статьи на блоге

Как закрыть страницу от индексации

Заключение

Какие страницы закрывать от индексации и как

Как закрывать страницы от индексации

Добавить комментарий Отменить ответ