Используем noindex для закрытия Яндекса ненужного контента
Noindex – это имя размещаемого в HTML-коде интернет-страницы тега, целью которого является запрет на индексацию определенных элементов интернет-ресурса – к примеру, части текста. То есть такой тег не дает поисковому роботу проиндексировать часть информации, размещенной на веб-сайте.
Чтобы закрыть часть «плохого» для Yandex контента нужно обернуть его в ноиндекс:
<noindex><div>рекламный блок</div></noindex>
Чтобы сделать код валидным и соответствующим стандартам W3C нужно изменить код тега noindex на
<--noindex--><--/noindex-->
Для чего используется Noindex?
Причин скрывать часть информации, которую содержит веб-сайт, может быть множество. К примеру, на сайте могут содержаться незначительные данные, которые предполагают предъявление к нему претензий со стороны поисковой системы. Или же часть информации, которую веб-мастер блокирует от индексации, может каким-либо образом негативно влиять на ранжирование интернет-ресурса.
Как работает тег Noindex?
Информация, которую веб-мастер хочет скрыть, заключается в два тега – открывающий и закрывающий. Все те данные, которые будут находиться между ними, будут исключены из поля зрения некоторых систем поиска.
Данный тег учитывается не всеми поисковыми системами, поскольку он является отечественной разработкой. То есть, если веб-мастеру необходимо скрыть часть данных от поискового бота, то с помощью Noindex это можно сделать для Яндекса и Рамблера. Зарубежные системы поиска, в том числе и Google, Yahoo!, этот тег проигнорируют. Чтобы скрыть часть контента от их индексации, придется пользоваться другими инструментами.
Для зарубежных систем поиска основным таким инструментом является тег robots, но его принцип действия несколько иной. Действовать он будет не на конкретную область интернет-страницы сайта, а на всю ту страницу, на которой будет расположен. Прописывается он в оглавлении веб-страницы.
Эффективное применение Noindex
Существует масса авторитетных сайтов, дающих пользователям право на свободное заполнение своих страниц. Если они имеют высокую посещаемость и пользуются доверием у поисковиков, чтобы оставаться на том же высоком уровне, им необходимо все время «держать марку». Множество веб-разработчиков, которые занимаются «черной оптимизацией» своих интернет-ресурсов, могут на таких сайтах размещать рекламные ссылки или иную бесполезную информацию, заспамливать эти публичные ресурсы. И если не использовать тег Noindex для того, чтобы публичные страницы веб-ресурса были исключены из индексирования, репутация таких площадок может серьезно пострадать. Поэтому веб-резработчики крупных блогов, порталов, форумов, электронных энциклопедий заранее продумывают способы оптимизации публичных интернет-страниц своих ресурсов под Яндекс. Одним из таких способов и является использование тега Noindex. При его применении авторитет ресурса так и останется на высоком уровне, но и его публичность не пострадает. Тем более что его использование позволит быстро избавиться от проблемы спама, в то время как ручное редактирование страниц – очень медленный процесс.
on Пятница, 27 Январь 2017. Posted in Продвижение сайтов
Noindex Tag / Ноиндекс Тег
TL;DR
Ноиндекс представляет собой тег, который можно разместить на странице сайта, чтобы избежать его видимости в результатах поиска. Он используется для контроля над проиндексированными страницами сайта, и это легко сделать, поместив на страницу кусок кода, например, мета-тег или заголовок HTTP-ответа.
Что такое тег noindex?
Ноиндекс представляет собой метатег, который можно легко добавить на сайт, чтобы исключить определенные страницы из индексации поисковых систем.
Почему веб-сайт должен использовать тег Noindex?
Ноиндексный тег предоставляет гибкость всем владельцам сайтов в отношении того, какой тип контента должен отображаться в поисковых системах, а также позволяет контролировать доступ к сайту по страницам.
Как только тег Noindex добавляется к определенной странице, паук поисковой системы (например, Googlebot) сканирует эту страницу и видит этот тег; он полностью удаляет эту страницу из результатов поиска Google.
Какие страницы могут иметь ноиндекс, не влияя на рейтинг сайта? Если тег «noindex» не добавляется на нужную страницу (или добавляется неправильно), нежелательная информация может оказаться в результатах (или весь сайт может оказаться невидимым в поисковой системе, в зависимости от того, как это было реализовано). Итак, вот некоторые страницы, которые может не захотелось индексировать:
- Описания авторов: если на сайте есть только один автор (или несколько активных), то каждый раз, когда публикуется сообщение, их описание также может быть добавлено на страницу, и это может быть воспринято как дубликат контента ползунами. Опция go-to — не индексировать страницу/описание автора.
- Пользовательские страницы или скрытые страницы: Если вы создали какой-то ограниченный контент для определенной аудитории, то, возможно, вы захотите сохранить его только для нее и не делать видимым в поисковых системах.
- Отказ от страницы подписки или страницы благодарности: это страницы, на которые люди должны попасть только один раз, и их содержание не является ценным или релевантным с точки зрения содержания. Некоторые сайты также предпочитают не индексировать страницы входа или регистрации.
- Внутренние результаты поиска. Если у сайта есть строка поиска, и для каждого поискового запроса, есть сгенерированная страница, которая индексируется; это может закончиться разрушением ранга сайта. Таким образом, шумоподавление может быть хорошей идеей.
Как реализовать ноиндекс?
Есть два способа реализации ноиндекса: в виде метатега и в виде заголовка ответа HTTP, исходя из того, что удобнее для сайта.
Чтобы большинство поисковых роботов не смогли проиндексировать страницу сайта, поместите следующий метатег в раздел <head> страницы: <meta name=»robots» content=»noindex»>.
Некоторые поисковые веб-краулеры могут интерпретировать директиву noindex по-разному. Поэтому настоятельно рекомендуется искать рекомендации по noindex в каждой поисковой системе, в которой заинтересованы пользователи, чтобы убедиться, что их страницы не будут отображаться в результатах поиска.
Важное замечание! По мнению Google, для того, чтобы тег noindex был эффективен, страница не должна быть заблокирована файлом robots.txt, потому что гусеничный просмотрщик никогда не увидит директиву noindex, и страница все равно может появиться в результатах поиска.
Кошмар SEO: когда NoIndex становится плохим
Обозреватель Эрик Энге обсуждает распространенные проблемы, возникающие из-за неправильной реализации тега noindex.
Эрик Энге 9 марта 2015 г., 9:03 | Время чтения: 6 минут
В нужное время и в нужном месте тег noindex может оказаться замечательным. К сожалению, бывают случаи, когда это может вызвать проблемы.
За последние несколько лет мне довелось поработать на нескольких сайтах с количеством страниц, исчисляемым сотнями миллионов. Причины, по которым люди позволяют своим сайтам разрастаться до таких размеров, многочисленны и разнообразны. Вот некоторые из наиболее распространенных причин, по которым это в конечном итоге происходит:
- Издатель пытается максимизировать свою способность ранжироваться по долгосрочным терминам.
- Издатель считает, что широкий уровень усовершенствований полезен для пользователей.
- На сайте используется неограниченная система тегов, которая позволяет использовать любые комбинации тегов (даже явно нелогичные комбинации) для создания уникальных новых страниц.
- В реализации сайта есть ошибки, которые приводят к непреднамеренному созданию страниц.
Когда сайты становятся такими большими, это часто означает, что многие страницы имеют очень небольшую компенсационную ценность или что различия между группами страниц в данном разделе почти тривиальны.
Рассмотрим, например, страницу о «синих приспособлениях для мытья бутылочек для левшей, размер 10» и «зеленых приспособлениях для мытья бутылочек для левшей, размер 10». Пользователи могут захотеть выбрать свой цвет, но на самом деле это не должно требовать создания совершенно новой веб-страницы. Я видел ситуации, когда отношение общего количества страниц к возможно полезным страницам достигало 10:1!
Проблема с такими страницами заключается в том, что они могут привести к тому, что ваш сайт будет помечен Google как некачественный контент.
Это может означать потерю видимости из-за алгоритма Panda или даже ручное наказание. Ни то, ни другое не является хорошей вещью!Noindexing Not The Answer
Один из способов избежать штрафных санкций — поставить тег noindex на страницы, которые вы не хотите включать в индекс Google. Предполагая, что вы можете определить все страницы, которые могут вызвать беспокойство Google, это устранит риск ручного штрафа или попадания в алгоритм Panda, но этого недостаточно. Давайте рассмотрим три основные причины, почему:
1. Ослабление фокуса PageRank. Одним из распространенных сценариев является то, что «плохие» страницы связаны со списком продуктов.
При правильной обработке ссылки в этом списке указывают на страницы, которые очень тесно связаны и очень релевантны странице, на которую ведут ссылки, и заслуживают индексации, как показано здесь:
Теперь есть вероятность, что каждая страница вашего сайт будет иметь несколько ссылок, которые указывают на вашу домашнюю страницу, вашу страницу «о нас», вашу страницу «свяжитесь с нами», политику конфиденциальности и другие менее тематические страницы, такие как те.
Не поймите меня неправильно, эти ссылки являются важной частью структуры вашего сайта, поэтому их наличие — это хорошо. Тем не менее, ссылки на эти страницы продуктов в пределах релевантных по теме навигационных путей («Тематически релевантные ссылки на ключевые страницы денег») действительно ценны. Вы не хотите тратить их впустую.
Проблема начинается, когда некоторые ссылки в списке товаров являются страницами, которые не достойны индексации. Вы можете решить проблемы, связанные со штрафами, с помощью тега noindex, но в конечном итоге вы потеряете часть этого PageRank. Вот пример страницы, иллюстрирующий проблему:
На приведенном выше примере 20 % актуальных ссылок на ключевые страницы с деньгами указывают на непроиндексированную страницу. Этот PageRank в основном полностью потрачен впустую. Почему? Давайте посмотрим, что происходит на этой непроиндексированной странице:
Некоторая часть PageRank потребляется самой неиндексированной страницей, и хотя неиндексированная страница все еще может передавать остальную часть PageRank другим страницам через ссылки, подавляющее большинство этих ссылок ведет на страницы, отличные от ваших. ключевые страницы денег, как я показал в примере выше.
2. PageRank перешел в Never-Never Land. Растрата PageRank от релевантных ссылок на страницы с ключевыми деньгами уже достаточно плоха, но это не единственная проблема. На очень больших сайтах может возникнуть ситуация, когда Google не просканирует весь ваш сайт, как показано здесь:
Как показано на этом изображении, Google достигает точки, в которой сканирование прекращается. Он просто решил, что на сайте слишком много страниц, чтобы двигаться дальше. Тем не менее, страницы в нижней части дерева, где сканирование останавливается, по-прежнему передают имеющийся у них PageRank другим страницам, которые Google не сканирует и не будет сканировать. Этот PageRank эффективно передается в никогда-никогда, и он также тратится впустую.
3. Увеличивает пропускную способность сканирования. Google по-прежнему сканирует страницы с тегом NoIndex на странице. Если у вас есть большой процент страниц на вашем сайте, которые не проиндексированы, Google будет тратить время на сканирование этих страниц, а не на сканирование страниц, которые действительно могут ранжироваться для вас.
Это может повредить вам, когда вы вносите серьезные изменения на свой сайт, которые вы хотите, чтобы Google увидел и обработал, или когда вы добавляете новый раздел на сайт. Для большинства сайтов Google сканирует только небольшую часть сайта в определенный день, поэтому если он тратит часть своего «краулингового бюджета» на страницы, которые не имеют для них никакого значения, это может значительно замедлить процесс обнаружения великих страниц. новые внесенные вами изменения.
Rel=Canonical Not So Good Both
Альтернативным решением для тега NoIndex является внедрение тега Google rel=canonical, чтобы сообщить Google, что данная страница должна рассматриваться как копия или подмножество другой страницы. В принципе, это здорово, потому что при этом сохраняется весь PageRank, связанный со страницей, и передается обратно странице, на которую ссылается тег. Есть две проблемы с этим:
- Rel=canonical предназначен для использования только в тех случаях, когда страница с тегом является точной копией или подмножеством страницы, на которую ссылается тег. Не рекомендуется использовать его в ситуациях, когда это не так.
- Даже если страницы, с которыми вы пытаетесь работать, являются строгими подмножествами страниц, которые вы хотите сохранить, Google считает rel=canonical предложением и может проигнорировать это предложение. К сожалению, это не редкость, и, по моему опыту, это часто случается с такими очень большими веб-сайтами.
Иногда вам просто нужно проглотить пулю
Иногда вам просто нужно взять на себя задачу навести порядок. Это также может принести огромные дивиденды, как показано на этой диаграмме трафика:
Мы сократили количество страниц на этом сайте более чем на 90%, с сотен миллионов страниц до десятков миллионов. Похоже, Google понравилось!
Потребуются значительные усилия разработчиков, чтобы исправить такую ситуацию; однако мой опыт показывает, что вознаграждение обычно оправдывает усилия.
Мнения, высказанные в этой статье, принадлежат приглашенному автору и не обязательно принадлежат Search Engine Land. Штатные авторы перечислены здесь.
Добавьте Search Engine Land в свою ленту новостей Google.
Истории по теме
Новое в поисковой системе
Об авторе
Как не индексировать страницу, абзац или PDF?
Каждый владелец веб-сайта хочет, чтобы страницы его веб-сайта занимали высокие позиции в результатах поиска (SERP). Но некоторые страницы не нужно индексировать и ранжировать в результатах поиска. Это могут быть страницы с конфиденциальной информацией, информацией о ценах, странице благодарности или странице оформления заказа, некоторые статистические данные о компании, которые должны быть доступны только внутри организации, и т. д. Вы узнаете, как не индексировать страницу или определенный абзац на веб-странице.
Содержание
Как не индексировать страницу?
Иногда вам нужно скрыть некоторые страницы от индексации в результатах поиска. В этом случае вам нужно сделать NoIndex для этих веб-страниц. Существует два способа сделать веб-страницы без индекса, как показано здесь:
1. Добавить тег NoIndex
Это наиболее часто используемый способ сделать веб-страницу без индекса. Таким образом, вам нужно добавить тег noindex
в качестве директивы в исходный код вашей веб-страницы. Этот тег noindex
необходимо добавить в раздел
вашей веб-страницы. Таким образом, Google и другие поисковые системы могут видеть и подчиняться этому noindex
в начале исходного кода веб-страницы.
Если вы хотите сделать NoIndex для определенного бота, а не для всех, тогда ваш тег noindex должен выглядеть так:
Вы должны помнить одну вещь: если вы добавите этот тег noindex
на веб-страницу, вы не должны блокировать эту веб-страницу в файле robots.txt. В противном случае ваша веб-страница с директивой noindex может ранжироваться в результатах поиска, поскольку Google не сканирует эту веб-страницу.
2. Заголовок ответа HTTP со значением
noindex
Другой способ сделать NoIndex веб-страницы — вернуть заголовок X-Robots-Tag
со значением noindex
.
HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
.1 200 OK
(…)
X-Robots-Tag: googlebot: noindex
(…)
Как не индексировать абзац?
На самом деле нет никакого способа сделать NoIndex абзаца или части текста с помощью тега noindex
на вашей веб-странице. Но вы можете выделить определенный абзац или текст, который не будет отображаться в результатах поиска, который доступен на вашей веб-странице, используя HTML-атрибут data-nosnippet
.
Взгляд Джона Мюллера на то, как не индексировать абзац?
В недавнем видеоролике Google SEO, посвященном рабочему времени, пользователь задал вопрос о том, что определенный абзац на веб-странице не индексируется. Вопрос был примерно таким: «Есть ли способ пометить этот абзац как не индексировать на моей веб-странице?», как будто я не хочу, чтобы Google показывал контент из этого конкретного абзаца в своем фрагменте поиска.
Джон ответил на этот запрос с двумя возможными вариантами, как указано ниже:
1. Использовать HTML-атрибут Data NoSnippet
Джон Мюллер ответил на этот запрос с первым вариантом, используя data-nosnippet, который следует использовать, если вы этого не сделаете. хотите показать определенный текст
или абзац в фрагменте поиска Google.
Не совсем так, по крайней мере, нет прямого способа сделать это, так что вы можете использовать данные без фрагмента, чтобы сказать, что это то, что вы не хотите показывать во фрагменте, которого может быть достаточно в много случаев.
Джон Мюллер
Этот абзац не будет отображаться в результатах поиска Google.
2. Используйте файл Javascript
Кроме того, Джон добавил еще один способ не индексировать определенный абзац или текст, добавив этот конкретный текст в файл JavaScript и заблокировав этот файл JavaScript в файле robots. txt. Таким образом, Google не будет сканировать текст в этом файле JavaScript, и он не будет отображаться во фрагменте поиска.
Если это действительно контент, которого вы должны избегать, чтобы иметь там индекс, например, если есть причины лицензирования или другие юридические причины, почему он никогда не должен индексироваться таким образом, одна из вещей, которые вы можете сделать, это использовать JavaScript для извлечения этого контента и использования robots.txt, чтобы заблокировать сканирование этого файла JavaScript.
Джон Мюллер
Но вы должны использовать файл JavaScript только в критических ситуациях, таких как юридические причины, по которым его нельзя индексировать.
Как не индексировать PDF?
На вашем веб-сайте могут быть PDF-файлы в дополнение к веб-страницам. Иногда вам может потребоваться запретить индексирование некоторых PDF-файлов, если вы не хотите показывать этот PDF-файл в результатах поиска.