Noindex яндекс валидный: Валидный тег NOINDEX для Яндекс — Программирование

Содержание

NOINDEX и NOFOLLOW в Яндексе — Валидный тег noindex для Яндекса

NOINDEX и NOFOLLOW в Яндексе

В последнее время в Яндексе произошли некоторые изменения. В частности, теперь поисковая система Yandex учитываеть атрибут NOFOLLOW у ссылок, что принципиально важно. Кроме того, Яндекс порадовал веб-мастеров появлением валидного тега NOINDEX — вернее, исправлением ранее сделаной нелепости, когда был введен HTML-тег «ноуиндекс», который не проходит проверки валидатором. Теперь у web-мастера есть возможность создать полностью валидный сайт и использовать все преимущества, которые дают нововведения Яндекса.

Как сделать сайт с noindex полностью валидным?

Напомним, что html-тег НОИНДЕКС (не путать с одноименным мета-тегом!) был введен российскими поисковыми системами Rambler и Yandex для закрытия от индексации части контента на странице. Им удобно пользоваться, закрывая счетчики или рекламу, тем самым убирая не полезный для сайта контент из индекса Яндекса.

Поисковая система Гугл на ноуиндекс не обращает никакого внимания.

Использование не валидного ноуиндекса Яндексом и Рамблером доставлято немало беспокойств любителям перфекционизма: сайт с этим тегом не проходил проверку на валидность согласно спецификации W3C (это основной стандарт HTML). Теперь положение дел изменилось: согласно рекомендациям самого Яндекса, ХТМЛ-тег <NOINDEX> можно использовать в валидном виде, как комментарий. Вот как это делается:
<!—noindex—>текст, который не будет индексироваться Яндексом<!—/noindex—>.

Как создать Valid Site? Чтобы сделать полностью валидный сайт, необходимо и достаточно изменить на нем все вхождения noindex’а согласно приведенной выше спецификации, как это сделано на этом сайте, либо не использовать «

ноуиндекс» вообще (для англоязычных сайтов no-index не имеет смысла применять). После этого сайт следует проверить валидатором http://validator.w3.org/. Ссылка на первоисточник, руководство Яндекса для вебмастеров, вот: http://help.yandex.ru/webmaster/?id=1111858 . По ней же можно узнать, ято теперь Яндекс понимает nofollow, что сильно сказывается на позициях некоторых сайтов.

Теперь Яндекс понимает nofollow. Чем это чревато?

Атрибут контейнера A «но-фоллоу» указывается как rel=»nofollow» и служит для указания поисковой системе, что по данной ссылке следовать не стоит. Согласно этой же странице руководства Yandex’а, теперь атрибут «ноуфоллоу» теперь принимается в расчет при ранжировании (опять же: не путать его с одноименным мета-тегом!). Что это значит? Теперь ссылки, имеющие атрибут NOFOLLOW, практически не будут передавать веса странице сайта-акцептора. И это нововведение Яндекса имеет далеко идущие последствия.

По всей видимости, массовый ссылочный спам в блоги, в которых, как известно, внешние ссылки почти всегда перекрываются атрибутом nofollow, не будет иметь никакого смысла: трафика оттуда и так нет, и ссылочный вес теперь не передается. Почти наверняка ссылки с НОФОЛЛОУ не будут учитываться при расчете ТИЦ. В этом поисковая система Яндекс стала близка Гуглу, который ввел практику учета nofollow уже давно.

Во-вторых, часть сайтов, которые держались на спамных ссылках с no-follow, неминуемо потеряют позиции в Яндексе. Как следствие — часть трафика и, соответственно, позиции и в Гугле, но менее заметно. Соответственно, ценность так называемых DOFOLLOW блогов в глазах оптимизаторов возрастет. Для продвижения сайтов это скорее хорошо, чем плохо, и в любом случае должно учитываться вебмастерами при оптимизации. Гугл рекомендует использовать ноу-фолоу для закрытия продажных (покупных) и сомнительных ссылок.

Валидный NOINDEX проходит валидацию

Валидность документа не что иное как один из показателей качества сайта на котором он расположен, поэтому ею не следует пренебрегать. Не валидный документ может некорректно отображаться в некоторых браузерах (в большей степени это касается старых типов).

Кроме этого большое количество ошибок в коде на которые указывает валидатор может послужить причиной попадания под фильтр яндекса. Гоогле к этим вещам относится терпимей и его санкции не настолько жестоки и выйти из под них намного легче.

Если ваш сайт не проходит валидацию из-за частого употребления тега NOINDEX пора задуматься о его замене валидным аналогом. Тогда и овцы будут целы — весь закрытый этим тегом контент не будет индексироваться яндексом, и волки сыты — другие поисковые боты и валидатор не найдут в вашем коде ошибок.

Как сделать тег noindex валидным

Для тех кто не в теме напомню, для того чтобы определенный участок текста или кода на странице не индексировался Яндексом его закрывают в специальный им самим выдуманный тег:

Не валидный тег noindex:

<noindex>Ваш текст или код закрытый не валидным тегом</noindex>

Этот прием для закрытия от индексации определенного участка страницы с текстом использовался и до сих пор используется многими веб мастерами.
А зря поскольку уже порядочное время как появился валидный аналог тега noindex, на который валидатор не ругается и который не воспринимается им как ошибка в коде, поскольку он имитирует простой комментарий html разметки страницы.

О нем так-же написано в разделе помощи Яндекса, но увы некоторые веб мастера или до сих пор не знают о нем или пренебрегают даваемыми там советами

Валидный тег noindex выглядит так:

<!--noindex-->Ваш текст или код закрыт валидным тегом<!--/noindex-->

Все гениальное просто и если вы до сих пор еще используете старый вариант этого тега не поленитесь заменить его на аналог который будет валиден.

Многие оспаривают целесообразность использования тега noindex на страницах сайта, а некоторые эксперименты показали, что иногда текст и ссылки закрытые этим тегом все-равно индексируются Яндексом, но используя тег noindex валидность которого очевидна вы ни чем не рискуете.

Намного больше вас рискуют (потерей чего догадайтесь сами) те, кто продолжает смотреть дом 2 онлайн бесплатно, неужели вам это интересно, меня лично хватило только на 3 первых выпуска этой программы когда это был еще дом 1 а второй я уже даже и не начинал смотреть.

Запрет на индексацию | Google и Яндекс » Интернетчик

Внимание! У Вас нет прав для просмотра скрытого текста.

Высшая ценность в Интернете – это уникальность текста

И вот почему:

1. Во-первых, кроме Яндекса есть ещё поисковый алгоритм Google, которому абсолютно «до лампочки» тег noindex. Как быть с Google? Получается, что тег noindex – инструмент половинчатый и помощник только для алгоритма Яндекса. В остальном-же, этот тег – это бесполезная игрушка.
2. Во-вторых, народ в Сети давно уже приспособился ко всевозможным уловкам против «железобетонных» неизменяемых текстов. Например, публиковать их в виде картинок. Сайт tehlit.ru (ГОСТы и техническая литература России) – так этот вообще, сделан одними только изображениями и весь его контент – это сканированные копии страниц из всяких там технических стандартов.
3. А в-третьих, и это самое главное – приготовьтесь, я щас открою страшную тайну.

Оказывается, 95% самой ценной информации, которую только накопило человечество за все своё существование – изменить уже никак нельзя. Вся техническая, медицинская и другая многочисленная специальная, справочная и учебная литература – это как раз и есть те самые «железобетонные тексты», за изменение которых людям дают докторские и прочие научные степени, а иногда даже – большие деньги.

И, никак нельзя изменить «без спрося», ни состав лекарства, ни текст рецепта на него. и, нельзя изменить техническое описание никакого товара или способа для его производства. Также, нельзя изменить текст главной новости дня на новостных сайтах и текст речи президента, равно как и него местонахождение. Очень и очень много есть текстов, в которых нельзя менять ни единой буквы, ни , тем более – слова. Кроме, разве что «высокохудожественного» трёпа на форумах и в блогах по SEO-оптимизации.

Так что теперь – ничего не публиковать, кроме этой самой форумной и блоговой болтовни? Ведь только там теперь и остаются уникальные тексты для поисковых машин. Или, публиковать всё-таки можно, но только – под угрозой санкций со стороны поисковика за не уникальность текста?

Да так рассуждая, и Яндекс и Google уже давно должны были «побанить» все веб-ресурсы, кроме сайтов с картинками, Википедии да уникальных блогов сеошников, у которых весь копипаст обернут нужными тегами.

НО! Этого не происходит. Видимо, не всё так страшно и печально. Достаточно открыть Интернет и вчитаться в пару-тройку любых новостей, чтобы понять – поисковые системы далеко не глупы. И страшную тайну про неизменяемые тексты поисковики знают, лучше всех остальных. Кому-же, как не им её знать. И, они вовсе не торопятся «бомбить» сайты с похожим и даже – одинаковым контентом. Иначе, нужно просто позакрывать весь 1 000 000 000 сайтов и поставить дворника с метлой в Сети у входа в Интернет.

Но, если так, тогда зачем, господа хорошие, весь этот сыр-бор с тегом noindex и закрыванием какого-то там служебного текста? Оказывается, дело лишь в облегчении работы поисковой машины при составлении описания страницы для поискового индексирования. Наказания за это не предусмотрено.

Вот!

Загадки Яндекса и Google для noindex и nofollow
Как было уже сказано в самом начале статьи, Загадки Яндекса и Google для noindex и nofollow заключаются в том, что никто толком не знает, как влияют эти теги и атрибуты на общее ранжирование и подсчёт веса веб-страницы в отдельности и сайта, в целом.
И, что будет лучше – позакрывать, к едрёен батон, всё и вся.
Или, всё-таки, может быть – что-то оставить?
После некоторых раздумий я пришёл к выводу, что внешние ссылки на более авторитетные и раскрученные веб-источники, помогающие раскрыть тему статьи и имеющие, так сказать её логическое продолжение – закрывать в noindex и nofollow не нужно. Это, как в реальной жизни – дружить с сильными ребятами выгодно. Даже ничего не делая, сильный товарищ добавляет мощи слабому.

Но, если это коммерческая ссылка,
ведущая на голимый ГС –
такую ссылку обязательно нужно закрыть в noindex и nofollow.
А, ещё лучше – вообще не ставить.
Кстати, такого-же мнения придерживаются многие вебмастера от «белого» SEO.
Вес страницы и внешние ссылки (мысли вслух)
Закрывание внешних ссылок в noindex и nofollow связано для вебмастера только с одним желанием – сохранить вес страницы, якобы отражающийся на общем рейтинге сайта у поисковых систем. Про «Вес страницы» с утра до вечера говорят на всевозможных форумах, но реально, что такое «Вес страницы» и как он подсчитывается у поисковиков – не знает никто. Доподлинно известно, что внешние ссылки важны и положительно учитываются для продвижения сайта вперёд, в SERP (СЕРП). Вот только это должны быть ссылки по теме, а не всё подряд.
Всевозможные SEO-оптимизаторы понапридумали кучу всяческих способов (бесплатных и за деньги), чтобы оттягать на себя побольше внешних ссылок. До оптимизировались уже до того, что Яндекс вообще скоро перестанет учитывать внешние ссылки не в тему страницы, а в некоторых случаях – и наказывать за избыток внешних ссылок «не по теме». Действительно, ну как это может женский каталог ссылаться на сайт про дровяное отопление, или сайт военно-патриотического клуба ссылаться на магазин ханского белья? Пусть, приведённые примеры слишком грубы, но лично я никогда не верил в подобные способы SEO-продвижения веб-ресурсов.
Нет логики. Суета сует.
Чем переводить кучу времени на заигрывание с поисковой системой по её постоянно меняющимся правилам – лучше накропать парочку уникальных статей в тему своего сайта или блога. В блоге у одного известного SEO-мастера, я вычитал интересную мысль – поисковиком засчитывается не тупо внешняя ссылка на сайт, а количество переходов по ней. Таким образом, если реальный пользователь в дискуссии на форуме поставит ссылку и по ней придут три десятка или сотни посетителей – это будет гораздо лучше, чем все каталоги мира, вместе взятые.
noindex и nofollow – самые загадочные персонажи разметки html-страницы.
Предназначены они для исключения из поискового индекса текстового материала, ссылок и целых веб-страниц. А загадка заключается в том, что никто толком не знает, как поведёт себя поисковый робот, наткнувшись на noindex и nofollow на веб-странице. Поисковые машины Яндекса и Google всё время изменяют свои алгоритмы по учёту и подсчёту веса и рейтинга страницы и сайта, для которых эти noindex и nofollow, собственно и нужны.

Тег noindex не входит в спецификацию HTML-языка

Тег noindex – это не валидное изобретение Яндекса, который предложил использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один.

noindex – не валидное изобретение Яндекса
Итак, тег noindex используется поисковой машиной Яндекс (и только ею)
для исключения текста или его части из своего поискового индекса.

Тег noindex – парный тег, закрывающий тег – обязателен!
Учитывая не валидность своего бедного тега,
Яндекс соглашается на оба варианта его написания:
Не валидный вариант – <noindex></noindex>,
и валидный вариант – <!— noindex —><!—/ noindex —>.
Хотя, во втором случае – лошади понятно, что для гипертекстовой разметки HTML, это уже никакой не тег, а так просто – html-комментарий на веб-странице.

Действие и применение тега noindex

Как утверждает справочная по Яндекс-Вебмастер, тег noindex используется для запрета индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги <noindex></noindex> удаляется поисковой машиной из поискового индекса.

Что это за такой служебный текст и насколько нужен, важен и действенен тег noindex при закрывании части текстового материала от поисковой индексации – трудно сказать. В этом месте, все веб-мастера начинают растекаться мыслью по древу, да и сам Яндекс не может ничего внятно объяснить. Единственное практическое применение такому тегу я нашёл в прятанье от поисковика анкоров (видимой части) «левых коммерческих ссылок» в конструкцию, вида
<noindex><a href=»http://example.ru» rel=»nofollow»>анкор</a></noindex>.

А был ли мальчик?
(сомнительный тег noindex)
Некоторые веб-мастера рекомендуют оборачивать тегом noindex такие части текста, которые невозможно изменить и которые – часто встречаются (или могут встречаться) на других веб-ресурсах. Прежде всего, это – цитаты из других сайтов или блогов, всевозможные выдержки из всяких правил, справочной литературы или технических стандартов (вида ГОСТов, ОСТов, СНиПов, СанПиНов и т.д.). Говорят, что в этом случае – использование тега noindex помогает повысить общий процент уникальности текста страницы в глазах Яндекса.

Что-же, это логично. Поверить в это можно.
Вот только польза от этого сомнительная.
И вот почему:

1. Во-первых, кроме Яндекса есть ещё поисковый алгоритм Google, которому абсолютно «до лампочки» тег noindex. Как быть с Google? Получается, что тег noindex – инструмент половинчатый и помощник только для алгоритма Яндекса. В остальном-же, этот тег – это бесполезная игрушка.
2. Во-вторых, народ в Сети давно уже приспособился «железобетонные» тексты публиковать в виде картинок, и к тому подобным уловкам. Например, сайт http://www.tehlit.ru/ tehlit.ru (ГОСТы и техническая литература России) – так этот вообще, сделан одними только изображениями и весь его контент – это сканированные копии страниц из всяких там технических стандартов.
3. А в-третьих, и это самое главное – приготовьтесь, я щас открою страшную тайну.
Оказывается, 95% самой ценной информации, которую только накопило человечество – изменить уже никак нельзя. Вся техническая, медицинская и вся иная специальная, справочная и учебная литература – это как раз и есть те «железобетонные тексты», за изменение которых людям дают докторские и прочие научные степени, а иногда даже – много денег.
Нельзя изменить, ни состав лекарства, ни текст рецепта на него. Нельзя изменить техническое описание никакого товара или способа его производства. нельзя изменить текст главной новости дня на новостных сайтах и нельзя изменить текст речи президента. Нельзя изменить вообще никаких текстов, кроме «высокохудожественного» трёпа на форумах и в блогах по SEO-оптимизации.
Так что теперь – ничего не публиковать, кроме болтовни в блогах и на форумах? Ведь только там и остаются уникальные тексты для поисковых машин. Или, публиковать всё-таки можно, только – под угрозой санкций со стороны поисковика за не уникальность текста?

Да так рассуждая, и Яндекс и Google уже давно должны были «побанить» все веб-ресурсы, кроме сайтов с картинками, Википедии да уникальных блогов сеошников, у которых весь копипаст обернут нужными тегами.
НО! Этого не происходит. Видимо, не всё так страшно. Достаточно открыть Интернет и вчитаться в пару-тройку любых новостей, чтобы понять – поисковые системы далеко не глупы. И страшную тайну про неизменяемые тексты поисковики знают, лучше всех остальных. Кому-же, как не им её знать. И они вовсе не торопятся «бомбить» сайты с похожим и даже – одинаковым контентом. Иначе, нужно просто позакрывать весь 1 000 000 000 сайтов и оставить дворника с метлой у Сети Интернет.
Но, если так, зачем тогда весь этот сыр-бор с тегом noindex и закрыванием какого-то служебного текста? Оказывается, дело лишь в облегчении работы поисковой машины при составлении описания страницы для поискового индексирования. Наказания за это не предусмотрено.

Использование метатег noindex
В отличие от простого тега, с применением noindex в качестве метатега дело обстоит гораздо проще и понятнее. По крайней мере, абсолютно ясно и достоверно, что использование noindex в качестве метатега на странице сайта или блога даёт хороший результат и уверенно выбивает такую страницу из поискового индекса Яндекса.
<meta name=»robots» content=»noindex»/>
Текст страницы, с метатегом noindex в заголовке – Яндекс не индексирует.
Закрывание ненужных страниц веб-ресурса очень важно для его SEO-оптимизации.
Рекомендовано к применению на технических и сервисных страницах движка сайта, не представляющих абсолютно никакой поисковой ценности. К техническим и сервисным страницам относятся страницы с неудобоваримым или дублирующим контентом и предназначенные исключительно для удобства и обслуживания посетителей и пользователей веб-ресурса. В основном, это страницы для переписки и рассылки, отображения статистики и объявлений, страницы пользовательской сортировки материала, а также страницы с комментариями, личными данными пользователей, личными настройками на сайте и т.д.

Разница в действии тега и метатега noindex
Действие тегов <noindex></noindex> распространяется только на текст внутри тегов.
Пример <noindex>Этот текст будет не проиндексирован</noindex>
Действие метатега noindex распространяется на всю веб-страницу.
Пример метатега noindex приведен выше.
Дополнительно, разница в действии тега и метатега проявляется в различиях алгоритма по их обработке поисковой машиной Яндекса. В случае с метатегом, робот просто уходит со страницы, совершенно не интересуясь её содержимым (по крайней мере – так утверждает сам Яндекс). А, вот в случае с использованием обычного тега <noindex> – робот начинает работать с контентом на странице и фильтровать его через своё «ситечко». В момент скачивания, обработки контента и его фильтрации возможны ошибки, как со стороны робота, так и со стороны сервера. Ни что ведь не идеально в этом мире.
Поэтому, с фильтрацией части текста страницы, заключённого в теги <noindex></noindex> – могут возникнуть осложнения и такой кусок текста запросто может попасть Яндексу «на зуб» для дальнейшей поисковой индексации. Как утверждает сам Яндекс – это временное неудобство будет сохраняться до следующего посещения робота. Чему я не очень охотно верю, потому как некоторые мои тексты и страницы, с тегом и метатегом noindex – висят в Яндексе по нескольку лет.

Особенности в действии тега и метатега noindex
Интересен тот факт, что действие тега и метатега noindex распространяется только на видимую часть текста, так сказать – на видимые печатные знаки. Картинки, ссылки и весь медиа-контент – будут проиндексированы поисковиком, как ни в чём не бывало – со всеми вытекающими последствиями. Чтобы запретить роботу Яндекса переходить по ссылкам на веб-странице, потребуется ещё к тегу noindex добавить тег nofollow.
Пример тега noindex+ nofollow для отдельной ссылки приведён выше.
Пример метатегов для всей страницы из Яндекс-Вебмастера:
<meta name=»robots» content=»noindex»/> – не индексировать текст страницы,
<meta name=»robots» content=»nofollow»/> – не переходить по ссылкам на странице.
Или, <meta name=»robots» content=»noindex, nofollow «/>, что аналогично
<meta name=»robots» content=»none»/> – запрещено индексировать текст и переходить по ссылкам на странице
Вот такие вот, сложности и страхи.

Тег и метатег noindex для Google
Что-же касается поисковика Google, то он никак не реагирует на присутствие тега noindex, ни в заголовке, ни в теле веб-страницы. Google остаётся верен своему валидному тегу nofollow, который он понимает, и в качестве метатега в заголовке веб-страницы, и в качестве атрибута у её ссылок (тег «а»). После некоторого скрипения своими жерновами, Яндекс сдался и тоже признал существование тега и атрибута nofollow, который не даёт поисковым роботам переходить по ссылкам на странице и индексировать их.

nofollow – не переходить по ссылкам
Проверить гугл-счётчик
Тег и атрибут nofollow предназначен для закрытия от индексации ссылок в Google и Яндекса. Вернее сказать – для запрета перехода поискового робота по ссылке. Ни один робот не пойдёт по ссылке, если у неё имеется атрибут nofollow, или вся страница закрыта метатегом nofollow.
И Google, и Яндекс прекрасно знают и управляются с nofollow
Пример, метатега nofollow для все страницы приведён выше.
Пример тега nofollow для отдельной ссылки с сдерём из Яндекс-Вебмастера:
Рисунок

Загадки Яндекса и Google для noindex и nofollow
Как было уже сказано в самом начале статьи, Загадки Яндекса и Google для noindex и nofollow заключаются в том, что никто толком не знает, как влияют эти теги и атрибуты на общее ранжирование и подсчёт веса веб-страницы в отдельности и сайта, в целом.
И, что будет лучше – позакрывать, к едрёен батон, всё и вся.
Или, всё-таки, может быть – что-то оставить?

После некоторых раздумий я пришёл к выводу, что внешние ссылки на более авторитетные и раскрученные веб-источники, помогающие раскрыть тему статьи и имеющие, так сказать её логическое продолжение – закрывать в noindex и nofollow не нужно. Это, как в реальной жизни – дружить с сильными ребятами выгодно. Даже ничего не делая, сильный товарищ добавляет мощи слабому.
Но, если это коммерческая ссылка,
ведущая на голимый ГС –
такую ссылку обязательно нужно закрыть в noindex и nofollow.
А, ещё лучше – вообще не ставить.

Кстати, такого-же мнения придерживаются многие вебмастера от «белого» SEO.

Вес страницы и внешние ссылки (мысли вслух)
Закрывание внешних ссылок в noindex и nofollow связано для вебмастера только с одним желанием – сохранить вес страницы, якобы отражающийся на общем рейтинге сайта у поисковых систем. Про «Вес страницы» с утра до вечера говорят на всевозможных форумах, но реально, что такое «Вес страницы» и как он подсчитывается у поисковиков – не знает никто. Доподлинно известно, что внешние ссылки важны и положительно учитываются для продвижения сайта вперёд, в SERP (СЕРП). Вот только это должны быть ссылки по теме, а не всё подряд.
Всевозможные SEO-оптимизаторы понапридумали кучу всяческих способов (бесплатных и за деньги), чтобы оттягать на себя побольше внешних ссылок. До оптимизировались уже до того, что Яндекс вообще скоро перестанет учитывать внешние ссылки не в тему страницы, а в некоторых случаях – и наказывать за избыток внешних ссылок «не по теме». Действительно, ну как это может женский каталог ссылаться на сайт про дровяное отопление, или сайт военно-патриотического клуба ссылаться на магазин ханского белья? Пусть, приведённые примеры слишком грубы, но лично я никогда не верил в подобные способы SEO-продвижения веб-ресурсов.
Нет логики. Суета сует.
Чем переводить кучу времени на заигрывание с поисковой системой по её постоянно меняющимся правилам – лучше накропать парочку уникальных статей в тему своего сайта или блога. В блоге у одного известного SEO-мастера, я вычитал интересную мысль – поисковиком засчитывается не тупо внешняя ссылка на сайт, а количество переходов по ней. Таким образом, если реальный пользователь в дискуссии на форуме поставит ссылку и по ней придут три десятка или сотни посетителей – это будет гораздо лучше, чем все каталоги мира, вместе взятые.

1. noindex – не индексировать текст
2. вложенный список
3. noindex – не валидное изобретение Яндекса
4. Действие тега noindex
5. Использование метатега noindex
6. Разница в действии тега и метатега noindex
7. Особенности в действии тега и метатега noindex
8. Тег и метатег noindex для Google
9. nofollow – не переходить по ссылкам
10. Загадки Яндекса и Google для noindex и nofollow
11. Вес страницы и внешние ссылки (мысли вслух)

 

Тег noindex, валидный метатег, что значит запрещен к индексированию, настройки

Тег noindex служит для обозначения фрагментов текста, запрещенных для индексирования поисковой системой Яндекс.
Тег введен в оборот системой яндекс и используется только ей и, возможно, Рамблер.
Google его не понимает и никак не учитывает.

Первоначально, чтобы закрыть часть текста от индексации, нужно было обернуть его, как указано ниже:

<noindex>текст, закрытый от индексации</noindex>

Поскольку тег не является частью утвержденных стандартов, возникают проблемы валидации страницы при ее проверке в любом сервисе проверки валидностью кода html.

Из-за этого яндекс ввел другую версию тега вида <!–noindex–>неиндексируемый текст<!–/noindex–>. При таком использовании страница нормально проходит проверку. Первый вариант также до сих пор работает, но более правильно использовать второй вариант.

Применять данный тег можно, например, чтобы закрыть счетчики, комментарии. Но нет смысла закрывать, например, меню в целях перераспределения ссылочного веса на сайте.

Передача веса закрытой ссылке

Тег закрывает от индексации только текст, заключенный в него, но не влияет на индексирование ссылок внутри этого текста и передачу веса по ним. Для закрытия ссылки нужно использовать атрибут rel=”nofollow”, как писал здесь.

Метатег noindex

Метатег в коде страницы вида:

<meta name="robots" content="noindex,nofollow"/>

запрещает от индексации содержимое всей страницы (за это отвечает noindex), а также индексацию ссылок на этой страницы (за это отвечает nofollow).

Для массового проставления данного метатега, например, для архивов и других таксономий в wordpress можно использовать плагин Yoast SEO. В нем можно прописать метатеги в том числе и для отдельных страниц.

В robots.txt тег noindex не работает и не используется.

Сообщение – url запрещен к индексированию тегом noindex

В некоторых случаев вебмастер яндекс выдает сообщение, что адрес страницы, например, главной запрещен от индексации. Это значит, что на странице появился обнаружен этот метатег. Чаще всего такое бывает в двух случаях. Когда создавали сайт, то указали настройку “Попросить поисковые системы не индексировать сайт” на время разработки. Теперь нужно просто убрать эту пометку и отправить сайт в вебмастере на перепроверку. Или второй вариант – у вас стоит SEO плагин вроде Yoast Seo, в настройках которого вы указали запрет индексации, соответственно теперь его нужно убрать.

Как спрятать информацию на сайте от поисковой системы при помощи тега noindex

Если у вас на сайте есть информация, которую бы вы хотели спрятать от индексации поисковой системой Яндекс, то в таком случае вам может помочь специальный мета тег noindex.

Мета тег noindex – это тег, который не входит в список официальных элементов, предназначенных для HTML— разметки страниц. Данный вид разметки существует для того, чтобы поисковая система не индексировала определенную часть веб-страницы.

Данный мета тег был предложен поисковой системой Яндекс, вместо уже существующего тега – nofollow. На данный момент времени только данная поисковая система распознает noindex.

Работа данного тега заключается в том, что он сообщает роботу поисковой системы, проводящему индексацию то, что вся информация, которая заключена между тегами <noindex > </ noindex>, не должна индексироваться. Например:

<noindex> Это предложение не видно Яндексу </noindex>

В каких случаях можно и нельзя использовать тег noindex

Стоит сразу же упомянуть о том, что данный тег можно использовать не во всех случаях. Вы можете заключать информацию в такой тег в следующих ситуациях:

  • Для того чтобы спрятать от робота некоторые не уникальные части текста, к примеру вставки с других порталов или же цитаты;
  • Для того чтобы скрыть информацию о подписчиках на RSS или же о рассылках;
  • Для того чтобы спрятать ненормативную лексику, которая имеется на сайте. Однако нецензурные выражения лучше всего вообще не использовать.

Не стоит использовать данный тег, если вы хотите спрятать информацию, размещенную на форумах, внутрь тега не стоит помещать внутренние или внешние ссылки, а также использовать его в блогах.

Валидность тега noindex

Для обеспечения валидности верстки тег noindex необходимо дополнить отдельно взятыми символами. Таким образом, валидным является следующий тег:

•	<!--noindex-->text text text text text <!--/noindex-->

А вот пример не валидного участка информации на сайте:

<noindex > text text text text text </ noindex >

По поводу валидности не измененного тега для HTML разметки ходит много споров. Некоторые говорят о том, что информация, заключенная в не измененный тег, не индексируется. Но не стоит рисковать, и лучше использовать валидный вид тега.

Удачи Вам!

Что такое — Noindex

Noindex — тег языка гипертекстовой разметки, позволяющий закрыть от индексации весь текст или его часть.

Noindex предложен поисковой системой Яндекс и распознается только ей. Синтаксис выглядит следующим образом:

<noindex>неиндексируемый текст</noindex>

В данном случае действие тега не распространяется на кликабельные URL. То есть, если в закрытом от индексирования материале присутствуют активные ссылки, робот все же по ним перейдет, поэтому их необходимо дополнительно оборачивать в тег nofollow.

Noindex не входит в официальную спецификацию HTML, а значит код, в котором он содержится, становится невалидным. Чтобы этого избежать, можно использовать альтернативную запись, также поддерживаемую ботами Яндекса:

<!—noindex—>неиндексируемый текст<!—/noindex—>

Здесь тег представлен в формате комментария и не учитывается в ходе проверки валидности.

Чаще всего noindex используется в ситуациях, когда требуется скрыть неуникальный контент (например, массивную цитату из другого источника). Кроме того, при помощи тега можно манипулировать плотностью и распределением ключевых слов в публикациях, исключая из индекса отдельные абзацы.

Другие материалы:

Noindex в качестве значения метатега robots

Noindex также является одним из значений, которое способно принимать свойство content метатега robots. Будучи прописанным в блоке <head>, он позволяет закрыть от индексации всю страницу целиком:

<html>
            <head>
                        <meta name=»robots» content=»noindex»>
                        <title>Неиндексируемая страница</title>
            </head>

</html>

Следует иметь в виду, что такая запись будет абсолютно валидной.

Роботы Яндекса — «robots.txt» для Яндекса, директива «Host», HTML-тег «noindex», IP-адреса роботов Яндекса — Robots.Txt по-русски

Методы управления поведением робота Яндекса

Читайте в отдельной статье: методы управления поведением робота.

Виды роботов Яндекса

  • Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
  • Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
  • Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
  • Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
  • Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
  • Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке «Найденные слова»
  • YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
  • YandexBlog/0.99.101 (compatible; DOS3.30,B) – робот, индексирующий xml-файлы для поиска по блогам.
  • YandexSomething/1.0 – робот, индексирующий новостные потоки партнеров Яндекс-Новостей.
  • Bond, James Bond (version 0.07) — робот, заходящий на сайты из подсети Яндекса. Официально никогда не упоминался. Ходит выборочно по страницам. Referer не передает. Картинки не загружает. Судя по повадкам, робот занимается проверкой сайтов на нарушения – клоакинг и пр.

IP-адреса роботов Яндекса

IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов не разглашается.

Кроме роботов у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

  • Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Директива Host

Во избежания возникновения проблем с зеркалами сайта рекомендуется использовать директиву «Host». Директива «Host» указывает роботу Яндекса на главное зеркало данного сайта. С директивой «Disallow» никак не связана.

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

либо

User-agent: Yandex
Disallow: /cgi-bin
Host: site.ru

в зависимости от того что для вас оптимальнее.

Вот цитата из ЧаВо Яндекса:

Мой сайт показывается в результатах поиска не под тем именем. Как это исправить?

Скорее всего, ваш сайт имеет несколько зеркал, и робот выбрал как основное не то зеркало, которое хочется вам. Есть несколько решений:

  • удалите зеркала вашего сайта;
  • на всех зеркалах, кроме того, которое вы хотите выбрать основным, разместите файл robots.txt, полностью запрещающий индексацию сайта, либо выложите на зеркалах robots.txt с директивой Host;
  • разместите на главных страницах неосновных зеркал тег <meta name=»robots» content=»noindex, nofollow»>, запрещающий их индексацию и обход по ссылкам;
  • измените код главных страниц на неосновных зеркалах так, чтобы все (или почти все) ссылки с них вглубь сайта были абсолютными и вели на основное зеркало.

В случае реализации одного из вышеперечисленных советов ваше основное зеркало будет автоматически изменено по мере обхода робота.

Интересная информация об обработке директивы Host из ответов А. Садовского на вопросы оптимизаторов:

Вопрос: Когда планируется своевременное соблюдение директивы Host: в robots.txt? Если сайт индексируется как www.site.ru, когда указано Host: site.ru уже после того, как robots.txt был размещен 1–2 недели, то при этом сайт с www и без www не склеивается более 1–2 месяца и в Яндексе существуют одновременно 2 копии частично пересекающихся сайтов (один 550 страниц, другой 150 страниц, при этом 50 страниц одинаковых). Прокомментируйте, пожалуйста, проблемы с работой «зеркальщика».
Ответ: Расширение стандарта robots.txt, введенное Яндексом, директива Host — это не команда считать зеркалами два любых сайта, это указание, какой сайт из группы, определенных автоматически как зеркала, считать главным. Следовательно, когда сайты будут идентифицированы как зеркала, директива Host сработает.

HTML-тег <noindex>

Робот Яндекса поддерживает тег noindex, который запрещает роботу Яндекса индексировать заданные (служебные) участки текста. В начале служебного фрагмента ставится <noindex>, а в конце — </noindex>, и Яндекс не будет индексировать данный участок текста.

Тег работает аналогично мета-тегу noindex, но распространяется только на контент, заключенный внутри тега в формате:

<noindex>текст, индексирование которого нужно запретить</noindex>

Тег noindex не чувствителен к вложенности (может находиться в любом месте html-кода страницы). При необходимости сделать код сайта валидным возможно использование тега в следующем формате:

<!––noindex––>текст, индексирование которого нужно запретить<!––/noindex––>

Ссылки по теме

Описание робота Яндекса на сайте Яндекса
Очень интересная запись о роботах на (не)?Путевых заметках
Яндекс и robots.txt – ньюансы
Яндекс накосячил с соблюдением стандарта файла robots.txt
Форма для добавления URL сайта в индекс
Форма для удаления URL сайта из индекса
Robots.txt глазами Яндекса (Анализ robots.txt)

Почему страницы исключаются из поиска?

Страница низкого качества

Если страница достаточно хорошо соответствует запросу, она будет отображаться в результатах поиска. Если страница долгое время не отображается в результатах поиска, это означает, что в настоящий момент она не дает хороших ответов на запросы пользователей.

Страница включается в базу поиска на основании решения, принятого алгоритмом, оценивающим множество факторов. Поэтому невозможно предсказать, какой фактор определит решение.При этом вы можете улучшить сайт, сделав акцент на посетителей — страницы станут более удобными и популярными, а алгоритм сможет включать их в поиск.

Для улучшения сайта смотрите рекомендации:

Какие ответы дает ваш сайт?

Представление информации на сайте

Произошла ошибка, когда робот загружал или обрабатывал страницу, и ответ сервера содержал код состояния HTTP 3XX, 4XX или 5XX.

Чтобы найти ошибку, используйте инструмент проверки ответа сервера.

Если страница доступна для робота, убедитесь, что:
  • Информация о страницах присутствует в файле Sitemap.

  • Запрещающие директивы Disallow и noindex, а также HTML-элемент noindex в файле robots.txt предотвращают индексирование только технических и повторяющихся страниц.
Индексирование страниц запрещено в файле robots.txt или с использованием метатега с директивой noindex.

Удалить запрещающие директивы. Если вы сами не блокировали robots.txt, обратитесь за подробностями к своему хостинг-провайдеру или регистратору доменного имени.

Также убедитесь, что доменное имя не заблокировано из-за истечения срока регистрации.

Страница перенаправляет робота на другие страницы Убедитесь, что исключенная страница действительно должна перенаправлять пользователей. Для этого воспользуйтесь инструментом проверки ответа сервера.
Страница дублирует содержимое другой страницы Если страница по ошибке определена как дублирующаяся, следуйте инструкциям в разделе Дублированные страницы.
Страница не каноническая Убедитесь, что страницы действительно перенаправляют робота на URL-адрес, указанный в атрибуте rel = «canonical».
Сайт распознается как вторичное зеркало Если сайты сгруппированы по ошибке, следуйте рекомендациям в разделе Разделение зеркал сайтов.
Нарушения обнаружены на сайте Вы можете проверить это на странице в Яндекс.Вебмастере.

Как проверить принадлежность робота Яндексу

Mozilla / 5.0 (совместимый; YandexAccessibilityBot / 3.0; + http: //yandex.com/bots)

YandexAccessibilityBot загружает страницы, чтобы проверить их доступность для пользователей .

Отправляет до 3-х запросов на сайт в секунду. Робот игнорирует настройку в интерфейсе Яндекс.Вебмастера.

Нет
Mozilla / 5.0 (совместимый; YandexAdNet / 1.0; + http: // yandex.com / bots) Робот рекламной сети Яндекса. Да
Mozilla / 5.0 (совместимый; ЯндексБлоги / 0,99; робот; + http: //yandex.com/bots) Робот для поиска по блогам, который индексирует комментарии к сообщениям. Да
Mozilla / 5.0 (совместимый; YandexBot / 3.0; + http: //yandex.com/bots) Основной робот-индексатор. Есть
Mozilla / 5.0 (совместимый; YandexBot / 3.0; MirrorDetector; + http: // yandex.com / bots) Обнаружение зеркал сайта. Да
Mozilla / 5.0 (совместимый; ЯндексКалендарь / 1.0; + http: //yandex.com/bots) Робот Яндекс.Календарь. Скачивает файлы календаря по запросу пользователей. Эти файлы часто находятся в каталогах, запрещенных для индексации.
Mozilla / 5.0 (совместимый; ЯндексДирект / 3.0; + http: //yandex.com/bots) Загружает информацию о содержании сайтов партнеров рекламной сети Яндекса для определения их тематических категорий для соответствия релевантной рекламе .
Mozilla / 5.0 (совместимый; YandexDirectDyn / 1.0; + http: //yandex.com/bots Генерирует динамические баннеры.
Mozilla / 5.0 (совместимый; YandexFavicons / 1.0; + http: //yandex.com/bots) Загружает файл значка сайта для отображения в результатах поиска. Нет
Mozilla / 5.0 (совместимый; YaDirectFetcher / 1.0; Dyatel; + http: // yandex. com / bots) Загрузки на целевые страницы объявлений, чтобы проверить их доступность и тематику.Это необходимо для размещения рекламы в результатах поиска и на сайтах-партнерах. Нет. Робот не использует файл robots.txt и игнорирует установленные для него директивы.
Mozilla / 5.0 (совместимый; YandexForDomain / 1.0; + http: //yandex.com/bots) Робот Яндекс.Почты для домена, используемый для проверки прав владения доменом. Да
Mozilla / 5.0 (совместимый; YandexImages / 3.0; + http: //yandex.com/bots) Индексирует изображения для отображения в Яндекс.Картинки. Да
Mozilla / 5.0 (совместимый; YandexImageResizer / 2.0; + http: //yandex.com/bots) Робот для мобильных устройств. Да
Mozilla / 5.0 (iPhone; CPU iPhone OS 8_1, как Mac OS X) AppleWebKit / 600.1.4 (KHTML, как Gecko) Версия / 8.0 Mobile / 12B411 Safari / 600.1.4 (совместимый; YandexBot / 3.0 ; + http: //yandex.com/bots) Робот-индексатор. Да
Mozilla / 5.0 (iPhone; процессор iPhone OS 8_1, например Mac OS X) AppleWebKit / 600.1.4 (KHTML, например, Gecko) Версия / 8.0 Mobile / 12B411 Safari / 600.1.4 (совместимый; YandexMobileBot / 3.0; + http: //yandex.com/bots) Определяет страницы с макетом, подходящим для мобильных устройств.
Mozilla / 5.0 (совместимый; ЯндексМаркет / 1.0; + http: //yandex.com/bots) Робот Яндекс.Маркета. Да
Mozilla / 5.0 (совместимый; ЯндексМаркет / 2.0; + http: //yandex.com/bots) Нет
Mozilla / 5.0 (совместимый; ЯндексМедиа / 3.0; + http: //yandex.com/bots) Индексирует мультимедийные данные. Да
Mozilla / 5.0 (совместимый; ЯндексМетрика / 2.0; + http: //yandex.com/bots yabs01) Скачивает страницы сайта, чтобы проверить их доступность, включая целевые страницы объявлений Яндекс.Директа. Нет. Робот не использует файл robots.txt и игнорирует установленные для него директивы.
Mozilla / 5.0 (совместимый; ЯндексМетрика / 2.0; + http: // яндекс.com / bots) Робот Яндекс.Метрики.
Mozilla / 5.0 (совместимый; ЯндексМетрика / 3.0; + http: //yandex.com/bots)
Mozilla / 5.0 (совместимый; ЯндексМетрика / 4.0; + http: // yandex.com/bots) Робот Яндекс.Метрики. Загружает и кэширует стили CSS для отображения страниц сайта в Webvisor. Нет. Робот не использует файл robots.txt и игнорирует установленные для него директивы.
Mozilla / 5.0 (совместимый; YandexMobileScreenShotBot / 1.0; + http: //yandex.com/bots) Делает снимок экрана мобильной страницы.
Mozilla / 5.0 (совместимый; ЯндексНовости / 4.0; + http: //yandex.com/bots) Робот Яндекс.Новостей. Да
Mozilla / 5.0 (совместимый; YandexOntoDB / 1.0; + http: //yandex.com/bots) Робот ответа на объект. Да
Mozilla / 5.0 (совместимый; YandexOntoDBAPI / 1.0; + http: //yandex.com/bots) Робот ответа объекта, который загружает динамические данные.
Mozilla / 5.0 (совместимый; YandexPagechecker / 1.0; + http: //yandex.com/bots) Открывает страницу для проверки микроразметки с помощью валидатора структурированных данных. Да
Mozilla / 5.0 (совместимый; ЯндексПартнер / 3.0; + http: //yandex.com/bots) Скачивает информацию о содержании партнерских сайтов Яндекса.
Mozilla / 5.0 (совместимый; YandexRCA / 1.0; + http: //yandex.com/bots) Собирает данные для создания превью. Например, предварительный просмотр мастера.
Mozilla / 5.0 (совместимый; YandexSearchShop / 1.0; + http: //yandex.com/bots) Скачивает каталоги товаров в файлах YML по запросам пользователей. Эти файлы часто помещаются в каталоги, запрещенные для индексации.
Mozilla / 5.0 (совместимо; Яндекс.Ссылки сайта; Дятел; + http: //yandex.com/bots) Проверяет доступность страниц, используемых в качестве дополнительных ссылок. Да
Mozilla / 5.0 (совместимый; ЯндексСправБот / 1.0; + http: //yandex.com/bots) Робот Яндекс.Директории. Есть
Mozilla / 5.0 (совместимый; ЯндексТрекер / 1.0; + http: //yandex.com/bots) Робот Яндекс.Трекер. No
Mozilla / 5.0 (совместимый; ЯндексТурбо / 1.0; + http: //yandex.com/bots) Сканирует RSS-канал, созданный для создания Турбо-страниц. Он отправляет до 3-х запросов на сайт в секунду. Робот игнорирует настройки в интерфейсе Яндекс.Вебмастера и директиву Crawl-delay. Да
Mozilla / 5.0 (совместимый; YandexVertis / 3.0; + http: //yandex.com/bots) Робот по поисковым вертикалям. Да
Mozilla / 5.0 (совместимый; YandexVerticals / 1.0; + http: //yandex.com/bots) Яндекс.Робот вертикалей: Авто.ру, Янэкс.Реалти, Яндекс.Работа, Яндекс.Обзоры. Да
Mozilla / 5.0 (совместимый; ЯндексВидео / 3.0; + http: //yandex.com/bots) Индексирует видеоклипы для отображения в Яндекс.Видео. Да
Mozilla / 5.0 (совместимый; YandexVideoParser / 1.0; + http: //yandex.com/bots) Индексирует видеоклипы для отображения в Яндекс.Видео.
Mozilla / 5.0 (совместимо; ЯндексВебмастер / 2.0; + http: //yandex.com/bots) Робот Яндекс.Вебмастера. Да
Mozilla / 5.0 (X11; Linux x86_64) AppleWebKit / 537.36 (KHTML, как Gecko) Chrome / WXYZ * Safari / 537.36 (совместимо; YandexScreenshotBot / 3.0; + http: //yandex.com/bots) Делает снимок экрана страницы.

Руководство по тегам Meta Robots на 2021 год

Вкратце о мета-тегах роботов

Мета-теги роботов — важный инструмент для улучшения сканирования и индексации поисковой системы, а также для управления вашими сниппетами в поисковой выдаче.

В этой статье мы объясним, как это сделать, как интерпретация и поддержка различаются для разных поисковых систем и как метатег robots связан с X-Robots-Tag и файлом robots.txt.

Метатег robots дает владельцам сайтов возможность контролировать сканирование и индексацию поисковыми системами, а также то, как их фрагменты отображаются на страницах результатов поисковых систем (SERP).

Метатег robots входит в раздел вашего HTML и является лишь одним из существующих там метатегов.

Вероятно, самый известный метатег роботов — это тот, который сообщает поисковым системам не индексировать страницу:

    

Вы можете предоставить те же инструкции, включив их в заголовок HTTP с помощью X-Robots-Tag. X-Robots-Tag часто используется для предотвращения индексации не-HTML-контента, такого как PDF-файлы и изображения.

Директивы мета-роботов

Мы предпочитаем говорить о мета-директивах вместо мета-тегов роботов , потому что называть их «мета-тегами роботов» некорректно (см. «Анатомию мета-элемента» ниже).

Осторожно с роботами lingo

Директивы Meta robots не следует путать с директивами robots.txt. Это два разных способа общения с поисковыми системами о различных аспектах их поведения при сканировании и индексировании. Но они влияют друг на друга, как мы увидим далее в статье.

Анатомия метаэлемента

Давайте воспользуемся примером мета-директивы роботов, упомянутым выше, чтобы объяснить, что к чему:

  • Весь фрагмент кода называется метаэлементом .
  • и /> - это открывающий и закрывающий теги.
  • Имеется атрибут , имя со значением robots . robots применяется ко всем поисковым роботам, но может быть заменен конкретным пользовательским агентом.
  • А затем есть атрибут под названием content со значением noindex, следуйте за . noindex, следующие могут быть заменены другими директивами.

Во-первых, директивы мета-роботов дают вам столь необходимый контроль над сканированием и индексированием поисковыми системами.Без какого-либо направления поисковые системы будут пытаться сканировать и индексировать весь контент, с которым они сталкиваются. Это их поведение по умолчанию.

Во-вторых, поисковые системы будут генерировать сниппет для ваших URL-адресов при их ранжировании. Они принимают ваше метаописание в качестве входных данных, хотя часто вместо этого предлагают свой собственный фрагмент - на основе содержания вашей страницы - если считают, что он будет работать лучше.

Проверяйте свои мета-директивы роботов

Быстро узнайте, правильно ли настроены ваши мета-директивы для роботов!

Теперь давайте посмотрим на несколько применений директив мета-роботов для защиты вашей SEO-эффективности:

  • Предотвратите проблему дублирования контента, применив директиву мета-роботов noindex к целевым страницам PPC и страницам результатов поиска на сайте.Обратите внимание, что директивы robots не передают никакой авторитетности и релевантности, как канонический URL.
  • Запретить поисковым системам индексировать контент, который никогда не должен индексироваться, потому что вы предоставляете скидки или какое-либо другое предложение, которое, по вашему мнению, не должно быть доступно для всего мира.
  • Удалите проиндексированный конфиденциальный контент: если поисковые системы проиндексировали контент, они никогда не должны были индексировать его в первую очередь, примените директиву мета-роботов noindex , чтобы удалить контент из их индексов.Вы можете использовать ту же технику при установке ловушек для ползунков.
  • Выборочно примените директиву мета-роботов noindex к продуктам, выпуск которых прекращен, чтобы обеспечить пользователям удобство использования.

Промежуточные среды

Мы намеренно не включили в список, чтобы убедиться, что промежуточные среды не индексируются поисковыми системами в качестве варианта использования.

Это потому, что использование HTTP Auth - гораздо лучшее решение, поскольку оно предотвращает доступ из как пользователей, так и поисковых систем и предотвращает перенос директивы мета-роботов noindex на рабочий сайт.

Прежде чем мы углубимся в подробности, давайте рассмотрим некоторые основы:

В синтаксисе не учитывается регистр

Мета-директивы роботов не чувствительны к регистру, что означает, что все приведенные ниже примеры действительны:

    
    
    

Разделение директив запятыми для Google

Для Google необходимо разделять директивы запятыми.Место не подрезать:

    

Пробелы после запятых не требуются

Необязательно использовать пробелы после запятых между директивами. Итак, оба приведенных ниже примера действительны:

    
    

Теперь перейдем к самим директивам!

В этом разделе мы расскажем о наиболее распространенных метадирективах, с которыми вы встретитесь, и о том, что именно они означают.Мы сосредоточимся в первую очередь на поддержке директив от Google, поскольку они являются доминирующей поисковой системой.

Вот директивы, которые мы рассмотрим:

Мета-роботы «все»

По умолчанию поисковые системы будут сканировать и индексировать любой контент, с которым они сталкиваются, если не указано иное. Если вы хотите явно указать, что это разрешено, вы можете сделать это с помощью следующей директивы:

    

Мета-роботы «Индекс»

Хотя это и не обязательно, поскольку это поведение по умолчанию, но если вы хотите явно указать поисковым системам, что им разрешено индексировать страницу, вы можете сделать это с помощью приведенной ниже директивы meta robots.

    

Мета-роботы «index, follow»

Часто директива index комбинируется с директивой follow , что приводит к:

    

Эти директивы по сути означают то же самое, что и указанная выше, в которой указывается только индекс , поскольку следовать за также является поведением поисковой системы по умолчанию. .

Мета-роботы «noindex»

Директива мета-роботов noindex предписывает поисковым системам не индексировать страницу. Вот как выглядит директива meta robots noindex :

    

В приведенном выше примере говорится, что поисковым системам не следует индексировать страницу, но они могут свободно переходить по всем ссылкам на нее, поскольку в явной форме не указано, что они не должен.

Директива noindex имеет большой вес, поэтому, когда поисковые системы находят ее, они быстро удаляют контент из своего индекса.Другая сторона медали состоит в том, что сложно повторно проиндексировать этот контент, если, например, вы случайно применили директиву noindex .

Будьте предупреждены о мошеннических директивах noindex

Будьте незамедлительно предупреждены о мошеннических директивах noindex для предотвращения сбоев SEO!

Полезные ресурсы

Мета-роботы «noindex, follow»

Часто встречаются мета-роботы noindex в сочетании с директивой follow .Он сообщает поисковым системам не индексировать страницу, но что можно переходить по ссылкам:

    

Рискуя звучать как неработающая запись, и < meta name = "robots" content = "noindex, follow" /> означает то же самое, поскольку следовать за является поведением сканера поисковой системы по умолчанию.

Мета-роботы noindex, nofollow

Вы также можете комбинировать директиву мета-роботов noindex с метадирективой nofollow (не путать с атрибутом ссылки nofollow):

    

Комбинация noindex, nofollow указывает поисковым системам не индексировать страницу и не переходить по ссылкам на странице, что означает отсутствие авторитета ссылки должны быть переданы либо.

«noindex» со временем становится «noindex, nofollow»

Поисковые системы значительно сокращают повторное сканирование неиндексированной страницы, что по существу приводит к ситуации noindex, nofollow , потому что ссылки на не просканированной странице не переходят.

Мета-роботы «нет»

Директива мета-роботов none на самом деле является сокращением для noindex, nofollow , которые мы рассмотрели чуть выше. Вот как выглядит директива мета-роботов none :

    

Он используется не очень часто, и люди часто думают, что это означает прямо противоположное: index, follow .

Так что будьте осторожны с этим!

Мета-роботы «noarchive»

Директива мета-роботов noarchive запрещает поисковым системам отображать кешированную версию страницы в поисковой выдаче. Если вы не укажете директиву noarchive , поисковые системы могут просто использовать кешированную версию страницы. Опять же, это директива отказа.

Вот как выглядит директива noarchive :

    

Тем не менее, он часто сочетается с другими директивами.Например, вы обычно увидите, что он используется вместе с директивами noindex и nofollow :

    

Это означает, что поисковые системы не должны индексировать страницу, не должны переходить по ее ссылкам и не должны кэшировать страницу .

Мета-роботы «носниппет»

Директива мета-роботов nosnippet предписывает поисковым системам не показывать текстовый фрагмент (обычно взятый из мета-описания) или предварительный просмотр видео для страницы.

Вот как выглядит директива nosnippet :

Поисковые системы могут по-прежнему показывать миниатюру изображения, если думают, что это улучшает взаимодействие с пользователем. Для Google это относится к обычному веб-поиску, картинкам Google и Google Discover.Директива nosnippet также работает как директива noarchive .

Если директива nosnippet не включена, Google самостоятельно сгенерирует фрагмент текста и предварительный просмотр видео.

Запрет использования определенного контента для сниппета

В частности, в Google вы можете запретить отображение некоторого содержания своей страницы во фрагменте с помощью HTML-атрибута data-nosnippet . Хотя это не мета-директива для роботов, она тесно связана с ними, поэтому мы должны коснуться этого здесь.

HTML-атрибут data-nosnippet может использоваться в элементах span , div и section . Вот пример:

  

Это может быть показано во фрагменте, а это не будет отображаться во фрагменте .

Подробнее об атрибуте data-nosnippet можно узнать здесь (открывается в новой вкладке).

Мета-роботы «max-snippet»

Директива meta robots max-snippet указывает поисковым системам ограничивать фрагмент страницы (обычно извлекаемый из метаописания страницы) определенным количеством символов.

Вот пример, где максимальная длина фрагмента 50 символов:

    
Мета-роботы «max-snippet: 0»

Когда вы указываете max-snippet: 0 , вы указываете поисковым системам не показывать фрагмент - по сути, то же самое, что и директива meta robots nosnippet , которую мы только что описали выше:

    
Мета-роботы «max-snippet: -1»

Когда вы указываете max-snippet: -1 , вы явно указываете поисковым системам, что они могут сами определять длину фрагмента, что является их поведением по умолчанию:

    

Влияние Европейской директивы по авторскому праву

С октября 2019 года сайты, классифицированные как «публикации европейской прессы», по умолчанию отображаются в Google без фрагментов.Вы можете включить показ своих фрагментов с помощью директив max-snippet и max-image-preview или удалить свой сайт из списка публикаций европейской прессы через Google Search Console (открывается в новая вкладка). Подробнее об этом здесь (открывается в новой вкладке).

Если вы используете плагин Yoast SEO в WordPress, вы обнаружите, что он автоматически включается, когда вы включаете следующий фрагмент:

Менее важные директивы мета-роботов

Теперь мы подошли к менее важным мета-директивам роботов, о которых мы только кратко коснемся.

То, что относится к другим директивам мета-роботов, относится и к ним: если они не определены, поисковые системы будут делать все, что им заблагорассудится.

Вот что директивы сигнализируют поисковым системам:

  • unavailable_after : «удалить страницу из индекса после определенной даты». Дата должна быть указана в широко распространенном формате, таком как, например, ISO 8601 (открывается в новой вкладке). Директива игнорируется, если не указаны допустимые дата / время. По умолчанию для контента нет срока годности.По сути, это временная директива noindex , поэтому будьте осторожны при ее использовании.
  • noimageindex : «не индексировать изображения на этой странице».
  • max-image-preview : «определить максимальный размер предварительного просмотра изображения для страницы с возможными значениями: нет , стандартный и большой ».
  • max-video-preview : «определить максимальную длину предварительного просмотра видео на странице».
  • notranslate : «не предлагать переведенную версию страницы в результатах поиска».

Полезные ресурсы

Помимо возможности комбинировать директивы, вы также можете предоставлять директивы разным поисковым роботам. Каждый сканер будет использовать сумму предоставленных ему директив, то есть: они складываются.

Чтобы проиллюстрировать, как это сделать, давайте рассмотрим пример:

  
  

Эти директивы интерпретируются следующим образом:

  • Google: noindex, nofollow
  • Другие поисковые системы: nofollow

Как вы понимаете, когда вы начинаете складывать директивы, легко ошибиться.Если возникает сценарий, в котором есть конфликтующие директивы, Google по умолчанию выберет наиболее строгую .

Возьмем, к примеру, следующие директивы:

  
  

Вердикт: Google проявит осторожность, а не проиндексирует страницу.

Но способ интерпретации конфликтующих директив может различаться в разных поисковых системах.Возьмем другой пример:

  
  

Google не будет индексировать эту страницу, но Яндекс сделает прямо противоположное и проиндексирует ее.

Так что имейте это в виду и убедитесь, что ваши директивы robots работают правильно для поисковых систем, которые важны для вас.

X-Robots-Tag - эквивалент заголовка HTTP

Файлы, отличные от HTML, такие как изображения и файлы PDF, не имеют источника HTML, в который можно включить мета-директиву роботов.Если вы хотите сообщить поисковым системам о своих предпочтениях сканирования и индексирования этих файлов, лучше всего использовать HTTP-заголовок X-Robots-Tag .

Давайте кратко коснемся заголовков HTTP.

Когда посетитель или поисковая система запрашивает страницу с веб-сервера и эта страница существует, веб-сервер обычно отвечает тремя вещами:

  1. Код состояния HTTP : трехзначный ответ на запрос клиента (например, 200 OK ).
  2. HTTP-заголовки : заголовки, содержащие, например, возвращенный тип содержимого и инструкции о том, как долго клиент должен кэшировать ответ.
  3. HTTP Body : тело (например, HTML , CSS , JavaScript и т. Д.), Которое используется для рендеринга и отображения страницы в браузере.

X-Robots-Tag может быть включен в заголовки HTTP. Вот скриншот заголовков HTTP-ответа страницы, взятых из Chrome Web Inspector для страницы, содержащей X-Robots-Tag: noindex :

Так как же это работает на практике?

Настройка X-Robots-Tag на Apache

Например, если вы используете веб-сервер Apache и хотите добавить noindex, nofollow X-Robots-Tag в ответ HTTP для всех ваших файлов PDF, добавьте следующий фрагмент в свой .htaccess файл или httpd.conf файл:

  <Файлы ~ "\ .pdf $">
Заголовочный набор X-Robots-Tag "noindex, nofollow"
  

Или, возможно, вы хотите сделать изображения файлов типов PNG , JPG , JPEG и GIF неиндексируемыми:

  <Файлы ~ "\. (Png | jpe? G | gif) $">
Заголовочный набор X-Robots-Tag "noindex"
  

Конфликтуют ли ваши мета-теги роботов и X-Robots-Tags?

Сделайте быструю проверку с ContentKing и узнайте, отправляете ли вы Google в штопор!

Настройка X-Robots-Tag на nginx

Тем временем на веб-сервере nginx вам нужно отредактировать сайта.conf файл.

Чтобы удалить все файлы PDF из индексов поисковых систем на всем сайте, используйте это:

  расположение ~ * \ .pdf $ {
  add_header X-Robots-Tag "noindex, nofollow";
}  

И чтобы не индексировать изображения, используйте это:

  расположение ~ * \. (Png | jpe? G | gif) $ {
  add_header X-Robots-Tag "noindex";
}  

Обратите внимание, что изменение конфигурации вашего веб-сервера может негативно повлиять на эффективность SEO всего вашего сайта. Если вам не удобно вносить изменения в конфигурацию веб-сервера, лучше оставить эти изменения администратору сервера.

По этой причине мы настоятельно рекомендуем отслеживать ваши сайты с помощью ContentKing. Наша платформа немедленно отмечает любые изменения, чтобы вы могли отменить их, прежде чем они окажут негативное влияние на эффективность вашего SEO.

Полезные ресурсы

Рекомендации по поисковой оптимизации для роботов

Придерживайтесь следующих рекомендаций в отношении директив по роботам:

  • Избегайте конфликтующих директив роботов. : избегайте использования как мета-роботов, так и директив X-Robots-Tag для сигнализации ваших предпочтений сканирования и индексации для ваших страниц, так как это легко испортить и отправить противоречивые инструкции.Вполне нормально использовать мета-директивы для роботов на страницах и X-Robots-Tag для изображений и PDF-файлов - просто убедитесь, что вы не используете оба метода доставки инструкций директив для роботов в один и тот же файл.
  • Не запрещайте контент с помощью важных директив для роботов. : если вы запретите контент с использованием файла robots.txt, поисковые системы не смогут выбрать предпочтительные для этого контента директивы для роботов. Скажем, например, вы применяете директиву noindex к странице и переходите к , запрещая доступ к той же странице.Поисковые системы не смогут увидеть noindex , и они могут еще долго держать страницу в своем индексе.
  • Не комбинируйте директиву noindex с каноническим URL. : страница, которая имеет как директиву noindex , так и каноническую для другой страницы, сбивает с толку поисковые системы. В редких случаях это приводит к переносу noindex в каноническую цель. Выучить больше.
  • Не применяйте директиву noindex к страницам с разбивкой на страницы. : поскольку поисковые системы (особенно Google) хорошо понимают страницы с разбивкой на страницы, они обрабатывают их по-разному и не воспринимают их как дублированный контент.И имейте в виду, что на практике со временем директива noindex становится noindex , nofollow , закрывая путь на пути обнаружения контента, на который есть ссылки через страницы с разбивкой на страницы. Выучить больше.
  • Нет hreflang для страниц с noindex : hreflang сигнализирует поисковым системам, какие варианты контента доступны для различных аудиторий, посылая сигнал о том, что их необходимо проиндексировать. Поэтому избегайте ссылок на страницы с директивой noindex .
  • Не включайте страницы с noindex в карту сайта XML : страницы, которые не должны индексироваться, также не должны включаться в вашу карту сайта XML, поскольку карта сайта XML используется, чтобы сигнализировать поисковым системам, какие страницы они должны сканировать и индексировать .

Директивы Meta robots, X-Robots-Tag и robots.txt имеют свое уникальное применение. Подводя итог тому, что мы рассмотрели, вот для чего их можно использовать:

* Контент, запрещенный в robots.txt обычно не индексируется. Но в редких случаях это все же может случиться.

Поддержка в поисковых системах

Это не просто интерпретация конфликтующих директив роботов, которая может различаться в зависимости от поисковой системы. Поддерживаемые директивы и способ их доставки (HTML или HTTP-заголовок) также могут различаться. Если ячейка в таблице ниже отмечена зеленой галочкой (), поддерживаются реализации заголовков как HTML, так и HTTP. Красный крестик () не поддерживается.Если поддерживается только один, поясняется.

А теперь, к менее важным:

Полезные ресурсы

Подведение итогов и переход к

Надежное техническое SEO — это отправка поисковым системам правильных сигналов. И директива мета-роботов — лишь один из таких сигналов.

Итак, продолжайте изучать, как брать поисковые системы в свои руки, с нашим руководством по контролю сканирования и индексирования!

HTML-правила, запрещающие поисковым системам индексировать части веб-страниц

Не существует универсального способа заставить поисковые системы не индексировать часть вашего веб-сайта.К сожалению, это так просто. Однако есть несколько простых вещей, которые вы можете сделать, чтобы предотвратить сканирование определенных частей веб-страницы определенными пауками.

MediaWiki [править]

Давайте начнем с того, что, вероятно, не вас беспокоит, а нас беспокоит. Расширение CirrusSearch MediaWiki поддерживает специальный класс

, недоступный для поиска.

 
Это не будет индексироваться. Полезно для шаблонов, которые создают навигацию и тому подобное.

Мы используем это на страницах новостей, где внизу есть коллекция ссылок на последние новости. Эту часть не нужно никому индексировать. Расширение MediaWiki CirrusSearch - это особый вариант использования, и, скорее всего, вы здесь не для этого. Двигаемся дальше ..

Все поисковые системы [править]

Вот печальная правда: Универсального стандарта не существует. И Яндекс - единственный, кто придумал свои. Это означает, что вы можете попросить Яндекс не индексировать части веб-страницы и ожидать, что им, а никому другому, будет до этого дела.

Яндекс [править]

Российская поисковая система Яндекс ( Mozilla / 5.0 (совместимый; YandexBot / 3.0; + http: //yandex.com/bots) ) использует специальный тег . Это отличается от, скажем,, вы должны помещать его в HTML-код таких страниц, как Не индексируйте эту часть . Это глупо, поскольку нет действительного тега HTMl.К счастью, вы можете поместить это в комментарии:

 
Яндекс и только Яндекс игнорируют эту часть веб-страницы.

Хотя приятно, что вы можете дать указание русским не индексировать часть страницы таким образом, в основном это не имеет значения, поскольку никто больше не заботится об этом теге noindex, даже немного. Но если вы используете что-то вроде MediaWiki и в любом случае добавляете специальный раздел страницы, запрещающий индексацию, вы также можете сообщить русскому, пока вы на нем:

 
Это не будет индексироваться.Полезно для шаблонов, которые создают навигацию и тому подобное.

Google Search Appliance [править]

Просто чтобы прояснить сразу: Невозможно заставить поисковый робот Google игнорировать данную часть веб-страницы. . Вы можете попросить его игнорировать целые страницы или не игнорировать целые страницы.

Google производил специальное установленное в стойку поисковое «устройство» под названием «Google Search Appliance» с 2002 по 2014 год. В 2018 году они прекратили его поддержку.Это особенное устройство поддерживает:

 Это проиндексировано.

Это не было проиндексировано

Это тоже было проиндексировано.
 

Сегодня это совершенно не актуально, поскольку в обычном поиске Google эти теги не использовались, а Google Search Appliance больше не выпускается.

Сортировать по дате Сортировать по баллу

Страница заблокирована от индексации

• Обновлено

Поисковые системы могут показывать страницы в результатах поиска только в том случае, если эти страницы не блокируют индексацию сканерами поисковых систем.Некоторые заголовки HTTP и метатеги сообщают поисковым роботам, что страницу не следует индексировать.

Блокировать индексирование только для контента, который не должен отображаться в результатах поиска.

Как не удается выполнить аудит индексирования Lighthouse #

Lighthouse помечает страницы, которые поисковые системы не могут проиндексировать:

Lighthouse проверяет только заголовки или элементы, которые блокируют всех сканеров поисковой системы . Например, элемент ниже предотвращает доступ всех сканеров поисковых систем (также известных как роботы) к вашей странице:

    

Этот HTTP-ответ заголовок также блокирует всех сканеров:

  X-Robots-Tag: noindex  

У вас также могут быть элементы , которые блокируют определенные поисковые роботы, например:

    

Lighthouse не проверяет наличие подобных директив для поисковых роботов, но они все равно могут затруднить обнаружение вашей страницы, поэтому используйте их с осторожностью.

Как убедиться, что поисковые системы могут сканировать вашу страницу #

Сначала убедитесь, что вы хотите, чтобы поисковые системы проиндексировали страницу. Некоторые страницы, например карты сайта или юридический контент, вообще не следует индексировать. (Имейте в виду, что блокировка индексации не препятствует доступу пользователей к странице, если они знают ее URL.)

Для страниц, которые вы хотите проиндексировать, удалите все заголовки HTTP или элементы , которые блокируют роботов поисковых систем. В зависимости от того, как вы настроили свой сайт, вам может потребоваться выполнить некоторые или все следующие шаги:

  • Удалите заголовок ответа HTTP X-Robots-Tag , если вы настроили заголовок ответа HTTP:
  X-Robots-Tag: noindex  
  • Удалите следующий метатег, если он присутствует в заголовке страницы:
    
  • Удалить метатеги которые блокируют определенных поисковых роботов, если эти теги присутствуют в заголовке страницы.Например:
    

Добавить дополнительный элемент управления (необязательно) #

Вам может потребоваться больше контроля над тем, как поисковые системы индексируют вашу страницу. (Например, возможно, вы не хотите, чтобы Google индексировал изображения, но вы хотите проиндексировать остальную часть страницы.)

Для получения информации о том, как настроить элементы и заголовки HTTP для определенных поисковых систем, см. см. эти руководства:

Ресурсы #

Последнее обновление: Улучшение, статья

Полное руководство по роботам.txt • Yoast

Йост де Валк

Йост де Валк - основатель и директор по продуктам Yoast. Он интернет-предприниматель, который незадолго до основания Yoast инвестировал и консультировал несколько стартапов. Его основная специализация - разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.

Файл robots.txt - один из основных способов сообщить поисковой системе, где можно, а где нельзя переходить на ваш веб-сайт. Все основные поисковые системы поддерживают базовую функциональность, которую они предлагают, но некоторые из них реагируют на некоторые дополнительные правила, которые также могут быть полезны.В этом руководстве описаны все способы использования robots.txt на вашем веб-сайте.

Предупреждение!

Любые ошибки, которые вы делаете в своем файле robots.txt, могут серьезно повредить вашему сайту, поэтому убедитесь, что вы прочитали и поняли всю эту статью, прежде чем углубляться в нее.

Что такое файл robots.txt?

Директивы сканирования

Файл robots.txt является одной из нескольких директив сканирования. У нас есть руководства по всем из них, и вы найдете их здесь.

Роботы.txt - это текстовый файл, который читается поисковой системой (и другими системами). Файл robots.txt, также называемый «протоколом исключения роботов», является результатом консенсуса между разработчиками первых поисковых систем. Это не официальный стандарт, установленный какой-либо организацией по стандартизации; хотя его придерживаются все основные поисковые системы.

Для чего нужен файл robots.txt?

Кэширование

Поисковые системы обычно кэшируют содержимое файла robots.txt, чтобы не загружать его постоянно, но обычно обновляют его несколько раз в день.Это означает, что изменения в инструкциях обычно отражаются довольно быстро.

Поисковые системы обнаруживают и индексируют Интернет путем сканирования страниц. По мере того как они ползут, они находят ссылки и переходят по ним. Это переведет их с сайта A на сайта B на сайт C и так далее. Но прежде, чем поисковая система посетит любую страницу в домене, с которым она раньше не сталкивалась, она откроет файл robots.txt этого домена. Это позволяет им узнать, какие URL-адреса на этом сайте им разрешено посещать (а какие - нет).

Куда мне поместить файл robots.txt?

Файл robots.txt всегда должен находиться в корне вашего домена. Итак, если ваш домен - www.example.com , его нужно найти по адресу https://www.example.com/robots.txt .

Также очень важно, чтобы ваш файл robots.txt на самом деле назывался robots.txt. Имя чувствительно к регистру, так что сделайте это правильно, иначе оно просто не сработает.

Плюсы и минусы использования robots.txt

Pro: управление бюджетом сканирования

Обычно считается, что поисковый паук попадает на веб-сайт с заранее определенным «допуском» в отношении того, сколько страниц он будет сканировать (или сколько ресурсов / времени он потратит, в зависимости от авторитета / размера / репутации сайта, и насколько эффективно сервер отвечает).Оптимизаторы называют это краулинговым бюджетом .

Если вы считаете, что у вашего веб-сайта проблемы с бюджетом сканирования, то блокировка поисковых систем от «траты энергии» на несущественные части вашего сайта может означать, что они вместо этого сосредотачиваются на разделах, которые имеют значение .

Иногда может быть полезно заблокировать поисковые системы от сканирования проблемных разделов вашего сайта, особенно на сайтах, где требуется большая очистка SEO. После того, как вы наведете порядок, вы можете позволить им вернуться.

Примечание о блокировке параметров запроса

Одна из ситуаций, когда бюджет сканирования особенно важен, - это когда ваш сайт использует множество параметров строки запроса для , фильтр или , сортировка списки . Допустим, у вас есть 10 разных параметров запроса, каждый с разными значениями, которые можно использовать в любой комбинации (например, футболки с несколькими цветами s и размером s). Это приводит к множеству возможных действительных URL-адресов, и все они могут быть просканированы.Блокирование параметров запроса от сканирования поможет убедиться, что поисковая система будет сканировать только основные URL-адреса вашего сайта и не попадет в огромную ловушку, которую вы в противном случае создали бы.

Con: не удалять страницу из результатов поиска

Даже если вы можете использовать файл robots.txt, чтобы сообщить пауку, где он не может перейти на ваш сайт, вы, , не можете использовать его, чтобы сообщить поисковой системе, какие URL-адреса не показывать в результатах поиска - другими словами , блокировка не помешает его индексации.Если поисковая система найдет достаточно ссылок на этот URL, она включит его, но просто не будет знать, что на этой странице. Итак, ваш результат будет выглядеть так:

Если вы хотите надежно заблокировать отображение страницы в результатах поиска, вам необходимо использовать мета-тег robots noindex . Это означает, что для того, чтобы найти тег noindex , поисковая система должна иметь доступ к этой странице, поэтому не блокирует ее с помощью robots.txt.

Директивы Noindex

Раньше можно было добавлять директивы noindex в файл robots.txt, чтобы удалить URL-адреса из результатов поиска Google и избежать появления этих "фрагментов". Это больше не поддерживается (и технически никогда не поддерживалось).

Con: не распространяется значение ссылки

Если поисковая система не может сканировать страницу, она не может распределять значение ссылки по ссылкам на этой странице. Когда страница заблокирована с помощью robots.txt, это тупиковый путь. Любое значение ссылки, которая могла перейти на эту страницу (и через нее), теряется.

Синтаксис Robots.txt

WordPress robots.txt

У нас есть целая статья о том, как лучше всего настроить robots.txt для WordPress. Не забывайте, что вы можете редактировать файл robots.txt своего сайта в разделе Инструменты SEO Yoast → Редактор файлов.

Файл robots.txt состоит из одного или нескольких блоков директив, каждый из которых начинается со строки пользовательского агента. «Пользовательский агент» - это имя конкретного паука, к которому он обращается. У вас может быть один блок для всех поисковых систем, используя подстановочный знак для пользовательского агента, или определенные блоки для определенных поисковых систем.Паук поисковой системы всегда выбирает блок, который лучше всего соответствует его названию.

Эти блоки выглядят так (не пугайтесь, объясним ниже):

 User-agent: * 
Disallow: /

User-agent: Googlebot
Disallow:

User-agent: bingbot
Disallow: / not-for-bing /

Директивы

, такие как Allow и Disallow не должны быть чувствительны к регистру, поэтому вам решать, писать ли вы их в нижнем регистре или использовать заглавные буквы.Значения чувствительны к регистру , однако / photo / не то же самое, что / Photo / . Нам нравится использовать директивы с заглавной буквы, потому что это облегчает чтение файла (для людей).

Директива агента пользователя

Первый бит каждого блока директив - это пользовательский агент, который идентифицирует конкретного паука. Поле user-agent сопоставляется с user-agent этого конкретного паука (обычно более длинного), поэтому, например, самый распространенный паук от Google имеет следующий user-agent:

 Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) 

Итак, если вы хотите сказать этому пауку, что делать, сравнительно простая строка User-agent: Googlebot сделает свое дело.

У большинства поисковых систем есть несколько пауков. Они будут использовать специальный паук для своего обычного индекса, для своих рекламных программ, для изображений, для видео и т. Д.

Поисковые системы всегда выбирают наиболее конкретный блок директив, который они могут найти. Допустим, у вас есть 3 набора директив: один для * , один для Googlebot и один для Googlebot-News .Если появляется бот, чей пользовательский агент Googlebot-Video , он будет следовать ограничениям для роботов Googlebot . Бот с пользовательским агентом Googlebot-News будет использовать более конкретные директивы Googlebot-News .

Наиболее распространенные пользовательские агенты для пауков поисковых систем

Вот список пользовательских агентов, которые можно использовать в файле robots.txt для поиска наиболее часто используемых поисковых систем:

baiduspider видео bingbot
Поисковая система Поле Агент пользователя
Baidu General baiduspider
Baidu

35

00 00
изображений Baidu

25

00 00
Мобильный baiduspider-mobile
Baidu Новости baiduspider-news
Baidu Видео Видео
Bing Общий msnbot
Bing Изображения и видео msnbot-media
0

25

Ads000 Ads000 Google Ads72
Bing Общий Googlebot
Google Изображения Googlebot-Image
Google Mobile Googlebot-Mobile
Новости Google Новости Google
Google Видео Googlebot-Video
Google AdSense Mediapartners-Google
Google AdWords AdWords AdWords Общие slurp
Яндекс Общие яндекс

Директива запрета

Вторая строка в любом блоке директив - это строка Disallow .У вас может быть одна или несколько таких строк, указывающих, к каким частям сайта указанный паук не может получить доступ. Пустая строка Disallow означает, что вы ничего не запрещаете, поэтому в основном это означает, что паук может получить доступ ко всем разделам вашего сайта.

В приведенном ниже примере блокируются все поисковые системы, которые «слушают» robots.txt, от сканирования вашего сайта.

 Агент пользователя: * 
Disallow: /

Если всего на один символ меньше, то в приведенном ниже примере позволит всем поисковым системам сканировать весь ваш сайт.

 Агент пользователя: * 
Disallow:

В приведенном ниже примере Google не сможет сканировать каталог Photo на вашем сайте - и все, что в нем.

 User-agent: googlebot 
Disallow: / Photo

Это означает, что все подкаталоги каталога / Photo также не будут проверяться. Это , а не , заблокировало бы Google от сканирования каталога / photo , поскольку эти строки чувствительны к регистру.

Это приведет к тому, что также заблокирует Google доступ к URL-адресам, содержащим / Photo , например / Photography / .

Как использовать подстановочные знаки / регулярные выражения

«Официально» стандарт robots.txt не поддерживает регулярные выражения или подстановочные знаки, однако все основные поисковые системы его понимают. Это означает, что вы можете использовать такие строки для блокировки групп файлов:

 Запрещено: /*.php 
Запрещено: /copyrighted-images/*.jpg

В приведенном выше примере * заменяется на любое имя файла, которому оно соответствует. Обратите внимание, что остальная часть строки по-прежнему чувствительна к регистру, поэтому вторая строка выше не будет блокировать файл с именем / copyrighted-images / example.JPG от сканирования.

Некоторые поисковые системы, такие как Google, позволяют использовать более сложные регулярные выражения, но имейте в виду, что некоторые поисковые системы могут не понимать эту логику. Самая полезная функция, которую он добавляет, - это $ , которое указывает конец URL-адреса. В следующем примере вы можете увидеть, что это делает:

 Запретить: /*.php$ 

Это означает, что /index.php не может быть проиндексирован, но /index.php?p=1 может быть .Конечно, это полезно только в очень определенных обстоятельствах, а также довольно опасно: легко разблокировать то, что вы на самом деле не хотели разблокировать.

Нестандартные директивы сканирования robots.txt

Помимо директив Disallow и User-agent , вы можете использовать еще несколько директив сканирования. Эти директивы поддерживаются не всеми сканерами поисковых систем, поэтому убедитесь, что вы знаете об их ограничениях.

Разрешающая директива

Хотя это и не входило в исходную «спецификацию», очень рано говорилось о директиве allow .Похоже, что большинство поисковых систем понимают это, и он допускает простые и очень удобочитаемые директивы, например:

 Запретить: / wp-admin / 
Разрешить: /wp-admin/admin-ajax.php

Единственным другим способом достижения того же результата без директивы allow было бы специально запретить каждый отдельный файл в папке wp-admin .

Директива хоста

Поддерживается Яндексом (а не Google, несмотря на то, что говорится в некоторых публикациях), эта директива позволяет вам решить, хотите ли вы, чтобы поисковая система показывала пример .com или www.example.com . Просто укажите это так:

 хост: example.com 

Но поскольку только Яндекс поддерживает директиву host , мы не советуем вам полагаться на нее, тем более что она не позволяет вам определять схему (http или https). Лучшее решение, которое работает для всех поисковых систем, - это 301 перенаправление имен хостов, которые вам не нужны в индексе , на версию, которую вы хотите .В нашем случае мы перенаправляем www.yoast.com на yoast.com.

Директива задержки сканирования

Bing и Яндекс иногда могут быть довольно голодными, но, к счастью, все они реагируют на директиву crawl-delay , которая их замедляет. И хотя эти поисковые системы имеют несколько разные способы чтения директивы, конечный результат в основном тот же.

Строка, подобная приведенной ниже, заставит эти поисковые системы изменить частоту запроса страниц на вашем сайте.

 задержка сканирования: 10 
Различные интерпретации

Обратите внимание, что Bing интерпретирует это как инструкцию подождать 10 секунд после сканирования, в то время как Яндекс интерпретирует это как указание на доступ к вашему сайту только один раз в 10 секунд. Это небольшая разница, но все же интересно узнать.

Будьте осторожны при использовании директивы crawl-delay . Установив задержку сканирования в 10 секунд, вы разрешите этим поисковым системам доступ только к 8 640 страницам в день.Для небольшого сайта этого может показаться много, но для крупных сайтов не так уж много. С другой стороны, если вы почти не получаете трафика от этих поисковых систем, это хороший способ сэкономить часть полосы пропускания.

Директива карты сайта для XML-файлов Sitemap

С помощью директивы sitemap вы можете указать поисковым системам, в частности Bing, Яндекс и Google, где найти вашу карту сайта в формате XML. Вы, конечно, также можете отправить свои XML-карты сайта в каждую поисковую систему, используя соответствующие решения инструментов для веб-мастеров, и мы настоятельно рекомендуем вам это сделать, потому что программы инструментов для веб-мастеров поисковых систем предоставят вам много ценной информации о вашем сайте.Если вы не хотите этого делать, можно быстро добавить строку карты сайта в файл robots.txt.

 Карта сайта: https://www.example.com/my-sitemap.xml 

Проверьте свой robots.txt

Существуют различные инструменты, которые могут помочь вам проверить файл robots.txt, но когда дело доходит до проверки директив сканирования, мы всегда предпочитаем обращаться к источнику. У Google есть инструмент тестирования robots.txt в своей консоли поиска Google (в меню «Старая версия»), и мы настоятельно рекомендуем его использовать:

Тестирование роботов.txt в Google Search Console

Обязательно тщательно протестируйте свои изменения, прежде чем вносить их в работу! Вы не будете первым, кто случайно использовал robots.txt, чтобы заблокировать весь свой сайт и уйти в небытие поисковой системы!

Увидеть код

В июле 2019 года Google объявил, что делает свой парсер robots.txt открытым исходным кодом. Это означает, что, если вы действительно хотите разобраться в деталях, вы можете пойти и посмотреть, как работает их код (и даже использовать его самостоятельно или предложить модификации).

полное руководство • Yoast

Джоно Алдерсон

Джоно - цифровой стратег, технолог по маркетингу и разработчик полного цикла. Он занимается техническим SEO, новыми технологиями и стратегией бренда.

Если вы используете на своих страницах мета-теги для роботов , вы можете дать поисковым системам инструкции о том, как вы хотите, чтобы они сканировали или индексировали части вашего веб-сайта. На этой странице представлен обзор всех различных значений, которые могут быть в метатеге роботов, их функций и поисковых систем, поддерживающих каждое значение.

Различные значения метатегов роботов

Следующие значения («параметры») могут быть размещены отдельно или вместе в атрибуте содержимого тега (разделенных запятой), чтобы управлять тем, как поисковые системы взаимодействуют с вашей страницей.

Прокрутите вниз, чтобы увидеть, какие поисковые системы поддерживают какие конкретные параметры.

индекс
Разрешить поисковым системам добавлять страницу в свой индекс, чтобы люди могли ее обнаружить.
Примечание: Если нет директив, относящихся к индексированию, предполагается, что это значение по умолчанию.
noindex
Запретить поисковым системам добавлять эту страницу в свой индекс и, следовательно, запретить им показывать ее в своих результатах.
Примечание: Неофициальные сообщения от Google предполагают, что если для страницы задано значение noindex в течение длительного периода времени, ее также можно рассматривать, как если бы она была также установлена ​​на nofollow .Точный механизм этого неясен, и неясно, ведут ли другие поисковые системы аналогично.
подписаться на
Сообщает поисковым системам, что они могут переходить по ссылкам на странице, чтобы обнаружить другие страницы.
Примечание: Если нет директив, относящихся к следующим ссылкам, предполагается, что это значение по умолчанию.
nofollow
Указывает роботам поисковых систем не «поддерживать» (передавать капитал) любые ссылки на странице.Обратите внимание, что сюда входят всех ссылок на странице, включая, например, ссылки в элементах навигации, ссылки на изображения или другие ресурсы и т. Д.
Примечание: Неясно (и несовместимо между поисковыми системами), запрещает ли этот атрибут поисковым системам переходить по ссылкам или просто не дает им присваивать какое-либо значение этим ссылкам.
нет
Ярлык для noindex, nofollow .
все
Ярлык для индекса , следуйте за .
Примечание: Предполагается по умолчанию на всех страницах и ничего не делает, если указано.
noimageindex
Запретить поисковым системам индексировать изображения на странице.
Примечание: Если изображения связаны напрямую из других источников, поисковые системы все равно могут их индексировать, поэтому использование HTTP-заголовка X-Robots-Tag, как правило, является лучшей идеей.
нет архива
Запрещает поисковым системам показывать кэшированную копию этой страницы в своих списках результатов поиска.
нокаш
То же, что noarchive , но используется только MSN / Live.
носнапет
Запрещает поисковым системам показывать текст или фрагмент видео (т. Е. Метаописание ) этой страницы в результатах поиска, и запрещают им показывать кэшированную копию этой страницы в своих списках результатов поиска.
Примечание. Фрагменты могут по-прежнему отображать миниатюры изображения, если также не используется noimageindex .
номера ссылокsearchbox
Запрещает поисковой системе отображать встроенное окно поиска для вашего сайта.
nopagereadaloud
Запрещает поисковой системе читать вслух содержимое вашей страницы с помощью голосовых служб / результатов.
notranslate
Запрещает поисковым системам показывать перевод страницы в результатах поиска.
max-snippet: [number]
Задает максимальное количество символов для метаописания.
Примечание: Пропуск этого тега может привести к предполагаемому значению 0 . Значение по умолчанию –1 должно означать «без ограничений».
max-video-preview: [номер]
Задает максимальное количество секунд для видео при предварительном просмотре.
Примечание: Пропуск этого тега может привести к предполагаемому значению 0 . Значение по умолчанию –1 должно означать «без ограничений».
max-image-preview: [настройка]
Задает максимальный размер изображения для использования при предварительном просмотре ( нет , стандартный или большой ).
Примечание: Пропуск этого тега может привести к подразумеваемому значению нет .
рейтинг
Указывает, что страница содержит материалы для взрослых.
unavailable_after
Сообщает поисковым системам дату / время, после которых они не должны показывать это в результатах поиска; «синхронизированная» версия noindex .
Примечание: должен быть в формате RFC850 (например, Понедельник, 15 августа 05 15:52:01 UTC ).
ноя
Запрещает фрагменту результатов поиска использовать описание страницы из Справочника Яндекса.
Примечание: Поддерживается только Яндекс.
нойдир
Запрещает Yahoo использовать описание этой страницы в каталоге Yahoo в качестве фрагмента для вашей страницы в результатах поиска.
Примечание: Поскольку Yahoo закрыла свой каталог, этот тег устарел, но время от времени вы можете встретить его.

Какая поисковая система поддерживает какие значения метатегов роботов?

В этой таблице показано, какие поисковые системы поддерживают какие значения.Обратите внимание, что документация, предоставляемая некоторыми поисковыми системами, скудна, поэтому есть много неизвестных.

Стоимость роботов Google Yahoo Бинг Спросите Baidu Яндекс
Элементы управления индексированием
индекс Я * Я * Я *? Y Y
noindex Y Y Y? Y Y
noimageindex Y N N? N N
Следует ли переходить по ссылкам
следовать Я * Я * Я *? Y Y
nofollow Y Y Y? Y Y
нет Y??? N Y
все Y??? N Y
Элементы управления фрагментом / предварительным просмотром
без архива Y Y Y? Y Y
nocache N N Y? N N
носниппет Y N Y? N N
абонентские ссылкиsearchbox Y N N N N N
nopagereadaloud Y N N N N N
notranslate Y N N? N N
max-snippet: [number] Y Y N N N N
max-video-preview: [номер] Y Y N N N N
max-image-preview: [настройка] Y Y N N N N
Разное
рейтинг Y N N N N N
недоступен_после Y N N? N N
лапша N Г ** Г **? N N
нойдир N Г ** N? N N
нояка N N N N N Y

* Большинство поисковых систем не имеют специальной документации для этого, но мы предполагаем, что поддержка исключения параметров (например,g., nofollow ) подразумевает поддержку положительного эквивалента (например, следует за ).
** Хотя атрибуты noodp и noydir все еще «поддерживаются», эти каталоги больше не существуют, и вполне вероятно, что эти значения ничего не делают.

Правила для конкретных поисковых систем

Иногда вам может потребоваться предоставить конкретные инструкции определенной поисковой системе , но не другим. Или вы можете предоставить разные поисковые системы совершенно разные инструкции.

В этих случаях вы можете изменить значение атрибута содержимого для конкретной поисковой системы (например, googlebot ).

Примечание: Учитывая, что поисковые системы просто игнорируют инструкции, которые они не поддерживают или не понимают, очень редко, нужно использовать несколько метатегов роботов для установки инструкций для определенных поисковых роботов.

Конфликтующие параметры и файлы robots.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *