— HTML — Дока
- Кратко
- Пример
- Как пишется
- Другие способы запретить поисковикам индексирование
- Как понять
- Авторы:
- rrramble
Кратко
Скопировано
Тег <noindex>
запрещает поисковым системам индексировать содержимое. Этот тег поддерживает только поисковик Яндекс.
Пример
Скопировано
<noindex> <!-- Рекламный текст другой компании --> <article>Реклама наших партнёров:...</article> <!-- Служебная ссылка --> <a href="/login">Вход во внутренний портал для работников компании</a></noindex>
<noindex>
<!-- Рекламный текст другой компании -->
<article>Реклама наших партнёров:.
..</article>
<!-- Служебная ссылка -->
<a href="/login">Вход во внутренний портал для работников компании</a>
</noindex>
Как пишется
Скопировано
Этого тега нет в спецификации HTML, поэтому HTML-валидатор покажет ошибку. Чтобы избежать проблем с валидацией, Яндекс предлагает такие варианты:
- использовать синтаксис
<!‐‐noindex‐‐><!‐‐
;/ noindex‐‐> - использовать тег
<noscript>
Примеры:
<!‐‐noindex‐‐> <!-- Рекламный текст другой компании --> <article>Реклама наших партнёров:...</article> <!-- Служебная ссылка --> <a href="/login">Вход во внутренний портал для работников компании</a><!‐‐/noindex‐‐><noscript>Текст, индексирование которого нужно запретить.</noscript>
<!‐‐noindex‐‐>
<!-- Рекламный текст другой компании -->
<article>Реклама наших партнёров:.
..</article>
<!-- Служебная ссылка -->
<a href="/login">Вход во внутренний портал для работников компании</a>
<!‐‐/noindex‐‐>
<noscript>Текст, индексирование которого нужно запретить.</noscript>
Другие способы запретить поисковикам индексирование
Скопировано
- Запретить индексирование разделов сайта и страниц: поместите в корневую папку сайта файл robots.txt.
- Запретить индексирование всей страницы: укажите тег
<meta name
в секции= "robots" content = "noindex"> <head>
. - Запретить переходить по ссылке: у тега
<a>
укажите атрибутrel
.= "nofollow"
Как понять
Скопировано
Поисковые системы сканируют (индексируют) содержимое сайтов в интернете. Когда пользователь ищет информацию, поисковики выдают ответ на основе ранее отсканированного.
Не всё содержимое имеет смысл индексировать:
- сторонняя реклама от партнёров сайта — если реклама не связана с сайтом;
- ссылки, которые публикуют пользователи форумов – если сайт не хочет отвечать за некорректные ссылки;
- служебная информация для своих работников.
Если вы нашли ошибку, отправьте нам пул-реквест!
Во время отправки формы что-то пошло не так. Попробуйте ещё раз?
←
Поисковая оптимизация для начинающих
ctrl + alt + ←
→
Блочная модель
ctrl + alt + →
Noindex\ SEO словарь веб студии Муравейник
Автор статьи
Андрей Буйлов
Подробнее об авторе
Noindex — это либо тег Яндекса, который запрещает индексирование какого-либо куска текста, либо метатег страницы, который учитывается поисковой системой для запрета на индексацию всей страницы.
Чтобы в Яндексе запретить индексацию определенной части документа, ее обрамляют постановкой <noindex> перед и </ noindex> после этого куска текста или кода. Таким образом поисковой системе рекомендуется не проводить индексацию данной части.
К этой процедуре прибегают в случае, если важна валидация кода. То есть, когда проходитесь по коду валидатором, который «говорит», что на сайте столько-то страниц, в том числе noindex, — валидатор не знает такого, потому что он придуман Яндексом исключительно для своих нужд. Естественно, что мировые валидаторы его не знают и учитывают его как ошибку, ошибочный. Вы можете писать таким образом тег, валидатор не будет на него реагировать. Эффект для Яндекса такой же.
Раньше noindex можно было действительно закрывать куски текста, и Яндекс его не учитывал никогда. Некоторое время этот метод использовался для ухода от фильтра Баден-Баден, который штрафует как раз за тексты там, где они не очень к месту. И когда мы встретили этот фильтр, то, конечно, в первую очередь на документах или сайтах, которые попали под этот фильтр, стали просто обрамлять тексты noindex. И действительно, они первое время выходили из-под этого фильтра.
Но впоследствии эта махинация была Яндексом раскрыта: текст никуда не ушел, он остался тем же спамом, но не передавался для индексации. Соответственно Яндекс продолжил на эти страницы накладывать фильтр, и тексты пришлось удалять. Поэтому эта схема до сих пор работает, но уже не так однозначно как ранее и не для всех задач.
Второй вариант noindex — это метатег, то есть использование в robots или в метатеге с названием поисковой системы, мы можем запретить индексацию всего документа. Например, мы по какой-то причине не хотим прописывать запрет на индексацию в robots.txt. Это какой-то вид страниц, которых у нас на сайте сотни или тысячи. И тогда нам удобнее попросить программиста просто дописывать robots noindex для того, чтобы определенный тип страниц не индексировался.
Например, у вас есть страницы фильтров в каталоге или страницы для печати, которые нам для индексации не нужны, это будут дубли той же самой исходной страницы. И тогда программист прописывает, для каких страниц выводится метатег, и они не будут индексироваться.
Аналогичным образом можно закрыть куски текста не для всех поисковых систем, а для одной, например, указав в нейме Яндекс. И тогда для Гугла эта страница будет индексироваться, а для Яндекса не будет.
поисковых роботов — Robots.txt не препятствует сканированию моего сайта
спросил
Изменено 3 года назад
Просмотрено 2к раз
У меня проблема с robots.txt.
Я положил файл robots.txt в основную директорию сайта (а также в /var/www/html
— чтобы работало на всех серверах) но роботы продолжают сканировать мои сайты.
это мой robots.txt:
User-agent: YandexBot Запретить: / Агент пользователя: SemrushBot Запретить: / Агент пользователя: AhrefsBot Запретить: / Агент пользователя: SemrushBot/1.2~bl Запретить: /
У вас есть предложения?
- поисковые роботы
- robots.txt
- yandex
4
Обратите внимание, что ваш robots.txt недействителен (но это не обязательно означает, что это является причиной вашей проблемы; боты могут игнорировать такие ошибки).
Если бот будет разбирать ваш файл robots.txt строго в соответствии со спецификацией robots.txt, то этот бот увидит только одну запись, и эта запись будет относиться только к ботам с именем «ЯндексБот». Всем другим ботам будет позволено сканировать все.
Причина в том, что записи должны быть разделены пустыми строками. Так и должно быть:
Агент пользователя: YandexBot Запретить: / Агент пользователя: SemrushBot Запретить: / Агент пользователя: AhrefsBot Запретить: / Агент пользователя: SemrushBot/1.2~bl Запретить: /
Если у вас всегда будет один и тот же Disallow
для всех этих ботов, вы можете использовать одну запись с несколькими строками User-agent
, если хотите:
User-agent: YandexBot Агент пользователя: SemrushBot Агент пользователя: AhrefsBot Агент пользователя: SemrushBot/1.2~bl Запретить: /
(Возможно, вам придется использовать разные имена для некоторых ботов, которых вы собираетесь заблокировать, как предлагает @StephenOstermiller в своем ответе.)
После того как вы создадите файл robots.txt, поисковым роботам потребуется день или больше, чтобы получить его.
Яндекс имеет ряд ботов и документацию о том, как запретить их всех с помощью robots.txt здесь: https://yandex.com/support/webmaster/controlling-robot/robots-txt.xml Возможно, вы захотите рассмотреть изменить robots.txt на это для Яндекса:
User-agent: Яндекс Запретить: /
SEM У Раша есть два бота. Их документация по этому поводу находится здесь: https://www. semrush.com/bot/ Вы правильно запретили одно из них, но ваше второе правило с номером версии бота не будет действовать. Вы должны использовать эти правила, чтобы запретить сканирование SEM Rush:
Агент пользователя: SemrushBot Запретить: / Агент пользователя: SemrushBot-SA Запретить: /
Вы уже запрещаете AhrefsBot в соответствии с их документацией: https://ahrefs.com/robot
Агент пользователя: AhrefsBot Запретить: /
Зарегистрируйтесь или войдите в систему
Зарегистрируйтесь с помощью Google
Зарегистрируйтесь, используя адрес электронной почты и пароль
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Опубликовать как гость
Электронная почта
Требуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie
Как предотвратить появление страницы веб-сайта в результатах поиска
Дэнни Гуо |郭亚东
Чтобы страница веб-сайта не отображалась в результатах поиска, либо установите
роботов
мета
пометить или отправить X-Robots-Tag
HTTP
заголовок.
Таким образом, вы можете добавить этот тег на страницу:
Или отправьте этот заголовок для страницы:
X-Robots-Tag: noindex
Одним из преимуществ подхода с использованием заголовков является то, что его можно использовать для контента, отличного от HTML, как файл PDF или JSON.
Значение noindex
указывает поисковым роботам, таким как Google и Bing, не индексировать
страницу, поэтому она не будет отображаться в результатах поиска.
Не использовать
robots.txt
Возможно, вы захотите использовать исключение роботов
стандартный (т. robots.txt
), чтобы запретить сканирование, но это не
работа
потому что тогда сканеры не смогут увидеть вашу директиву не индексировать страницу. У вас есть
велел им вообще не смотреть на страницу! Поэтому, если другие веб-сайты ссылаются на
вашей страницы, поисковый робот все еще может подобрать и проиндексировать страницу.
Файл robots.txt
предназначен для управления сканированием , а не индексированием .
Директивы
Существует много возможных значений директивы, и вы можете указать более одного, разделяя их запятыми:
-
все
: без ограничений (поведение по умолчанию) -
noindex
: исключить страницу из результатов поиска -
nofollow
: не переходить по ссылкам на странице -
нет
: то же, что иnoindex, nofollow
-
noarchive
илиnocache
: не ссылаться на кешированную версию страницы -
nosnippet
: не показывать описание, фрагмент, миниатюру или предварительный просмотр видео страница в результатах поиска -
max-snippet:[length]
: ограничить фрагмент до[длина]
количество символов -
max-image-preview:[setting]
: установить максимальный размер предварительного просмотра изображения, где[настройка]
может бытьнет
,стандартный
илибольшой
-
max-video-preview:[length]
: ограничить предварительный просмотр видео до[length]
количество секунд -
notranslate
: не ссылаться на перевод страницы -
noimageindex
: не индексировать изображения на странице -
unavailable_after:[datetime]
: исключить страницу из результатов поиска после[datetime]
, который должен быть в стандартном формате, таком как ISO 8601
Однако не все программы-обходчики поддерживают все значения.