Тег noindex введен поисковой системой Яндекс. Он предназначен для закрытия от индексации роботами ссылки или части html кода на странице. Имеет следующую структуру:
<noindex> ссылка или часть кода, которые необходимо скрыть, </noindex>
Данный тег не чувствителен к вложенности и может быть размещен в любой части кода. Поисковые машины, кроме Яндекса, воспринимают команду в качестве невалидной. Если валидность кода важна, тег оформляется следующим образом:
<!—noindex—> текст <!—/noindex—>
Функции:
Тег noindex позволяет:
повысить релевантность страницы поисковым запросам за счет уменьшения доли второстепенной информации и увеличения плотности ключевых слов,
скрыть дублирующийся контент, за использование которого может последовать пессимизация сайта в выдаче Яндекса,
сохранять статический вес страниц и управлять его передачей, так как закрытие одних ссылок пропорционально увеличивает вИЦ оставшихся,
улучшить сниппет. Если в ходе раскрутки сайта в его текстовое описание в выдаче попадает ненужная информация со страницы, ее закрывают от индексации,
скрыть от роботов лишние данные (коды счетчиков, ссылки на сайты с постоянно изменяющейся информацией и т.д.).
Nofollow
Атрибут nofollow не оказывает влияния на индексацию ссылок, но сообщает поисковым роботам, что вес данного линка равен нулю. При продвижении сайта это позволяет сохранить его PR и тИЦ, которые на указанную страницу не передаются. Поисковые боты (кроме googlebot) по ссылке переходят. Атрибут поддерживают Google, Yahoo и Яндекс (с 30 апреля 2010 года). Структура написания параметра следующая: анкор ссылки
Атрибут nofollow используют для ссылок на все сайты, которым не требуется передавать TrustRank ресурса-донора. Для внутренней перелинковки прием не применяется.
Noindex и nofollow позволяют закрыть от индексацию не только отдельную ссылку, но и всю страницу (прописываются внутри нее или в файле robots.txt):
<Meta name=”robot” content=”noindex, nofollow”>
или
<html>
<head>
<meta content=”nofollow”/>
<title>Заголовок данной страницы</title>
</head>
Nofollow и noindex могут использоваться совместно:
В таком случае поисковый робот Google ссылку проигнорирует, а Яндекса не увидит.
Другие термины на букву «N»
Совпадений не найдено
Все термины SEO-Википедии
Теги термина
самая подробная справка от Q-SEO
В первую очередь давайте начнем с того, что существует несколько принципиально разных понятий: тег <noindex>, атрибут rel=”nofollow” и мета-тег <meta name=»robots» content=»noindex, nofollow» />. В этой статье мы подробно разберемся с их определениями и предназначениями.
Что такое тег <noindex>
<noindex>…</noindex> – тег, который предложили использовать поисковые системы для запрета индексации заключенного в него контента. Данный тег не входит в официальную спецификацию гипертекстовой разметки веб-страниц формата html.
Важно: распознается он лишь поисковыми системами Яндекс и Рамблер. Google не относится к числу поисковых систем, понимающих данный html тег.
Что такое атрибут rel=”nofollow”
rel=”nofollow” – значение, запрещающее поисковым системам переходить по ссылке, в которой используется данный атрибут.
Ниже будут рассмотрены все примеры использования тега <noindex> и атрибута rel=”nofollow”.
Тег noindex и атрибут rel=“nofollow”
Тег <noindex> для ссылок
Данный тег можно использовать для закрытия ссылок от индексации. Вот так это будет выглядеть в коде страницы:
Данный тег можно использовать и для закрытия контента от индексации. Существует два способа. В коде страницы это будет выглядеть так:
<noindex>Текст, запрещённый к индексированию</noindex>
<noindex>Текст, запрещённый к индексированию</noindex>
<!—noindex—>Текст, запрещённый к индексированию<!—/noindex—>
<!—noindex—>Текст, запрещённый к индексированию<!—/noindex—>
Но стоит помнить, что данный тег понимают только поисковые системы Яндекс и Рамблер. Его свойства не распространяются на Google. Поэтому, если на вашем сайте есть некачественный контент, закрыть его таким способом можно только от роботов Яндекса и Рамблера.
rel=”nofollow” для ссылок
Данный атрибут, чаще всего, используется оптимизаторами в том случае, если они хотят, чтобы поисковые системы не учитывали наличие исходящей ссылки, как фактор передачи веса, но ссылка всё равно будет изучена роботом. Вот как это выглядит в коде:
Обычно, это уместно тогда, когда ссылки проставляются автоматически, например, в комментариях. Если вы не можете или не хотите поручиться за содержание страниц, на которые ведут ссылки с вашего сайта, следует вставлять в теги таких ссылок rel=»nofollow». Такой атрибут понимают и Google-боты и Яндекс-боты, а в своих справках поисковые системы пишут следующее:
Если вы внимательно прочитали информацию по указанным выше ссылкам, теперь вы знаете, что вес по nofollow-ссылке не передается. Но из практики, мы можем смело сказать, что наличие таких ссылок в ссылочном профиле – очень полезный и достаточно естественный фактор в глазах поисковых систем. Но иметь много исходящих ссылок на своем сайте может быть негативным фактором, даже если они закрыты через данный атрибут.
Нужно ли использовать rel=”nofollow” для внутренних ссылок
Для того, чтобы сквозные ссылки, например на страницу регистрации или входа в личный кабинет не отнимали вес у других страниц, и не передавали его бесполезно, можно использовать rel=”nofollow”.
Как использовать совместно тег <noindex> и rel=”nofollow”
Вот пример кода, когда оптимизаторы используют тег <noindex> и атрибут rel=”nofollow” одновременно:
Суть значений noindex и nofollow в мета-теге остается та же:
Noindex – запрещает индексацию на уровне страницы (весь контент, который на ней есть), но не запрещает поисковым роботам посещать ее и переходить по ссылкам, которые используются в контенте.
Nofollow – запрещает поисковым роботам переходить по ссылкам на уровне страницы (и по внешним, и по внутренним).
Комбинации <meta name=»robots» content=»х, y» />
Есть несколько случаев, когда используют данный мета-тег на практике. Под эти случаи есть разные решения:
<meta name=»robots» content=»noindex, follow» /> нужно использовать в случае, если вы не хотите, чтобы страница была проиндексирована поисковыми системами, но роботы смогли бы перейти по ссылкам с этой страницы на другие. Например, это может быть вторая страница пагинации на сайте типа site.com/category/?page=2, на которой есть ссылки на следующие товары и вы не хотите, чтобы эта страница была проиндексирована поисковой системой.
<meta name=»robots» content=»noindex» /> выполняет то же самое. В данном случае вы запретите поисковой системе индексировать страницу, но просматривать ее и ходить по ссылкам роботы смогут.
<meta name=»robots» content=»noindex, nofollow» /> – запрещает индексировать контент на соответствующей странице, а также запрещает роботам переходить по ссылкам.
<meta name=»robots» content=»index, follow» /> – разрешает роботам индексировать страницу и ходить по ссылкам. Такой мета-тег не имеет смысла использовать, так как по умолчанию, и без него поисковикам разрешено выполнять те же действия. Но если на вашем сайте он установлен и вы не собираетесь ограничивать работу робота, специально удалять его нет смысла.
<meta name=»robots» content=»index, nofollow» /> — разрешает индексировать страницу, но по ссылкам, которые в ней содержатся, робот переходить не будет.
<meta name=»robots» content=»nofollow» /> — делает то же самое — разрешает индексировать страницу, но по ссылкам, которые в ней содержатся, робот переходить не будет.
Данный мета-тег можно использовать как для Google, так и для Яндекс отдельно
Если вам необходимо закрыть от индексации страницы только для Google, можно использовать <meta name=»googlebot» content=»noindex» />. Так говорит справка Google.
Если закрыть от индексации только для Яндекса – <meta name=»yandex» content=»noindex»/>. Об этом также очень подробно написано в справке Яндекс.
Как сочетать meta name=»robots» с robots.txt и в чем принципиальная разница
Некоторые оптимизаторы не понимают разницу между мета-тегом <meta name=»robots» content=»noindex, nofollow» />
и закрытием соответствующей страницы в файле robots.txt. Оба способа запрещают поисковым роботам индексировать страницу сайта, но отличие все же есть:
Первый – разрешает роботам зайти на эту страницу, увидеть мета-тег и исключить ее из индекса или не индексировать.
Второй – запрещает зайти на страницу, и если вдруг она ранее уже была проиндексирована, она может долго находится в индексе поисковых систем, даже если вы ее закроете в файле robots.txt, без права на переиндексацию, впоследствии вы можете видеть ее в поиске так:
Поэтому для непроиндексированных страниц можно использовать любой из вариантов.
Если же страница уже была проиндексирована, рекомендуется установить в секцию <head> мета-тег <meta name=»robots» content=»noindex, nofollow» />. Это исключит ее из индекса и предотвратит последующее попадение в него.
Если ваш сайт создан на WordPress, правильно настроить данные мета-теги поможет бесплатный плагин Yoast SEO. Примерно вот так это выглядит:
Помочь проанализировать наличие всех этих элементов (и мета-тегов и тегов и атрибутов) в коде страниц сайта может расширение для браузера RDS-бар:
Правильно настроив его, вы сможете видеть контент, завернутый в тег <noindex> (будет подсвечиваться):
Ссылки с rel=»nofollow» (ссылка будет перечеркнутой, а в данном случае она еще и завернута в тег <noindex>):
И использование мета-тега <meta name=»robots» content=»x, y» />:
Теперь вы знаете как с помощью данных методов настроить правильную индексацию страниц. Это может оказать положительное влияние на процесс раскрутки веб-сайта.
Комментарии
Комментарии
Что это за теги Nofollow и Noindex, в чем разница и как правильно прописывать
Выясняем, как работают тег noindex и атрибут nofollow. Подробно рассмотрим сценарии использования и узнаем, как прописывать теги для роботов в зависимости от поставленных задач.
Теги и атрибуты
Их еще называют дескрипторами. Это элементы разметки, с помощью которых объектам в текстовом документе придаются определенные свойства. Эти свойства зависят от языка разметки и поставленных задач. Сделать шрифт жирным, превратить кусок текста в гиперссылку или задать ей специфичные визуальные характеристики…
Но есть теги, которые выполняют несколько иные функции. В их числе nofollow и noindex. В любых своих проявлениях они никак внешне не влияют на текст и ссылки. Посетитель сайта не заметит, если часть страницы обведут в тег или пометят атрибутом nofollow. Текст будет выглядеть без изменений.
Изменения произойдут на технической стороне. Отличия заметит поисковой робот, анализирующий и индексирующий веб-страницы.
Что такое noindex
«Ноиндекс» – тег и атрибут HTML-страницы. Можно пометить им страницу целиком, придав ей определенные свойства, либо выбрать отдельный участок кода и применить атрибут к нему.
Функция noindex заключается в «сокрытии» контента от поисковых роботов, машин, анализирующих и индексирующих веб-сайты. Они собирают базу данных для поисковых служб и предоставляют пользователям релевантные результаты поиска.
Если какая-то часть контента на странице помечена тегом noindex, то робот ее проигнорирует и в поиске она учтена не будет, что прямо повлияет на SEO-продвижение ресурса, на котором были произведены соответствующие изменения.
На самом деле, робот, конечно же, посмотрит все, что есть на сайте. Просто не будет заносить это в индексную базу.
Какой контент помечается этим тегом?
Любой. В зависимости от помеченной информации и поискового робота тег будет восприниматься по-разному.
Обычно в noindex заворачивают четыре типа текстового контента:
Информацию с низкой уникальностью, чтобы избежать проблем с антиплагиатом.
Коды счетчиков (типа метрики и других аналитических систем), ненужные поисковику.
Контактные данные, номера и ссылки, которые не стоило бы показывать в поисковой выдаче.
Постоянно меняющийся текст, индексация которого не принесет никакой пользы.
Как использовать тег?
Тег можно вставить в <head> страницы как мету (атрибутом), увеличив область его действия на всю страницу.
С таким кодом индексация страницы разрешается:
<meta name="robots" content="index"/>
А с таким индексация запрещается:
<meta name="robots" content="noindex"/>
Такое правило можно указать для конкретного робота. Например, поискового бота Google:
<meta name="googlebot" content="noindex"/>
Еще один способ — встраивание тегов в текст и оборачивание в него ссылок.
<noindex>кусок текста, который хотелось бы скрыть от индексации поисковиками</noindex>
Правда, такая разметка может нагородить ошибок из-за того, что многие поисковики не понимают тег <noindex> и считают его наличие в тексте ошибкой. Поэтому приходится исползать его вариацию <!–noindex–>. В таком виде роботы, понимающие тег, считывают его без проблем и задают нужные свойства, а непонимающие попросту игнорируют.
Независимо от типа скрываемого контента, принцип остается тем же. Поэтому, если нужно скрыть от индексации код счетчика, ничего специфичного делать не придется. Так же оборачиваем его в <noindex> и все.
Что такое nofollow
Атрибут, вставляющийся перед ссылками и запрещающий по ним переходить.
Вес страницы — это своего рода уровень авторитетности сайтов, один из факторов, учитываемых при ранжировании страниц в поисковых запросах. Чтобы не передавать вес страницы другим сайтам по размещенным на них ссылкам, данные ссылки оборачивают в тег nofollow.
Какой контент помечается этим атрибутом?
Ссылки. Но не все ссылки, а те, что могут как-то негативно повлиять на вес ресурса. Это касается автоматических ссылок, появляющихся в тех или иных участках сайта. Атрибут nofollow стоило бы приписывать любым внешним ссылкам, за которые вы не можете ручаться. Добавленные на ресурс другими пользователями через секцию комментариев или в графу профиля БИО.
Как прописывать тег?
С таким тегом индексирование страницы разрешается, но запрещается переход по всем ссылкам:
<meta name="robots" content="nofollow"/>
Как и в случае с <noindex>, правило можно задать для конкретного поискового робота:
<meta name="googlebot" content="nofollow"/>
Если мы говорим о конкретных ссылках, то переход на них можно запретить прямо внутри разметки.
Некоторые полезные свойства тегов мы уже обсудили выше, но на эту тему можно сказать больше.
Теги помогают сделать информацию на сайте более релевантной за счет вычленения из нее неуникального и разного рода утилитарного контента, который никак не связан с данными для посетителей. Не только пропадает текст, понижающий общую уникальность, но и увеличивается плотность вхождения ключевых слов.
Тегами можно спрятать информацию из сквозных блоков, которые часто воспринимаются роботами как дубликаты данных.
Я уже упомянул выше, что за тегом <noindex> частенько прячут контактную информацию, но не пояснил зачем. Дело в поисковых сниппетах Яндекса и Google, в которые ненароком могут попасть номера телефонов и адреса, указанные на другом сайте или закрепленные за другой компанией в Яндекс.Справочнике.
Атрибут nofollow может прятать платные ссылки. Рекламные статьи, заметки и обзоры, размещенные на странице. Поисковикам запрещают переход по ним, чтобы избежать санкций со стороны Google или Яндекса.
Еще nofollow нужен для распределения приоритетов сканирования. Чтобы в него не попадали всякие формы регистрации и прочие технические страницы. Сканирование этой информации никакой пользы не принесет.
Выше мы использовали <noindex> и nofollow в качестве мета-атрибутов, чтобы задать свойства всей странице целиком. Посмотрим, как разрешить для роботов весь контент и все ссылки:
<meta name="robots" content="index, follow"/>
А это полный запрет на контент и ссылки:
<meta name="robots" content="noindex, nofollow"/>
Данный тег спрячет от ботов страницу целиком, но то же самое можно сделать, указав соответствующую ссылку в графе Disallow файла robots.txt, который отвечает за «исключение» страниц из индексации.
Но способы отличаются тем, что мета-тег разрешает поисковикам заходить на сайт и анализировать его содержимое. А вот если ссылка указана в robots.txt, то бот не сможет на нее зайти и провести индексирование.
Во избежание неадекватного поведения ботов, на уже проиндексированных страницах лучше использовать мета-теги, а в robots.txt заносите новые ссылки, неизвестные для Google и Яндекс.
Итоги
Теперь вы знаете, какие задачи выполняют теги noindex и nofollow. С помощью них можно строго задать поведение поисковых ботов Google и Яндекс в отношении вашего сайта и тем самым улучшить показатели SEO.
Noindex и nofollow – надежные помощники оптимизатора
Содержание:
Зачем использовать тег <noindex> и атрибут rel=«nofollow»
Невзирая на то, что мы упоминаем тег <noindex> и атрибут rel=«nofollow» в пределах одной статьи, они являются совершенно разными элементами кода страниц сайта и соответственно используются для различных целей. Для каких именно, читайте далее по тексту.
Тег <noindex>. Значение и условия применения
Тег <noindex> – размещаемый в HTML-коде странички тег, который запрещает боту поисковой системы Яндекс индексировать часть текста (заключенную внутри него). Тег noindex Яндекс ввел по собственной инициативе, которую до сегодняшнего дня разделяет лишь Рамблер.
Поэтому при использовании тега noindex, Google не будет обращать на него внимания.
Если нужно, чтобы не индексировалась ссылка, noindex не сможет помочь.
В данном примере от индексации будет закрыт лишь анкор «Курсы SEO», а сама ссылка все же будет учтена и по ней передастся вес.
Кстати, довольно часто встречающаяся в сети конструкция rel=«noindex» является ошибочной, поскольку это не атрибут, а тег.
Еще один момент, к которому нужно быть готовым – закрывая от робота часть текста, <noindex> приводит к тому, что валидация сайта будет содержать множество ошибок в коде. Причина все та же: среди тех, кто понимает тег noindex – Яндекс и никто более из существенных поисковиков. Кроме того, этот тег не является стандартизированным.
Но выход все же есть. Для того, чтобы исключить ошибки, связанные с использованием этого тега, существует вариант его написания, который устраивает абсолютно всех:
В этом случае тег будет распознан Яндексом, другие поисковики не обратят на него внимания, а проверка кода не будет воспринимать его, как ошибку.
Несмотря на явную пользу от возможности использовать тег noindex, Google так и не принял его и не создал ничего аналогичного.
Кстати о пользе – вот несколько конкретных ситуаций, в которых данный тег незаменим (не забываем, это актуально только для Яндекса):
Когда нужно спрятать неуникальный текстовый контент.
Закрыть от глаз поисковых роботов коды различных счетчиков.
Убрать из индексации текст, который слишком часто меняется и его добавление в индекс является бессмысленным.
rel=«nofollow». Атрибут, который «работает» со всеми поисковиками
Для того чтобы дать роботу поисковика указание о том, что не нужно переходить и передавать вес по ссылке, существует атрибут тега <a> rel=«nofollow». Он является стандартизированным элементом HTML-кода и воспринимается абсолютно всеми поисковиками.
Причем его использование не делает ссылку невидимой, а лишь указывает, что по ней не нужно переходить и заниматься индексацией страницы, на которую она указывает.
Пример использования:
Использование rel=«nofollow» позволяет:
Исключить передачу веса на «плохой» (с точки зрения поисковых систем) или нетематичный сайт, чтобы не «испортить» свою репутацию.
Повлиять на перераспределение веса между присутствующими на странице ссылками.
Управлять количеством учитываемых исходящих ссылок на страничке.
Закрыть в комментариях ссылки, по которым не предполагается передача веса.
С использованием атрибута rel=«nofollow» важно не переусердствовать: если постоянно скрывать с его помощью ссылки, это может значительно повлиять на уровень доверия поисковиков к Вашему сайту.
Где еще используются noindex и nofollow
Также noindex и его постоянный спутник nofollow могут использоваться совершенно в ином виде – как значения атрибута content в составе мета-тега robots. Последний, в свою очередь, используется в HTML-коде страницы для указания поисковым ботам рекомендаций насчет индексации страничек и переходу по размещенным на них ссылкам.
Приведенный на скриншоте пример трактуется, как пожелание не выполнять индексацию содержимого странички и не анализировать ссылки, размещенные на ней. Наличие подобной конструкции в теле кода страниц может быть возможной причиной, по которой не индексируется сайт.
Основные выводы
Использование одного из вышеупомянутых элементов (или обоих сразу) зависит от условий, которые преследуются (сокрытие части текста, ссылки или всей страницы при использовании с мета-тегом robots).
Если нужно скрыть от робота Яндекса отдельный текст, noindex это сделает, но когда закрывается ссылка, noindex не поможет. В этом случае следует выбрать атрибут rel=«nofollow», не скрывающий анкор ссылки.
Теперь, когда Вы разобрались с особенностями применения <noindex> и rel=«nofollow», не забудьте поделиться этой важной информацией с теми, кто может в ней нуждаться!
Теги nofollow noindex — оптимизация ссылок и текста
Многие оптимизаторы знают, что показатели ТИЦ и PR зависят в первую очередь от количества и качества ссылок на сайт. Но если ваш ресурс ссылается на другие, особенно не подходящие по тематике, то его вес падает. В этой статье будет рассказано, как правильно закрыть ненужные внешние ссылки и текст от индексации с помощью тегов nofollow noindex.
Noindex
Тег noindex используется, чтобы запретить индексацию какой-то определенной части текста. Следует помнить, что ссылки и изображения этот тег от поисковиков не закрывает. Если все-таки попытаться закрыть этим тегом анкор со ссылкой, то под индексацию не попадет только анкор (словосочетание), а сама ссылка однозначно попадает в индекс.
Noindex запрещает индексацию части кода, находящуюся между открывающим и закрывающим тегами. Вот пример:
<noindex> Этот текст Яндекс не индексирует </noindex>
Естественно, его не стоит путать с мета-тегом ноиндекс, который прописывается вначале страницы, они имеют различные задачи. Если взять мета-тег <meta name=»robots» content=»noindex,nofollow»> , то он запрещает индексирование всей страницы и переход по ссылкам. Этот запрет можно также прописать в файле robots.txt и такие страницы поисковыми роботами не будут учтены.
Валидный noindex
Некоторые HTML-редакторы noindex не воспринимают, поскольку он не является валидным. К примеру, в WordPress визуальный редактор его попросту удаляет. Но валидность тегу все же придать можно:
<!-- noindex --> Текст закрыт валидным ноиндекс <!--/ noindex -->
Если в HTML-редакторе прописать тег в такой форме, то он будет абсолютно валиден и можно не бояться, что он исчезнет. Тег noindex воспринимает только поисковый бот Яндекса, робот Гугла на него абсолютно не реагирует.
Некоторые оптимизаторы допускают ошибку, когда советуют закрыть все ссылки такими тегами noindex и nofollow, но об этом будет рассказано ниже. Что касается работы тега ноиндекс, то она безотказна. Абсолютно вся заключенная в этих тегах информация в индекс не попадает. Но некоторые вебмастера утверждают, что иногда все же текст внутри этих тегов индексируется ботами – да, действительно такое случается.
А это все потому, что Yandex изначально индексирует полностью весь html-код страницы, даже находящийся внутри noindex, но затем происходит фильтрация. Поэтому вначале действительно проиндексирована вся страница, но через некоторое время html-код срабатывает и тест, заключенный в этот тег «вылетает» из индексации.
Можно даже не соблюдать вложенность тега noindex – он все равно сработает (об этом рассказывается в справочной Яндекса). Не забывайте, используя, открывающий <noindex> в конце исключаемого текста поставить закрывающий </noindex>, а то весь текст, идущий после тега не проиндексируется.
Nofollow
Атрибут rel=»nofollow» имеет задачу закрывать от поисковиков ссылки, расположенные в тексте. Он используется оптимизаторами для исключения передачи веса со ссылающегося ресурса на ссылаемый. Яндексу об этом атрибуте прекрасно известно.
Необходимо знать, что nofollow вес на странице не сохраняет – если ссылка заключена в этот тег. Вес ресурса по ней не переходит, а наоборот «сгорает» или при присутствии на странице других не закрытых атрибутом ссылок, вес будет распределяться между ними. И если на странице сайта присутствует хотя бы одна внешняя активная ссылка, то вес страницы будет уходить.
Даже если вы закроете все внешние ссылки атрибутом nofollow – то вес все равно сохранен не будет – он «сгорит». Поэтому все внешние ссылки закрывать не имеет смысла.
Основным отличием между nofollow и noindex является то, что нофоллоу – атрибут для тега <a>, который запрещает передачу веса по ссылке, а ноиндекс – это тег, который закрывает от индексации нужный вам текст. Вот пример использования атрибута nofollow:
Естественно, в ссылках, которые ведут на внутренние странички блога атрибут nofollow ставить бессмысленно, хотя бывают исключения. В тех случаях, когда вес со страницы нужно передать по выбранным внутренним ссылкам, все остальные можно закрыть.
Пример совместного использования nofollow и noindex
Прекрасно себя чувствуют оба тега nofollow и noindex, когда они находятся в непосредственной близости. Вот пример их использования:
Оформление ссылки, таким образом, поможет вам удержать вес страницы и к тому же поисковый бот Яндекса анкор не увидит. В заключении нужно сказать, что не нужно закрывать тегом ноиндекс ссылки, таким образом, вы запрещаете индексацию только анкора, но не самой ссылки. Для нее будет достаточно одного атрибута нофоллоу.
Noindex — Robots.Txt по-русски
Noindex – это тег, который позволяет закрывать от индексации поисковой системой определенные участки контента. Если такой тег используется в HTML-коде страницы, то при попадании на нее поисковый бот не будет индексировать ее, поэтому такой документ не попадет в выдачу. Стоит отметить, что этот элемент накладывает запрет на индексирование только текста и не работает со ссылками, изображениями и другими графическими элементами. Для закрытия отдельных страниц от индексации используется мета-тег noindex, который прописывается в блоке <head> страницы, а для ссылок – специальный атрибут rel=»nofollow».
На данный момент тег noindex учитывает только поисковая система Яндекс, а на ботов Google данное правило не распространяется. Google игнорирует элемент и включает в индекс полное содержимое страницы. Для закрытия от индексации целых страниц роботами всех поисковых систем необходимо прописывать специальные правила в файле robots.txt, который располагается в корневом каталоге сайта.
Особенности и преимущества
Использование элемента noindex позволяет решить ряд проблем поисковой оптимизации сайта:
Скрыть от поисковика сквозной контент, дублирующийся на нескольких страницах сайта, например, на страницах пагинации.
Скрыть неуникальные куски текста, например, техническую информацию, которая может дублироваться на разных ресурсах.
Закрыть от индексации служебную информацию, которая может подтягиваться в сниппет.
Повысить плотность ключевых слов путем скрытия второстепенной информации и тем самым решить проблемы с релевантностью документа.
Принцип работы и правила использования
Для закрытия от индексации контента его необходимо заключить в теги <noindex> </noindex>.
Например:
<noindex>Текст</noindex>
Однако при использовании данного тега, как правило, возникают ошибки валидности кода. Связано это с тем, что тег noindex не является стандартизированным и распознается исключительно поисковой системой Яндекс. Для устранения данной проблемы рекомендуется использовать тег в коде в следующем формате:
<!—noindex—>Текст<!—/noindex—>
Несмотря на то, что введение данного тега было предложено со стороны Яндекса, сама же поисковая система может расценивать его использование в качестве серого метода оптимизации и накладывать на документ или весь сайт санкции. В большинстве случаев с этой проблемой сталкиваются вебмастера, которые часто используют тег noindex и с его помощью пытаются предоставить пользователям и поисковой системе разную информацию (например, от посетителей скрывается насыщенный ключевыми словами текст, а от поисковых систем – нерелевантный контент).
Как скрыть ссылки и текст от индексации на странице сайта?
Встречаются такие ситуации, когда требуется закрыть контент от индексации. Это может быть:
неуникальный контент;
шаблонный текст, встречающийся на всех страницах сайта;
ссылки на сторонние ресурсы.
Ссылки
(внешние и внутренние)
Закрывать от поисковых систем внешние ссылки необходимо, если вы не хотите, чтобы страница, имеющая ссылку, теряла свой вес.
Это может происходить следующим образом:
Удалением внешних ссылок. Рекомендуется убирать внешние ссылки на сторонние ресурсы.
Если удалить ссылку нет возможности, то необходимо скрыть ссылку от индексации посредством скрипта так, чтобы в исходном коде страницы не было <a href=»» …></a>, а блок выводился в виде: <div></div>. Далее при формировании страницы скриптом выводилось содержимое данного блока в виде ссылок и прочего.
Сам скрипт требуется закрыть от индексации в файле robots.txt.
Добавлением атрибута rel=»nofollow». Необходимо прописать атрибут rel=»nofollow» для внешней ссылки (<a href=»» rel=»nofollow» target=»_blank»>текст ссылки</a>).
Помимо внешних ссылок, аналогичное рекомендуют проводить с внутренними ссылками вида добавить в корзину, вход, авторизация, фильтр, сбросить фильтр и т.д. (для всех элементов, которые сверстаны ссылками <a href>, но при этом не ведут на реальные страницы).
Текст
Если у вас на сайте используется большое количество неуникального или дублирующегося контента, то его необходимо скрыть от индексации.
Это можно сделать двумя способами:
выделить кусок необходимого текста с помощью тега <!—noindex—>…<!—/noindex—>
Если Вы прописали мета-тег <meta name=»robots» content=»noindex»/>, то ссылки на странице все будут доступны для поисковых систем и роботы будут переходить по ним. Поэтому необходимо добавить атрибут, nofollow, если необходимо полностью запретить индексацию страницы. Выглядеть это может следующим образом: <meta name=»robots» content=»noindex, nofollow»/> или <meta name=»robots» content=»none»/>.
#104
Февраль’19
1125
21
#94
Декабрь’18
2700
28
#60
Февраль’18
3470
19
Метатег роботов и HTTP-заголовок X-Robots-Tag
Вы можете указать для роботов правила загрузки и индексации определенных страниц сайта одним из следующих способов: Примечание. Если страница запрещена в файле robots.txt, метатег или директива заголовка не применяются.
По умолчанию поисковые роботы учитывают метатег и заголовок. Вы можете указать директивы для определенных роботов.
Директивы, поддерживаемые Яндексом
Указание нескольких директив
Инструкции для конкретных роботов
Робот использует директивы allow по умолчанию, поэтому вы можете пропустить их, если нет других директив.Директивы Allow имеют приоритет над запрещающими директивами, если существует их комбинация. Пример.
Роботы из других поисковых систем и служб могут интерпретировать директивы по-другому.
Пример:
Элемент, отключающий индексацию страницы.
...
Ответ HTTP с заголовком, запрещающим индексирование страницы.
HTTP / 1.1 200 ОК
Дата: Вт, 25 мая 2010 г., 21:42:43 GMT
X-Robots-Tag: noindex
Вы можете указать несколько директив, разделенных запятыми.
В одном ответе можно передать несколько заголовков и список директив, разделенных запятыми.
HTTP / 1.1 200 ОК
Дата: Вт, 25 мая 2010 г., 21:42:43 GMT
X-Robots-Tag: noindex, nofollow
X-Robots-Tag: noarchive
Если для робота Яндекса указаны конфликтующие директивы, он будет считать положительное значение.Пример директив метатега:
. Вы можете использовать метатег robots для передачи директивы только роботам Яндекса.Пример:
Если вы укажете общие директивы и директивы для роботов Яндекса, поисковая система учтет их все.
Робот Яндекс будет рассматривать эти директивы как noindex, nofollow .
Однако на прошлой неделе все изменилось. Я не видел публичного объявления, но многие оптимизаторы заметили, что количество обратных ссылок в инструментах Яндекс для веб-мастеров резко уменьшилось для многих веб-сайтов, и это связано с тем, что неожиданно Яндекс начал понимать rel = ”nofollow”.Примечание об этом также появилось в справке для веб-мастеров.
Это изменит ситуацию для многих веб-сайтов. Спам в комментариях на форумах и блогах, а также рассылка спама в Википедии были очень распространенной техникой SEO и довольно хорошо работали в не очень конкурентных отраслях. На прошлой неделе форумы SEO были полны жалоб. Я нахожу это довольно забавным. МОЙ БОГ! Теперь нам действительно нужно работать и думать, чтобы получить эти хорошие ссылки! =)
В целом, я думаю, что тенденции в SEO в Яндексе следуют за тенденциями в Google, хотя и с задержкой на пару лет.Следующий шаг к цивилизованной оптимизации будет сделан в ближайшие месяцы: Яндекс объявил, что планирует поддерживать rel = ”canonical”.
Анна Ошкало
Анна — блоггер и консультант по интернет-маркетингу, специализирующаяся на SEO и SEM для российских поисковых систем. Чтобы увидеть больше сообщений Анны, подпишитесь на нее в Twitter или LinkedIn.
Еще сообщения
Ответы в настоящее время закрыты, но вы можете отслеживать их со своего собственного сайта.
Meta tag robots и заголовок X-Robots-Tag: их роль в индексации
12 января 2021 г. | 17 мин. Чтения
Метатег robots и тег x-robots используются для указания сканерам, как индексировать страницы веб-сайта. Первый указывается в HTML-коде веб-страницы, а второй включается в HTTP-заголовок URL-адреса.
Процесс индексации проходит в несколько этапов: контент загружается, анализируется роботами поисковых систем и добавляется в базу данных.Информация, попавшая в индекс, отображается в результатах поиска.
В нашем посте о файле robots.txt мы обсудили, как разрешить ботам сканировать веб-сайт и как предотвратить сканирование ими определенного контента. В этой статье мы узнаем, как получить контроль над индексацией веб-страниц, какой контент следует закрыть из индексации и как это сделать правильно.
Преимущества использования роботов и X-Robots-Tag для SEO
Давайте посмотрим, как метатег robots и X-Robots-Tag помогают в поисковой оптимизации и когда их следует использовать.
1. Выбор страниц для индексации
Не все страницы веб-сайта могут привлекать обычных посетителей. В случае индексации некоторые из них могут нанести вред видимости сайта в поисковых системах. Это типы страниц, индексирование которых обычно блокируется с помощью noindex :
дублированных страниц
параметров сортировки и фильтров
страниц поиска и разбивки на страницы
технических страниц
сервисных уведомлений (о регистрации процесс, выполненный заказ и т. д.)
целевых страниц, предназначенных для тестирования идей
страниц, которые находятся в стадии разработки
информация, которая еще не обновлена (будущие сделки, объявления и т. Д.)
устаревшие страницы, которые не приносят никаких traffic
страниц, которые необходимо заблокировать для определенных поисковых роботов
2. Управление индексированием определенных типов файлов
Вы можете запретить роботам сканировать не только HTML-страницы, но и другие типы контента, такие как URL изображения или.pdf файл.
3. Сохранение ссылочного веса
Блокируя ссылки от поисковых роботов с помощью nofollow , вы можете сохранить ссылочный вес страницы, потому что он не будет передан другим источникам через внешние или внутренние ссылки.
4. Оптимизация краул-бюджета
Чем больше сайт, тем важнее направлять поисковые роботы на наиболее ценные страницы. Если поисковые системы сканируют веб-сайт внутри и снаружи, бюджет сканирования просто закончится до того, как боты достигнут контента, полезного для пользователей и SEO.Таким образом, важные страницы не будут проиндексированы или попадут в индекс с опозданием.
Директивы роботов и X-Robots-Tag
Роботы и X-Robots-Tag различаются по своему базовому синтаксису и использованию. Метатег robots вставляется в HTML-код веб-страницы и имеет два важных атрибута: name (для указания имени поискового робота) и content (команды для поискового робота). X-Robots-Tag добавляется в файл конфигурации и не имеет никаких атрибутов.
Указание Google не индексировать ваш контент с помощью роботов выглядит так:
Если вы решите запретить Google индексировать ваш контент с помощью x-robots, он будет выглядеть так:
X-Robots-Tag: googlebot: noindex, nofollow
Роботы и X-Robots-Tag имеют одни и те же директивы, которые используются для предоставления поисковым роботам разных инструкций. Давайте рассмотрим их подробнее.
Директивы Robots и X-Robots-Tag: функции и поддержка браузера
Директива
Его функция
GOOGLE
YANDEX
BING
9017
index / noindex
Указывает индексировать / не индексировать страницу. Используется для страниц, которые не должны отображаться в поисковой выдаче.
+
+
+
+
follow / nofollow
Указывает переходить / не переходить по ссылкам на странице.
+
+
+
+
archive / noarchive
Указывает, показывать / не показывать кешированную версию веб-страницы в поиске.
+
+
+
+
все / нет
Все эквивалентно индексу , следуйте , используемому для индексации текста и ссылок. Нет — эквивалент noindex, nofollow , используемый для блокировки индексации текста и ссылок.
+
+
—
+
nosnippet
Указывает не показывать фрагмент или видео в поисковой выдаче.
+
—
+
—
max-snippet
Ограничивает максимальный размер фрагмента. Обозначается как max-snippet: [number] , где number — это количество символов во фрагменте.
+
—
—
+
max-image-preview
Ограничивает максимальный размер изображений, отображаемых в поиске.Обозначается как max-image-preview: [настройка] , где настройка может иметь значение none , стандартное или большое значение .
+
—
—
+
max-video-preview
Ограничивает максимальную длину видео, отображаемого в поиске (в секундах). Он также позволяет установить статическое изображение (0) или снять любые ограничения (-1). Обозначается как max-video-preview: [значение] .
+
—
—
+
notranslate
Запрещает поисковым системам переводить страницу в результатах поиска.
+
—
—
—
noimageindex
Запрещает индексирование изображений на странице.
+
—
—
—
unavailable_after
Указывает не показывать страницу в поиске после указанной даты. Обозначается как unavailable_after: [дата / время] .
+
—
—
—
Все вышеупомянутые директивы могут использоваться как с метатегом robots, так и с тегом x-robots, чтобы роботы Google могли понять ваши инструкции.
Обратите внимание, что индексирование содержимого сайта, которое не скрыто от поисковых систем, выполняется по умолчанию, поэтому вам не нужно указывать index и следовать директивам .
Конфликтующие директивы
В сочетании некоторые директивы могут вызвать конфликты, например, разрешая индексирование и в то же время предотвращая индексирование одного и того же контента. Google выберет ограничительную инструкцию, а не разрешительную.
Комбинация директив
Действия Google
Робот выберет noindex и текст страницы не будут проиндексированы.
Робот выберет noindex , и текст страницы не будет будет проиндексирован, но он будет переходить по ссылкам и сканировать их.
Будут учтены все инструкции: текст и ссылки будут проиндексированы, а ссылки, ведущие на копия страницы не будет проиндексирована.
Мета-тег robots: синтаксис и использование
Как мы уже говорили, метатег robots вставляется в HTML-код страницы и содержит информацию для поисковых роботов. Он помещается в раздел
HTML-документа и имеет два обязательных атрибута: name и content . В упрощенном виде это выглядит так:
Атрибут имени
Этот атрибут определяет тип метатега в соответствии с информацией, которую он предоставляет поисковым системам. .Например, meta name = «description» задает краткое описание страницы, которая будет отображаться в поисковой выдаче, meta name = «viewport», используется для оптимизации сайта для мобильных устройств, meta http-Equiv = » Content-Type » определяет тип документа и его кодировку.
В meta name = «robots» атрибут name указывает имя бота, для которого разработаны инструкции. Он работает аналогично директиве User-agent в robots.txt, который идентифицирует сканера поисковой системы.
Значение «роботы» используется для адресации всех поисковых систем, а если вам нужно установить инструкции специально для Google, вы должны написать meta name = «googlebot» . Для нескольких сканеров вам нужно будет создать отдельные теги.
Атрибут содержимого
Этот атрибут содержит инструкции для индексации содержимого страницы и его отображения в результатах поиска. Директивы, объясненные в таблице выше, используются в атрибуте содержимого .
Обратите внимание, что:
Оба атрибута не чувствительны к регистру.
Если значения атрибутов не указаны или записаны неправильно, поисковый бот проигнорирует инструкцию по блокировке.
При обращении к нескольким сканерам нужно использовать отдельный метатег robots для каждого. Что касается атрибута содержимого, вы можете указать его различные директивы в одном метатеге, разделив их запятыми.
Файл robots.txt и метатег robots
Учитывая тот факт, что поисковые роботы сначала смотрят на robots.txt для рекомендаций по сканированию, они не смогут просканировать страницу и увидеть инструкции, включенные в код, если страница закрыта в robots.txt.
Если страница имеет атрибут noindex , но заблокирована в файле robots.txt, ее можно проиндексировать и отобразить в результатах поиска — например, если сканер найдет ее, перейдя по обратной ссылке из другого источника. Поскольку robots.txt обычно доступен, вы не можете быть уверены, что сканеры не найдут ваши «скрытые» страницы.
С учетом сказанного, если вы закрываете страницу с помощью метатега robots, убедитесь, что в файле robots.txt, предотвращающий его сканирование. Когда дело доходит до блокировки изображений от индексации, иногда имеет смысл использовать robots.txt.
Использование метатега robots
Метод 1: в редакторе HTML
Управление страницами аналогично редактированию текстового файла. Вам нужно открыть HTML-документ в редакторе, добавить роботов в раздел
и сохранить.
Страницы хранятся в корневом каталоге сайта, к которому вы можете получить доступ, используя свою личную учетную запись от хостинг-провайдера или FTP.Сохраните исходный документ перед внесением в него изменений.
С помощью CMS проще заблокировать страницу от индексации. Существует ряд плагинов, например Yoast SEO для WordPress, которые позволяют блокировать индексацию или сканирование ссылок при редактировании страницы.
Источник: Yoast Проверка метатега роботов
Поисковым системам требуется время, чтобы проиндексировать или деиндексировать страницу. Чтобы убедиться, что ваша страница не проиндексирована, используйте службы для веб-мастеров или плагины браузера, которые проверяют метатеги (например, SEO META в 1 ЩЕЛК для Chrome).
Вы также можете проверить, проиндексирована ли страница с помощью Google Search Console:
Если проверка страницы показывает, что метатег robots не работает, проверьте, не заблокирован ли URL-адрес в файле robots.txt, проверив его. в адресной строке или с помощью тестера robots.txt от Google.
SE Ranking также позволяет проверить, какие страницы веб-сайтов находятся в индексе. Для этого перейдите к инструменту Index Status Checker .
X-Robots-Tag: синтаксис и использование
X-Robots-Tag — это часть HTTP-ответа для данного URL, добавленного в файл конфигурации.Он действует аналогично метатегу robots и влияет на индексирование страниц, но иногда вам следует использовать x-robots специально для инструкций по индексации.
Вот простой пример X-Robots-Tag:
X-Robots-Tag: noindex, nofollow
Когда вам нужно установить правила для страницы или типа файла, X-Robots-Tag выглядит так:
Заголовочный набор X-Robots-Tag "noindex, nofollow"
Директива выполняет поиск файлов на веб-сайте с помощью регулярных выражений.Если вы используете Nginx вместо Apache , эта директива заменяется на location :
Если имя бота не указано, директивы автоматически используются для всех поисковых роботов. Если идентифицирован конкретный робот, тег будет выглядеть так:
Заголовок set X-Robots-Tag "googlebot: noindex, nofollow"
Когда следует использовать X-Robots-Tag
Deindexing non -HTML files
Поскольку не все страницы имеют формат HTML и раздел
, некоторое содержимое веб-сайта не может быть заблокировано от индексации с помощью метатега robots.Вот тут-то и пригодятся x-robots.
Например, если вам нужно заблокировать документы .pdf:
Заголовочный набор X-Robots-Tag "noindex"
С метатегом robots сканер загружает страницу и затем читает директивы, в то время как x-robots дает инструкции по индексации до того, как поисковый бот перейдет на страницу. В последнем случае поисковые системы не тратят время на сканирование страниц и сохраняют бюджет сканирования, чтобы использовать его для более важного содержания.Особенно полезно использовать X-Robots-Tag для крупномасштабных веб-сайтов.
Установка директив сканирования для всего веб-сайта
Использование тега X-Robots-Tag в ответах HTTP позволяет вам устанавливать директивы и управлять тем, как ваш контент индексируется на уровне вашего веб-сайта, а не на отдельных страницах.
Обращение к локальным поисковым системам
Крупнейшие поисковые системы понимают большинство ограничительных директив, в то время как небольшие локальные поисковые системы могут не знать, как читать инструкции индексации в заголовке HTTP.Если ваш веб-сайт нацелен на определенный регион, узнайте о местных поисковых системах и их характеристиках.
Основная функция метатега robots — скрыть страницы или некоторые элементы контента из результатов поиска. X-Robots-Tag позволяет вам устанавливать более общие инструкции для всего веб-сайта и информировать поисковых роботов до того, как они будут сканировать веб-страницы, экономя краулинговый бюджет.
Как применить X-Robots-Tag
Чтобы добавить заголовок X-Robots-Tag, вы должны использовать файлы конфигурации в корневом каталоге веб-сайта.Настройки будут отличаться в зависимости от веб-сервера.
Apache
Вам следует отредактировать серверные документы .htaccess и httpd.conf . Если вам нужно предотвратить индексацию всех файлов .png и .gif на веб-сервере Apache, вы должны добавить следующее:
Заголовочный набор X-Robots-Tag "noindex"
Nginx
Вы должны отредактировать файл конфигурации conf .Если вам нужно предотвратить индексацию всех файлов .png и .gif на веб-сервере Nginx, вы должны добавить следующее:
Важно : перед редактированием файла конфигурации сохраните исходный файл, чтобы исключить проблемы с производительностью веб-сайта в случае ошибок.
Как проверить X-Robots-Tag
Есть несколько способов узнать, какой ответ дает заголовок HTTP-страницы и содержит ли он тег X-Robots-Tag: онлайн-службы проверки URL, расширения браузера и инструменты для веб-мастеров.
Например, HTTP-заголовок, блокирующий индексацию, выглядит так:
HTTP / 1.1 200 OK
Дата: Вт, 10 ноября 2020 г., 09:30:22 GMT
X-Robots-Tag: noindex
Проверка x-роботов в Google
Чтобы проверить тег с помощью Google Search Console, перейдите на страницу URL Inspection и нажмите Test live URL и View просканированную страницу . Вы увидите информацию об ответе HTTP в разделе Дополнительная информация .
Примеры метатега robots и X-Robots-Tag noindex
Указание всем сканерам не индексировать текст на странице и не переходить по ссылкам:
X-Robots-Tag: noindex, nofollow
nofollow
Указание Google не переходить по ссылкам на странице:
X-Robots-Tag: googlebot: nofollow
noarchive
Указание поисковым системам не кэшировать страницу:
X-Robots-Tag: noarchive
none
Указание Google не индексировать и не переходить по ссылкам в документе HTML:
X-Robots-Tag: googlebot: none
nosnippet
Указание поисковым системам не отображать фрагменты для страницы:
X-Robots-Tag: nosnippet
max-snippet
Ограничение фрагмента до 35 символов:
X-Robots-Tag: max-snippet: 35
max-image-preview
Указание показывать версии больших изображений в результатах поиска:
X-Robots-Tag: max-image-preview: large
max-video-preview
Указание показывать видео без ограничений по длине:
X-Robots-Tag: max-video-preview: -1
notranslate
Указание поисковым системам не переводить страницу:
X-Robots-Tag: notranslate
noimageindex
Не индексировать изображения на странице:
X-Robots-Tag: noimageindex
unavailable_after
Указание сканерам не индексировать страницу после 1 января 2021 года:
X-Robots-Tag: unavailable_after: 2021-01-01
Распространенные ошибки с роботами и использованием X-Robots-Tag Конфликт с роботами.txt
Официальные инструкции X-Robots-Tag и robots гласят, что поисковый бот должен иметь возможность сканировать контент, который должен быть скрыт из индекса. Если вы запретите определенную страницу в файле robots.txt, эти директивы будут недоступны для поисковых роботов.
Еще одна распространенная ошибка — блокировка индексации с помощью robots.txt. Этот файл служит для ограничения сканирования страниц, а не для предотвращения их индексации. Чтобы управлять тем, как ваши страницы отображаются в поиске, используйте метатег robots и x-robots.
Удаление noindex
Если вы используете директиву noindex , чтобы скрыть контент из индекса на определенный период, важно вовремя открыть доступ для поисковых роботов. Например, у вас есть страница с будущей промо-сделкой: если вы не удалите noindex, пока он будет готов, он не будет отображаться в результатах поиска и не будет генерировать трафик.
Обратные ссылки на страницу nofollow
Инструкция nofollow может не работать, если на странице есть внешние источники, указывающие на нее.
Удаление URL-адреса из карты сайта до его деиндексирования
Если на странице есть директива noindex , нецелесообразно удалять ее из файла карты сайта. Ваша карта сайта позволяет сканерам быстро находить все страницы, включая те, которые предполагается удалить из индекса.
Что вы можете сделать, так это создать отдельный sitemap.xml со списком страниц, содержащим noindex , и удалять URL-адреса из файла по мере их деиндексирования. Если вы загрузите этот файл в Google Search Console, роботы, скорее всего, просканируют его быстрее.
Отсутствие проверки статусов индекса после внесения изменений
Может случиться так, что ценный контент будет заблокирован от индексации по ошибке. Чтобы этого избежать, проверяйте статусы индексации своих страниц после внесения в них каких-либо изменений.
Как не деиндексировать важные страницы?
Вы можете отслеживать изменения в коде своего сайта с помощью монитора изменений страниц SE Ranking:
Что делать, если страница исчезает из поиска?
Когда страницы, которая должна отображаться в поисковой выдаче, нет, проверьте, есть ли директивы, блокирующие индексацию, или директива disallow в файле robots.txt файл. Также проверьте, включен ли URL в файл карты сайта. Используя Google Search Console, вы можете сообщить поисковым системам, что вам нужно проиндексировать вашу страницу, а также сообщить им об обновленной карте сайта.
Сводка
Метатег robots и тег x-robots служат для управления тем, как страницы индексируются и отображаются в результатах поиска. Они различаются по использованию: метатег robots включается в код страницы, а X-Robots-Tag указывается в файле конфигурации.Запомните некоторые из их других важных характеристик:
Файл robots.txt помогает поисковым роботам правильно сканировать страницы, в то время как метатег robots и X-Robots-Tag влияют на то, как контент попадает в индекс. Все три жизненно важны для технической оптимизации.
И метатег robots, и тег x-robots используются для блокировки индексации страниц, но последний дает роботам инструкции перед сканированием страниц, что позволяет сэкономить краулинговый бюджет.
Если файл robots.txt запрещает роботам сканировать страницу, метатег robots или директивы x-robots работать не будут.
Ошибки, допущенные при установке метатега robots и тега x-robots, могут привести к неправильной индексации и проблемам с производительностью веб-сайта. Тщательно устанавливайте директивы или доверьте их опытному веб-мастеру.
Просмотров сообщения: 2,354
Келли — писатель-фрилансер и специалист по цифровому маркетингу. Она помогает компаниям расширять свое присутствие в Интернете и пишет содержательные статьи о SEO и цифровом маркетинге. В свободное время Келли гуляет, фотографирует природу и играет со своей собакой.
Создайте лучший с помощью этого руководства на 2021 год
Короче Robots.txt
Файл robots.txt содержит директивы для поисковых систем. Вы можете использовать его, чтобы запретить поисковым системам сканировать определенные части вашего веб-сайта и дать поисковым системам полезные советы о том, как они могут лучше всего сканировать ваш веб-сайт. Файл robots.txt играет большую роль в SEO.
При внедрении robots.txt помните о следующих передовых методах:
Будьте осторожны при внесении изменений в роботов.txt: этот файл может сделать большую часть вашего сайта недоступной для поисковых систем.
Файл robots.txt должен находиться в корне вашего веб-сайта (например, http://www.example.com/robots.txt ).
Файл robots.txt действителен только для полного домена, в котором он находится, включая протокол ( http или https ).
Разные поисковые системы по-разному интерпретируют директивы. По умолчанию всегда побеждает первая соответствующая директива.Но с Google и Bing побеждает специфика.
По возможности избегайте использования директивы задержки сканирования для поисковых систем.
Что такое файл robots.txt?
Файл robots.txt сообщает поисковым системам, каковы правила взаимодействия с вашим сайтом. Большая часть SEO — это отправка правильных сигналов поисковым системам, а файл robots.txt — один из способов сообщить поисковым системам о ваших предпочтениях сканирования.
В 2019 году мы заметили некоторые изменения, связанные с роботами.txt: Google предложила расширение для протокола исключения роботов и открыла исходный код для своего парсера robots.txt.
TL; DR
Интерпретатор Google robots.txt довольно гибкий и на удивление снисходительный.
В случае неправильных указаний Google делает ошибку и предполагает, что разделы должны быть ограничены, а не неограниченны.
Файл robots.txt сообщает поисковым системам, к каким URL нельзя обращаться.
Поисковые системы регулярно проверяют роботов сайта.txt, чтобы узнать, есть ли какие-либо инструкции по сканированию веб-сайта. Мы называем эти инструкции директивами .
Если файл robots.txt отсутствует или нет применимых директив, поисковые системы будут сканировать весь веб-сайт.
Хотя все основные поисковые системы уважают файл robots.txt, поисковые системы могут игнорировать (части) вашего файла robots.txt. Хотя директивы в файле robots.txt являются сильным сигналом для поисковых систем, важно помнить о файле robots.txt представляет собой набор необязательных директив для поисковых систем, а не мандат.
robots.txt — самый конфиденциальный файл во вселенной SEO. Один персонаж может сломать весь сайт.
Терминология вокруг файла robots.txt
Файл robots.txt является реализацией стандарта исключения роботов , также называемого протоколом исключения роботов .
Зачем вам нужен файл robots.txt?
Роботы.txt играет важную роль с точки зрения SEO. Он сообщает поисковым системам, как им лучше всего сканировать ваш сайт.
Используя файл robots.txt, вы можете запретить поисковым системам доступ к определенным частям вашего веб-сайта , предотвратить дублирование контента и дать поисковым системам полезные советы о том, как они могут сканировать ваш веб-сайт более эффективно .
Будьте осторожны, при внесении изменений в ваш robots.txt: этот файл может сделать большие части вашего веб-сайта недоступными для поисковых систем.
Robots.txt часто слишком часто используется для уменьшения дублирования контента, тем самым убивая внутренние ссылки, поэтому будьте с ними очень осторожны. Мой совет — всегда использовать его только для файлов или страниц, которые поисковые системы никогда не должны видеть или которые могут существенно повлиять на сканирование, будучи допущенными к ним. Типичные примеры: области входа в систему, которые генерируют много разных URL-адресов, тестовые области или где может существовать многогранная навигация. И обязательно следите за своим файлом robots.txt на предмет любых проблем или изменений.
Подавляющее большинство проблем, которые я вижу с роботами.txt делятся на три сегмента:
Неправильная обработка подстановочных знаков. Довольно часто можно увидеть заблокированные части сайта, которые должны были быть заблокированы. Иногда, если вы не будете осторожны, директивы также могут конфликтовать друг с другом.
Кто-то, например разработчик, неожиданно внес изменение (часто при добавлении нового кода) и случайно изменил robots.txt без вашего ведома.
Включение директив, не относящихся к robots.txt файл. Robots.txt является веб-стандартом и имеет некоторые ограничения. Я часто вижу, как разработчики создают директивы, которые просто не работают (по крайней мере, для подавляющего большинства поисковых роботов). Иногда это безобидно, иногда не очень.
Пример
Давайте рассмотрим пример, чтобы проиллюстрировать это:
У вас есть веб-сайт электронной коммерции, и посетители могут использовать фильтр для быстрого поиска по вашим товарам. Этот фильтр генерирует страницы, которые в основном показывают то же содержание, что и другие страницы.Это отлично работает для пользователей, но сбивает с толку поисковые системы, поскольку создает дублированный контент.
Вы не хотите, чтобы поисковые системы индексировали эти отфильтрованные страницы и тратили свое драгоценное время на эти URL-адреса с отфильтрованным содержимым. Поэтому вам следует установить правила Disallow , чтобы поисковые системы не получали доступ к этим отфильтрованным страницам продуктов.
Предотвращение дублирования контента также можно выполнить с помощью канонического URL-адреса или метатега robots, однако они не решают проблему, позволяя поисковым системам сканировать только важные страницы.
Использование канонического URL или метатега robots не помешает поисковым системам сканировать эти страницы. Это только предотвратит отображение этих страниц в результатах поиска поисковыми системами. Поскольку поисковые системы имеют ограниченное время для сканирования веб-сайта, это время следует потратить на страницы, которые вы хотите отображать в поисковых системах.
Ваш robots.txt работает против вас?
Неправильно настроенный файл robots.txt может сдерживать эффективность SEO. Сразу же проверьте, так ли это на вашем сайте!
Это очень простой инструмент, но файл robots.txt может вызвать множество проблем, если он неправильно настроен, особенно для крупных веб-сайтов. Очень легко сделать ошибки, например заблокировать весь сайт после развертывания нового дизайна или CMS или не заблокировать разделы сайта, которые должны быть приватными. Для крупных веб-сайтов очень важно обеспечить эффективное сканирование Google, и хорошо структурированный файл robots.txt является важным инструментом в этом процессе.
Вам нужно потратить время, чтобы понять, какие разделы вашего сайта лучше всего держать подальше от Google, чтобы они тратили как можно больше своих ресурсов на сканирование страниц, которые вам действительно интересны.
Как выглядит файл robots.txt?
Пример того, как может выглядеть простой файл robots.txt для веб-сайта WordPress:
Агент пользователя: *
Disallow: / wp-admin /
Давайте объясним анатомию файла robots.txt на основе приведенного выше примера:
User-agent: user-agent указывает, для каких поисковых систем предназначены следующие директивы.
* : это указывает на то, что директивы предназначены для всех поисковых систем.
Disallow : это директива, указывающая, какой контент недоступен для пользовательского агента .
/ wp-admin / : это путь , который недоступен для пользовательского агента .
Вкратце: этот файл robots.txt сообщает всем поисковым системам, чтобы они не заходили в каталог / wp-admin / .
Давайте более подробно проанализируем различные компоненты файлов robots.txt:
User-agent в robots.txt
Каждая поисковая система должна идентифицировать себя с помощью пользовательского агента . Роботы Google идентифицируются как Googlebot , например, Yahoo как Slurp и робот Bing как BingBot и так далее.
Запись пользовательского агента определяет начало группы директив. Все директивы между первым пользовательским агентом и следующей записью пользовательского агента обрабатываются как директивы для первого пользовательского агента .
Директивы
могут применяться к определенным пользовательским агентам, но они также могут применяться ко всем пользовательским агентам. В этом случае используется подстановочный знак: User-agent: * .
Директива Disallow в robots.txt
Вы можете запретить поисковым системам получать доступ к определенным файлам, страницам или разделам вашего веб-сайта. Это делается с помощью директивы Disallow . За директивой Disallow следует путь , к которому не следует обращаться. Если путь не определен, директива игнорируется.
Пример
Агент пользователя: *
Запретить: / wp-admin /
В этом примере всем поисковым системам предлагается не обращаться к каталогу / wp-admin / .
Разрешить директиву в robots.txt
Директива Allow используется для противодействия директиве Disallow . Директива Allow поддерживается Google и Bing. Используя вместе директивы Allow и Disallow , вы можете указать поисковым системам, что они могут получить доступ к определенному файлу или странице в каталоге, который иначе запрещен.За директивой Allow следует путь , к которому можно получить доступ. Если путь не определен, директива игнорируется.
Пример
Агент пользователя: *
Разрешить: /media/terms-and-conditions.pdf
Disallow: / media /
В приведенном выше примере всем поисковым системам не разрешен доступ к каталогу / media / , за исключением файла /media/terms-and-conditions.pdf .
Важно: при одновременном использовании директив Allow и Disallow не используйте подстановочные знаки, поскольку это может привести к конфликту директив.
Поисковые системы не будут знать, что делать с URL-адресом http://www.domain.com/directory.html . Для них неясно, разрешен ли им доступ. Когда директивы не ясны для Google, они будут использовать наименее ограничительную директиву, что в данном случае означает, что они фактически получат доступ к http://www.domain.com/directory.html .
Запрещающие правила в файле robots.txt сайта невероятно эффективны, поэтому с ними следует обращаться осторожно. Для некоторых сайтов предотвращение сканирования определенных URL-адресов поисковыми системами имеет решающее значение для обеспечения возможности сканирования и индексации нужных страниц, но неправильное использование правил запрета может серьезно повредить SEO сайта.
Отдельная строка для каждой директивы
Каждая директива должна быть на отдельной строке, иначе поисковые системы могут запутаться при парсинге robots.txt файл.
Пример неверного файла robots.txt
Предотвратить появление файла robots.txt, подобного этому:
Robots.txt - одна из тех функций, которые я чаще всего вижу реализованными неправильно, поэтому он не блокирует то, что они хотели заблокировать, или блокирует больше, чем они ожидали, и оказывает негативное влияние на их веб-сайт. Robots.txt - очень мощный инструмент, но слишком часто он неправильно настраивается.
Использование подстановочного знака *
Подстановочный знак можно использовать не только для определения пользовательского агента , но и для сопоставления URL-адресов. Подстановочный знак поддерживается Google, Bing, Yahoo и Ask.
Пример
Агент пользователя: *
Запретить: *?
В приведенном выше примере всем поисковым системам не разрешен доступ к URL-адресам, содержащим вопросительный знак (? ).
Разработчики или владельцы сайтов часто думают, что могут использовать всевозможные регулярные выражения в файле robots.txt, тогда как на самом деле допустимо только очень ограниченное количество сопоставлений с образцом - например, подстановочные знаки ( * ). Кажется, время от времени возникает путаница между файлами .htaccess и robots.txt.
Использование конца URL $
Чтобы указать конец URL-адреса, вы можете использовать знак доллара ( $ ) в конце пути .
Пример
Агент пользователя: *
Disallow: * .php $
В приведенном выше примере поисковым системам не разрешен доступ ко всем URL-адресам, которые заканчиваются на.php. URL-адреса с параметрами, например https://example.com/page.php?lang=en не будет запрещен, поскольку URL-адрес не заканчивается после .php .
Добавьте карту сайта в robots.txt
Несмотря на то, что файл robots.txt был изобретен, чтобы указывать поисковым системам, какие страницы не сканировать , файл robots.txt также можно использовать для направления поисковым системам на карту сайта XML. Это поддерживается Google, Bing, Yahoo и Ask.
На карту сайта XML следует ссылаться как на абсолютный URL.URL-адрес , а не должен находиться на том же хосте, что и файл robots.txt.
Ссылка на XML-карту сайта в файле robots.txt - один из лучших способов, который мы советуем вам делать всегда, даже если вы уже отправили свою XML-карту сайта в Google Search Console или Bing Webmaster Tools. Помните, что существует больше поисковых систем.
Обратите внимание, что можно ссылаться на несколько карт сайта XML в файле robots.txt.
Примеры
Несколько файлов Sitemap XML, определенных в файле robots.txt файл:
В приведенном выше примере говорится, что все поисковые системы не обращаются к каталогу / wp-admin / и что есть две карты сайта XML, которые можно найти по адресу https://www.example.com/sitemap1.xml и https://www.example.com/sitemap2.xml .
Одна карта сайта XML, определенная в файле robots.txt:
В приведенном выше примере говорится, что все поисковые системы не должны обращаться к каталогу / wp-admin / и что карту сайта XML можно найти по адресу https://www.example.com/sitemap_index .xml .
Часто задаваемые вопросы
Комментарии
Комментарии предшествуют # и могут быть размещены в начале строки или после директивы в той же строке. Все, что находится после # , будет проигнорировано.Эти комментарии предназначены только для людей.
Пример 1
# Не разрешать доступ к каталогу / wp-admin / для всех роботов.
Пользовательский агент: *
Disallow: / wp-admin /
Пример 2
User-agent: * # Применимо ко всем роботам
Disallow: / wp-admin / # Не разрешать доступ к каталогу / wp-admin /.
В приведенных выше примерах передается одно и то же сообщение.
Задержка сканирования в robots.txt
Директива Crawl-delay - это неофициальная директива, используемая для предотвращения перегрузки серверов слишком большим количеством запросов.Если поисковые системы могут перегружать сервер, добавление Crawl-delay в ваш файл robots.txt является лишь временным решением. Дело в том, что ваш сайт работает в плохой среде хостинга и / или ваш сайт неправильно настроен, и вы должны исправить это как можно скорее.
Пример robots.txt с указанной задержкой сканирования для Bing
. Способ обработки поисковыми системами Crawl-delay отличается. Ниже мы объясним, как с этим справляются основные поисковые системы.
Часто задаваемые вопросы
Crawl-delay и Google
Сканер Google, робот Google, не поддерживает директиву Crawl-delay , поэтому не беспокойтесь об определении задержки сканирования Google.
Однако Google поддерживает определение скорости сканирования (или «скорости запросов», если хотите) в консоли поиска Google.
Установка скорости сканирования в GSC
Войдите в старую консоль поиска Google (открывается в новой вкладке).
Выберите веб-сайт, для которого нужно определить скорость сканирования.
Есть только один параметр, который вы можете изменить: Скорость сканирования , с ползунком, где вы можете установить предпочтительную скорость сканирования. По умолчанию для скорости сканирования установлено значение «Разрешить Google оптимизировать мой сайт (рекомендуется)».
Вот как это выглядит в Google Search Console:
Задержка сканирования и Bing, Yahoo и Яндекс
Bing, Yahoo и Яндекс поддерживают директиву Crawl-delay для ограничения сканирования веб-сайта. Однако их интерпретация задержки сканирования немного отличается, поэтому обязательно проверьте их документацию:
Директива Crawl-delay должна быть размещена сразу после директив Disallow или Allow .
Baidu не поддерживает директиву задержки сканирования , однако можно зарегистрировать учетную запись Baidu Webmaster Tools, в которой вы можете контролировать частоту сканирования, аналогично Google Search Console.
Когда использовать файл robots.txt?
Мы рекомендуем всегда использовать файл robots.txt.В его наличии нет абсолютно никакого вреда, и это отличное место, чтобы передать директивы поисковым системам о том, как они могут лучше всего сканировать ваш сайт.
Файл robots.txt может быть полезен для предотвращения сканирования и индексации определенных областей или документов на вашем сайте. Примерами являются, например, промежуточный сайт или PDF-файлы. Тщательно спланируйте, что нужно проиндексировать поисковыми системами, и помните, что контент, недоступный через robots.txt, может быть найден сканерами поисковых систем, если на него есть ссылки из других областей веб-сайта.
Лучшие практики robots.txt
Лучшие практики robots.txt подразделяются на следующие категории:
Расположение и имя файла
Файл robots.txt всегда должен находиться в корне веб-сайта (в каталоге верхнего уровня хоста) и иметь имя файла robots.txt , например: https: //www.example .com / robots.txt . Обратите внимание, что URL-адрес файла robots.txt, как и любой другой URL-адрес, чувствителен к регистру.
Если файл robots.txt не может быть найден в расположении по умолчанию, поисковые системы сочтут, что директив нет, и уйдут на ваш сайт.
Порядок старшинства
Важно отметить, что поисковые системы по-разному обрабатывают файлы robots.txt. По умолчанию первая соответствующая директива всегда побеждает .
Однако с Google и Bing специфичность побеждает . Например: директива Allow имеет преимущество перед директивой Disallow , если ее длина символа больше.
Пример
Агент пользователя: *
Разрешить: / about / company /
Запретить: / about /
В приведенном выше примере всем поисковым системам, включая Google и Bing, не разрешен доступ к каталогу / about / , за исключением подкаталога / about / company / .
Пример
Агент пользователя: *
Disallow: / about /
Разрешить: / about / company /
В приведенном выше примере всем поисковым системам , кроме Google и Bing , запрещен доступ к каталогу / about / .Сюда входит каталог / about / company / .
Google и Bing имеют доступ к , поскольку директива Allow длиннее директивы Disallow .
Только одна группа директив на робота
Для каждой поисковой системы можно определить только одну группу директив. Наличие нескольких групп директив для одной поисковой системы сбивает их с толку.
Будьте как можно более конкретными
Директива Disallow также срабатывает при частичных совпадениях.Будьте как можно более конкретными при определении директивы Disallow , чтобы предотвратить непреднамеренное запрещение доступа к файлам.
Пример:
Агент пользователя: *
Disallow: / directory
В приведенном выше примере поисковым системам запрещен доступ к:
/ каталог
/ каталог /
/ имя-каталога-1
/ имя-каталога.html
/ имя-каталога.php
/ имя-каталога.pdf
Директивы для всех роботов, а также директивы для конкретного робота
Для робота действует только одна группа директив. В случае, если директивы, предназначенные для всех роботов, сопровождаются директивами для конкретного робота, будут приняты во внимание только эти конкретные директивы. Чтобы конкретный робот также выполнял директивы для всех роботов, вам необходимо повторить эти директивы для конкретного робота.
Давайте посмотрим на пример, который проясняет это:
Пример
Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /
Пользовательский агент: googlebot
Disallow: / not-loaded-yet /
В приведенном выше примере всем поисковым системам , кроме Google , запрещен доступ к / secret / , / test / и / not-loaded-yet / . Google только не разрешен доступ к / not-loaded-yet / , но разрешен доступ к / secret / и / test / .
Если вы не хотите, чтобы робот googlebot имел доступ к / secret / и / not-loaded-yet / , вам необходимо повторить эти директивы для googlebot , а именно:
Агент пользователя: *
Disallow: / secret /
Запретить: / test /
Запретить: / еще не запущено /
Пользовательский агент: googlebot
Disallow: / secret /
Запретить: / not-launch-yet /
Обратите внимание, что ваш файл robots.txt общедоступен. Запрет на использование разделов веб-сайта может быть использован злоумышленниками как вектор атаки.
Robots.txt может быть опасным. Вы не только указываете поисковым системам, куда не хотите, чтобы они смотрели, но и сообщаете людям, где скрываете свои грязные секреты.
Файл robots.txt для каждого (под) домена
Директивы Robots.txt применяются только к (под) домену, в котором размещен файл.
Примеры
http://example.com/robots.txt действителен для http://example.com , но не для http: // www.example.com или https://example.com .
Рекомендуется, чтобы в вашем (под) домене был доступен только один файл robots.txt.
Если у вас есть несколько файлов robots.txt, убедитесь, что они возвращают HTTP-статус 404 или 301 перенаправляют их в канонический файл robots.txt.
Противоречивые рекомендации: robots.txt и Google Search Console
Если ваш файл robots.txt конфликтует с настройками, определенными в Google Search Console, Google часто предпочитает использовать настройки, определенные в Google Search Console, вместо директив, определенных в robots.txt файл.
Следите за своим файлом robots.txt
Важно следить за изменениями в файле robots.txt. В ContentKing мы видим множество проблем, из-за которых неправильные директивы и внезапные изменения в файле robots.txt вызывают серьезные проблемы с поисковой оптимизацией.
Это особенно актуально при запуске новых функций или нового веб-сайта, который был подготовлен в тестовой среде, поскольку они часто содержат следующий файл robots.txt:
Агент пользователя: *
Disallow: /
Мы построили роботов.txt, отслеживание изменений и оповещение по этой причине.
Как узнать об изменении файла robots.txt?
Мы видим это постоянно: файлы robots.txt меняются без ведома команды цифрового маркетинга. Не будь таким человеком. Начните отслеживать свой файл robots.txt, теперь получайте оповещения при его изменении!
Не используйте noindex в своем robots.txt
В течение многих лет Google уже открыто рекомендовал не использовать неофициальную директиву noindex (открывается в новой вкладке).Однако с 1 сентября 2019 года Google полностью прекратил его поддержку (открывается в новой вкладке).
Неофициальная директива noindex никогда не работала в Bing, что подтверждено Фредериком Дубутом в этом твите (открывается в новой вкладке):
Лучший способ сообщить поисковым системам, что страницы не следует индексировать, - это использовать метатег robots или X-Robots-Tag.
Часто задаваемые вопросы
Запретить спецификацию UTF-8 в файле robots.txt
BOM обозначает метку порядка байтов , невидимый символ в начале файла, используемый для обозначения кодировки Unicode текстового файла.
В то время как Google заявляет (открывается в новой вкладке), они игнорируют необязательную отметку порядка байтов Unicode в начале файла robots.txt, мы рекомендуем предотвращать использование "UTF-8 BOM", потому что мы видели, что это вызывает проблемы с интерпретацией файла robots.txt поисковыми системами.
Несмотря на то, что Google заявляет, что может с этим справиться, вот две причины, чтобы предотвратить использование спецификации UTF-8:
Вы не хотите, чтобы у вас была двусмысленность в отношении ваших предпочтений при сканировании в поисковые системы.
Существуют и другие поисковые системы, которые могут быть не такими снисходительными, как утверждает Google.
Примеры robots.txt
В этой главе мы рассмотрим широкий спектр примеров файлов robots.txt:
Разрешить всем роботам доступ ко всему
Есть несколько способов сообщить поисковым системам, что они могут получить доступ ко всем файлам:
Или файл robots.txt пустой, или файл robots.txt вообще отсутствует.
Запретить всем роботам доступ ко всему
Пример robots.txt ниже сообщает всем поисковым системам, что им нельзя обращаться ко всему сайту:
Агент пользователя: *
Disallow: /
Обратите внимание, что только ОДИН дополнительный символ может иметь большое значение.
У всех ботов Google нет доступа
Пользовательский агент: googlebot
Disallow: /
Обратите внимание, что запрет на использование робота Googlebot распространяется на всех роботов Googlebot. Сюда входят роботы Google, которые ищут, например, новости ( googlebot-news ) и изображения ( googlebot-images ).
Все боты Google, кроме новостей Googlebot, не имеют доступа
Приведенный ниже файл robots.txt специально оптимизирован для WordPress, при условии:
Вы не хотите, чтобы ваш раздел администратора сканировался.
Вы не хотите, чтобы ваши страницы результатов внутреннего поиска сканировались.
Вы не хотите, чтобы ваши страницы тегов и авторов сканировались.
Вы не хотите, чтобы ваша страница 404 сканировалась.
Агент пользователя: *
Запретить: / wp-admin / # заблокировать доступ к разделу администратора
Запретить: /wp-login.php # заблокировать доступ в админку
Запретить: / search / # заблокировать доступ к страницам результатов внутреннего поиска
Запретить: *? S = * # заблокировать доступ к страницам результатов внутреннего поиска
Disallow: *? P = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Disallow: * & p = * # заблокировать доступ к страницам, для которых постоянные ссылки не работают
Запретить: * & preview = * # заблокировать доступ к страницам предварительного просмотра
Запретить: / tag / # заблокировать доступ к страницам тегов
Запретить: / author / # заблокировать доступ к страницам авторов
Запретить: / 404-ошибка / # заблокировать доступ к странице 404
Карта сайта: https: // www.example.com/sitemap_index.xml
Обратите внимание, что этот файл robots.txt будет работать в большинстве случаев, но вы должны всегда настраивать его и тестировать, чтобы убедиться, что он применим к вашей конкретной ситуации.
Файл robots.txt для Magento
Приведенный ниже файл robots.txt специально оптимизирован для Magento и сделает внутренние результаты поиска, страницы входа, идентификаторы сеансов и отфильтрованные наборы результатов, которые содержат цена , цвет , материал и размер критерии недоступны для поисковых роботов. .
Обратите внимание, что этот файл robots.txt будет работать для большинства магазинов Magento, но вы должны всегда настраивать его и проверять, чтобы убедиться, что он применим к ваша точная ситуация.
Полезные ресурсы
Я бы всегда старался блокировать результаты внутреннего поиска в robots.txt на любом сайте, потому что эти типы поисковых URL-адресов представляют собой бесконечные и бесконечные пробелы. Робот Googlebot может попасть в ловушку поискового робота.
Каковы ограничения файла robots.txt?
Файл robots.txt содержит директивы
Несмотря на то, что robots.txt пользуется уважением в поисковых системах, он все же является директивой, а не предписанием.
Страницы по-прежнему отображаются в результатах поиска
Страницы, которые недоступны для поисковых систем из-за файла robots.txt, но имеют ссылки на них, могут по-прежнему отображаться в результатах поиска, если на них есть ссылки со страницы, которая просматривается. Пример того, как это выглядит:
Наконечник Pro
Эти URL-адреса можно удалить из Google с помощью инструмента удаления URL-адресов Google Search Console. Обратите внимание, что эти URL-адреса будут только временно «скрыты». Чтобы они не попадали на страницы результатов Google, вам необходимо отправлять запрос на скрытие URL-адресов каждые 180 дней.
Используйте robots.txt, чтобы заблокировать нежелательные и, вероятно, вредоносные обратные ссылки на партнерские программы. Не используйте robots.txt для предотвращения индексации контента поисковыми системами, поскольку это неизбежно приведет к сбою. Вместо этого при необходимости примените директиву noindex для роботов.
Файл robots.txt кешируется до 24 часов
Google указал, что файл robots.txt обычно кэшируется на срок до 24 часов. Это важно учитывать при внесении изменений в файл robots.txt файл.
Непонятно, как другие поисковые системы справляются с кэшированием robots.txt, но в целом лучше избегать кеширования файла robots.txt, чтобы поисковые системы не занимали больше времени, чем необходимо, чтобы иметь возможность улавливать изменения.
Размер файла robots.txt
Для файлов robots.txt Google в настоящее время поддерживает ограничение на размер файла в 500 кибибайт (512 килобайт). Любое содержимое после этого максимального размера файла может игнорироваться.
Неясно, есть ли у других поисковых систем максимальный размер файла для роботов.txt файлы.
Часто задаваемые вопросы о robots.txt
🤖 Как выглядит пример файла robots.txt?
Вот пример содержимого robots.txt: User-agent: * Disallow:. Это говорит всем сканерам, что они могут получить доступ ко всему.
⛔ Что делает Disallow all в robots.txt?
Когда вы устанавливаете robots.txt на «Запретить все», вы, по сути, говорите всем поисковым роботам держаться подальше. Никакие сканеры, в том числе Google, не имеют доступа к вашему сайту.Это означает, что они не смогут сканировать, индексировать и оценивать ваш сайт. Это приведет к резкому падению органического трафика.
✅ Что делает Allow all в robots.txt?
Когда вы устанавливаете robots.txt на «Разрешить все», вы сообщаете каждому сканеру, что он может получить доступ к каждому URL-адресу на сайте. Правил приема просто нет. Обратите внимание, что это эквивалентно пустому файлу robots.txt или отсутствию файла robots.txt вообще.
🤔 Насколько важен robots.txt для SEO?
В общем, роботы.txt очень важен для SEO. Для более крупных веб-сайтов файл robots.txt необходим, чтобы дать поисковым системам очень четкие инструкции о том, к какому контенту нельзя обращаться.
Владельцы сайтов обычно тратят много времени на создание и размещение нового контента на сайте или улучшение уже опубликованного контента для повышения эффективности обычного поиска.Поэтому досадно удалять из поискового индекса страницы, на которые уходит много времени и усилий, но иногда это стоит сделать и необходимо из-за товарного ассортимента, юридических причин или изменений в направлении бизнеса или обмене сообщениями.
Удаление контента - это не всегда история безвозвратного удаления страницы. Есть несколько уровней: вы можете только удалить его из индекса, оставив на сайте, тогда пользователи не найдут его в результатах поиска, но смогут перейти на него, перейдя по ссылкам с других страниц или из закладок.Или вы можете удалить его с сайта - навсегда или временно, отправив в архив.
Вот некоторые из наиболее распространенных методов удаления устаревшего содержимого:
Тег Noindex
Нельзя удалить страницу с сайта, но дать роботу сигнал не индексировать ее с помощью тега noindex. Если он уже есть в индексе, следующие роботы сканирования должны увидеть этот тег и удалить его из индекса.
meta name = "robots" content = "noindex"
Тег noindex можно настроить с помощью плагинов SEO для CMS, в них эта функция часто встречается.
Пользователи по-прежнему смогут посещать страницу, если на ней есть внутренние ссылки на сайте или если они уже заходили на нее раньше и добавляли адрес в закладки.
Удаление страницы из индекса с помощью noindex не будет необратимым. Если вы хотите вернуть страницу, удалите тег, и при следующем сканировании поисковый бот его увидит.
Обратите внимание, что если вы удалили из индекса страницу с хорошими позициями, не факт, что при удалении noindex она вернется к той же поисковой выдаче.
Инструмент для удаления URL в Яндекс.Вебмастере
Вы можете ускорить процесс удаления с Яндекс. Во-первых, вам нужно отключить их индексацию: регистрация запрещает в файле robots.txt и указывает метатег робота с директивой noindex на странице. Это необходимо. На следующем шаге робот увидит эти сигналы.
Инструмент удаления контента в Yandex Webmaster Tools
Чтобы ускорить процесс, у веб-мастера есть инструмент «Удалить URL». Чтобы удалить отдельные страницы, выберите По URL-адресу и введите адрес.Вы можете удалять до 500 адресов одного сайта в день.
HTML-правил, запрещающих поисковым системам индексировать части веб-страниц
Не существует универсального способа заставить поисковые системы не индексировать часть вашего веб-сайта. К сожалению, это так просто. Однако есть несколько простых вещей, которые вы можете сделать, чтобы запретить определенным паукам сканировать определенные части веб-страницы.
MediaWiki [править]
Давайте начнем с того, что, вероятно, не вас беспокоит, а нас беспокоит.Расширение CirrusSearch MediaWiki поддерживает специальный класс
, недоступный для поиска и навигации.
Это не будет индексироваться. Полезно для шаблонов, которые создают навигацию и тому подобное.
Мы используем это на страницах новостей, где внизу есть коллекция ссылок на последние новости. Эту часть не нужно никому индексировать. Расширение MediaWiki CirrusSearch - это особый вариант использования, и, скорее всего, вы здесь не для этого.Двигаемся дальше ..
Все поисковые системы [править]
Вот печальная правда: Универсального стандарта не существует. И Яндекс - единственный, кто придумал свои. Это означает, что вы можете попросить Яндекс не индексировать части веб-страницы и ожидать, что им и никому другому будет все равно.
Яндекс [править]
Российская поисковая система Яндекс ( Mozilla / 5.0 (совместимый; YandexBot / 3.0; + http: //yandex.com/bots) ) использует специальный тег .Это отличается от, скажем,, вы должны помещать его в HTML-код таких страниц, как . Не индексируйте эту часть . Это глупо, поскольку нет действительного тега HTMl. К счастью, вы можете поместить это в комментарии:
Яндекс и только Яндекс игнорируют эту часть веб-страницы.
Приятно, что вы можете дать указание русским не индексировать часть страницы таким образом, но в основном это неактуально, поскольку никто больше не заботится об этом теге noindex, даже немного.Но если вы используете что-то вроде MediaWiki и все равно добавляете специальный раздел страницы, запрещающий индексацию, вы можете также сообщить русскому, пока вы на нем:
Это не будет индексироваться. Полезно для шаблонов, которые создают навигацию и тому подобное.
Google Search Appliance [править]
Просто чтобы прояснить сразу: Невозможно заставить поисковый робот Google игнорировать данную часть веб-страницы.. Вы можете попросить его игнорировать целые страницы или не игнорировать целые страницы.
Компания Google производила специальное установленное в стойку поисковое «устройство» под названием «Google Search Appliance» с 2002 по 2014 год. Они прекратили всю его поддержку в 2018 году. Это очень специальное устройство поддерживает:
Это проиндексировано.
Это не было проиндексировано
Это тоже было проиндексировано.
Сегодня это совершенно неактуально, поскольку в обычном поиске Google эти теги не использовались, а Google Search Appliance больше не выпускается.