Noindex что такое: что это, зачем и как использовать

Содержание

Что такое Noindex — Noindex определение, термины

Что такое noindex

Noindex — тэг, который запрещает роботу индексировать часть страницы. Если вы продвигаете свой сайт в Google, используйте robots. Кроме всего прочего, он способен обработать всю веб-страницу.

Тег noindex Яндекс ввел по собственной инициативе, которую до сегодняшнего дня разделяет лишь Рамблер. Поэтому при использовании тега noindex, Google не будет обращать на него внимания.

Также noindex и его постоянный спутник nofollow могут использоваться совершенно в ином виде – как значения атрибута content в составе мета-тега robots.

Noindex – это тег, с помощью которого можно управлять функцией индексации поискового робота. Если выделить отдельный фрагмент текста и закрыть его тегом noindex, он не будет проиндексирован поисковой системой и, соответственно, не попадет в ее кэш.

Впервые данный инструмент был предложен специалистами Яндекса, чтобы у веб-мастеров появился простой способ отделения части текстового контента, которая не несет смысловой нагрузки и не должна учитываться при оценке страницы.

Noindex определение

Вторая, не менее важная функция тега noindex, состоит в том, чтобы блокировать индексацию отдельных страниц сайта, предназначенных для публикации пользовательского контента. К таким относятся страницы с отзывами, комментариями, сообщениями и др.

Noindex термин

Тег noindex учитывает только Яндекс. Google игнорирует его присутствие и проводит полную индексацию текстового содержания страницы. Для задействования блокировки индексации, актуальной для всех поисковиков, следует прописывать соответствующий метатег для отдельных страниц или всего сайта в файле robots.txt.

Стань эффективным интернет маркетологом — запишись к нам на курсы! Школа Интернет Маркетинга: курсы по наиболее популярным специальностям: интернет маркетолог, SMM специалист, SEO специалист.

Noindex — Setup.ru — бесплатный конструктор сайтов, создать сайт бесплатно

В данном разделе мы постарались описать все термины, относящиеся к созданию сайтов в нашей системе. Если Вы заметили, что какого-то понятия не хватает — пишите нам на [email protected]

Noindex

Noindex — слово, обозначающее ряд параметров, которые влияют на индексирование как всей страницы сайта, так и отдельных ее фрагментов.

Meта-тег noindex

Основное назначение мета-тега noindex — полностью запретить поисковым роботам индексирование всего контента страницы сайта. Данный мета-тег входит в состав другого мета-тега — robots, и выглядит так:

<meta name=»robots» content=»noindex» />

С помощью мета-тега noindex можно запретить индексацию страницы как всем поисковым роботам сразу, так и роботам отдельных поисковых систем, чье присутствие на сайте по каким-либо причинам нежелательно. Например, если требуется запретить поисковой системе Google индексировать страницы сайта, то вместо имени мета-тега подставляется название робота поисковой системы. В приведенном примере названием робота будет

«googlebot».

HTML-тег noindex

Кроме мета-тега noindex, действие которого распространяется на всю страницу сайта, существует парный HTML-тег noindex, который не входит в официальную спецификацию HTML, и который был введен сотрудниками поисковой системы «Яндекс». Контент, размещенный между парными тегами noindex, не индексируется поисковой системой «Яндекс».

Этот HTML-тег был разработан сотрудниками «Яндекса» в качестве альтернативы широко известному атрибуту nofollow, который используется в Google и ряде других поисковых систем.

Гиперссылка, снабженная атрибутом nofollow, не передает ссылочный вес, а следовательно — не может использоваться для поисковой оптимизации.

До недавнего времени поисковая система «Яндекс» не работала с атрибутом nofollow, поэтому и был введен специальный HTML-тег noindex, запрещающий индексацию контента сайта роботами системы «Яндекс». Однако в 2010 году представители системы «Яндекс» официально заявили, что ПС теперь может обрабатывать и атрибут nofollow.

Таким образом, с 2010 года использование парного HTML-тега noindex на страницах сайтов лишено смысла, так как теперь достаточно атрибута nofollow.

Доска почета

Запчасти для элитных автомобилей, обслуживание авто.

Google прекратит поддержку Robots.txt Noindex: что это значит для вас

Опубликовано: 2020-12-19

С 1 сентября 2019 года Google больше не поддерживает директиву robots.txt, связанную с индексированием. Это означает, что Google начнет индексировать ваши веб-страницы, если вы полагались только на директиву noindex robots.txt для удаления этих страниц из результатов поиска. У вас есть время до первого сентября, чтобы удалить его и использовать другой метод.

Что такое noindex robots.txt? Это тег (обычно в HTML) в вашем файле robots.txt, который не позволяет поисковым системам включать эту страницу в результаты поиска.

Почему Google больше не поддерживает это? Поскольку директива noindex robots.txt не является официальной директивой. И, как говорит Google:

«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим выпускам с открытым исходным кодом мы снимаем с использования весь код, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex) 1 сентября 2019 года».

Мы помогли компаниям из списка Fortune 500, стартапам с венчурным капиталом и таким компаниям, как ваша, быстрее увеличить выручку . Получите бесплатную консультацию

Последние обновления Google

В 2019 году Google был занят множеством обновлений. Напоминаем, что наиболее важными из них являются:

  • Обновление ядра за июнь 2019 г. Google опубликовал официальное заявление, в котором говорится, что « завтра мы выпускаем широкое обновление основного алгоритма, как мы делаем это несколько раз в год. Он называется Core Update за июнь 2019 года. Наши рекомендации по таким обновлениям остаются такими же, как и раньше ».

Завтра мы выпускаем широкое обновление основного алгоритма, как мы делаем это несколько раз в год. Он называется Core Update за июнь 2019 года. Наши рекомендации по таким обновлениям остаются такими же, как и раньше. Пожалуйста, посмотрите этот твит, чтобы узнать больше об этом: https: //t.co/tmfQkhdjPL

— Google SearchLiaison (@searchliaison) 2 июня 2019 г.

  • Обновление разнообразия. Это небольшое июньское обновление больше всего повлияло на транзакционный поиск. Согласно обновлению, Google теперь стремится возвращать результаты из уникальных доменов и больше не будет отображать более двух результатов из одного домена.
  • Обновление ядра за март 2019 г. Это еще одно широкое изменение его алгоритма. Google подтвердил это обновление, но не назвал его названия, поэтому оно называлось либо обновлением Florida 2, либо общим обновлением ядра Google 3/12 . Для этого обновления не было дано никаких новых указаний.

Связанный контент:

  • Крупнейшие обновления алгоритмов поиска Google, повлиявшие на ваш трафик в 2019 г. [Инфографика]
  • Руководство маркетолога по выявлению и устранению завышения индекса Google
  • Руководство для новичков по правильному использованию тегов Rel для повышения рейтинга вашего сайта
  • Как оправиться от любого штрафа Google

До свидания с директивой Google Robots.txt Noindex

Теперь, в июле 2019 года, Google отказался от недокументированных и неподдерживаемых правил в robots.txt. Это то, что Google написал в Твиттере 2 июля 2019 года:

Сегодня мы прощаемся с недокументированными и неподдерживаемыми правилами в robots.txt?

Если вы полагались на эти правила, узнайте о своих возможностях в нашем блоге. Https://t.co/Go39kmFPLT

— Google Webmasters (@googlewmc) 2 июля 2019 г.

Если на вашем веб-сайте используется директива noindex в файле robots.txt, вам необходимо использовать другие параметры. Согласно заявлению, опубликованному в официальном блоге Google Webmaster Central:

«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим выпускам с открытым исходным кодом мы снимаем с использования весь код, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex) 1 сентября 2019 года».

Причина отмены поддержки noindex robots.txt также обсуждалась в блоге Google:

«В частности, мы сосредоточились на правилах, не поддерживаемых интернет-проектом, таких как задержка сканирования, nofollow и noindex. Поскольку эти правила никогда не были задокументированы Google, естественно, их использование по отношению к Googlebot очень мало. Копнув дальше, мы увидели, что их использование противоречит другим правилам во всех файлах robots.txt в Интернете, кроме 0,001%. Эти ошибки наносят ущерб присутствию веб-сайтов в результатах поиска Google так, как мы не думаем, что веб-мастера предполагали ».

Robots.txt — Протокол исключения роботов (REP)

Протокол исключения роботов (REP), более известный как Robots.txt, используется с 1994 года, но так и не стал официальным интернет-стандартом. Но без надлежащего стандарта и веб-мастера, и сканеры не понимали, что сканировать. Кроме того, REP никогда не обновлялся, чтобы охватить сегодняшние критические ситуации.

Согласно официальному блогу Google:

« REP никогда не был превращен в официальный стандарт Интернета , а это означает, что разработчики интерпретировали протокол несколько по-другому на протяжении многих лет. И с момента своего создания REP не обновлялся, чтобы охватить сегодняшние критические ситуации. Это серьезная проблема для владельцев веб-сайтов, потому что неоднозначный стандарт де-факто затрудняет правильное написание правил ».

Чтобы положить конец этой путанице, Google задокументировал, как REP используется в Интернете, и представил его в IETF (Internet Engineering Task Force), которая является организацией открытых стандартов, чтобы улучшить работу Интернета.

В официальном заявлении Google говорится:

«Мы хотели помочь владельцам веб-сайтов и разработчикам создавать потрясающие возможности в Интернете, вместо того, чтобы беспокоиться о том, как управлять поисковыми роботами. Вместе с первоначальным автором протокола, веб-мастерами и другими поисковыми системами мы задокументировали, как REP используется в современной сети, и отправили его в IETF ».

Что это значит для вас

Если вы используете noindex в своем файле robots.txt, Google больше не будет его соблюдать. Они чтят некоторые из этих реализаций, хотя Джон Мюллер напоминает нам:

Что ж, мы говорили, что не стоит полагаться на это уже много лет :).

-? Джон? (@JohnMu) 2 июля 2019 г.

Вы увидите уведомление в Google Search Console, если продолжите использовать noindex в своих файлах robots.txt.

Связанный контент:

  • Как писать контент для людей и оптимизировать его для Google
  • Какие самые большие ошибки веб-сайта снижают мой рейтинг в поисковых системах?
  • Как исправить 15 распространенных технических проблем SEO на месте

Альтернативы использованию директивы индексирования Robots.txt

Если ваш веб-сайт по-прежнему использует директиву noindex в robots.txt, то ее необходимо изменить, поскольку роботы Google не будут следовать правилам директивы с 1 сентября 2019 года. Но что вы должны использовать вместо этого? Вот несколько альтернатив:

1) Блокировать поисковую индексацию с помощью метатега noindex

Чтобы сканеры поисковых систем не индексировали страницу, вы можете использовать метатег noindex и добавить его в раздел <head> своей страницы.

<meta name = ”robots” content = ”noindex”>

В качестве альтернативы вы можете использовать заголовки HTTP-ответа с X-Robots-Tag, инструктирующим сканеры не индексировать страницу:

HTTP / 1.1 200 ОК

(…)

X-Robots-Tag: noindex

2) Используйте коды состояния HTTP 404 и 410

410 — это код состояния, который возвращается, когда целевой ресурс больше не доступен на исходном сервере.

Как указывает HTTPstatuses:

« Ответ 410 в первую очередь предназначен для поддержки задачи обслуживания сети, уведомляя получателя о том, что ресурс намеренно недоступен и что владельцы серверов желают удалить удаленные ссылки на этот ресурс».

404 аналогичен коду состояния 410. По словам Джона Мюллера:

« С нашей точки зрения, в среднесрочной / долгосрочной перспективе 404 — это то же самое, что 410 для нас. Поэтому в обоих случаях мы удаляем эти URL-адреса из нашего индекса.

Обычно мы немного сокращаем сканирование этих URL-адресов, чтобы не тратить слишком много времени на сканирование вещей, которые, как нам известно, не существуют.

Тонкая разница здесь в том, что 410 иногда выпадает немного быстрее, чем 404. Но обычно мы говорим порядка пары дней или около того.

Так что, если вы просто удаляете контент естественным образом, то вполне нормально использовать любой из них. Если вы уже давно удалили этот контент, значит, он уже не проиндексирован, поэтому для нас не имеет значения, используете ли вы 404 или 410 ».

3) Используйте защиту паролем

Вы можете скрыть страницу за логинами, потому что Google не индексирует страницы, которые скрыты за платным контентом или логинами.

4) Запретить роботам использовать robots.txt

Вы можете использовать директиву disallow в файле robots.txt, чтобы дать поисковым системам указание запретить индексирование выбранных вами страниц, что просто означает, что вы говорите поисковым системам не сканировать определенную страницу.

По словам Google:

«Хотя поисковая система также может индексировать URL-адрес на основе ссылок с других страниц, не видя самого контента, мы стремимся сделать такие страницы менее заметными в будущем».

5) Используйте инструмент удаления URL в Search Console.

Вы можете использовать инструмент удаления URL в Search Console, чтобы временно удалить URL из результатов поиска. Этот блок продлится 90 дней. Если вы хотите сделать блокировку постоянным, вы можете использовать любой из четырех методов, предложенных выше.

Мы помогли компаниям из списка Fortune 500, стартапам с венчурным капиталом и таким компаниям, как ваша, быстрее увеличить выручку . Получите бесплатную консультацию

Последнее слово

Если вы хотите узнать больше о том, как удалить свой контент из результатов поиска Google, перейдите в Справочный центр Google.

что это значит, в чем разница и как правильно их использовать

Есть проблемы с ранжированием, проект не растет, хотите проверить работу своих специалистов по продвижению? Закажите профессиональный аудит в Семантике

Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подпишись на рассылку и получи книгу в подарок!

Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA

В чем отличие между noindex и nofollow

Первое существенное отличие их в том, что первый был виден ранее для Google, а второй — только для Яндекса и Rambler. В настоящее время Яндекс также научился распознавать Ноуфоллоу, который работает только для ссылок, а Ноуиндекс — для любого кода сайта.

Применение Nofollow не превращает ссылку в невидимую, а всего лишь указывает, что по ней не нужно идти и индексировать документ, на который она ведет. Поисковый робот индексирует эту гиперссылку, но вес с сайта не передается, если она ведет на чужой ресурс. Работает этот атрибут для всех поисковиков.

Что касается тега Noindex, то с ним работает только Яндекс. Гугл же просто проигнорирует его. Использовать его нужно в тех случаях, когда вы хотите закрыть какой-то участок страницы — текст, картинку или ссылку — от индексации. Поисковик контент распознает, но впоследствии выкидывает из индекса. Эта мера установлена для полного анализа страницы и процедуры наложения возможных санкций за нарушения.

Для чего нужен Noindex

  • Закрывается ненужная/неуникальная информация, что улучшает релевантность страницы, потому что увеличивается плотность ключевых фраз, соответствие тематике, уникальность.
  • Прячутся сквозные блоки и гиперссылки, наличие которых может приводить к пессимизации.
  • Скрывается личная и служебная информация, если вы не хотите, чтобы она легко находилась через поиск.

Для чего нужен Nofollow

  • Закрытие лишних веб-ссылок.
  • Сохранение веса страницы неизменным.
  • Распределение определенного веса по ссылкам.

Как использовать noindex и nofollow

Тэг Noindex для любого контента применяется так:

текст, который надо скрыть <a href=”ссылка куда-то”>, и еще</a> текст</noindex>.

Весь текст и анкор ссылки изначально индексируются, но потом удаляются из базы поисковика. Гиперссылка индексируется, и вес по ней передается.

При работе с Ноиндекс существует вероятность того, что снизится валидность кода, так как данный тэг знает только российский поисковик. Поэтому рекомендуется следующий вариант написания:

<!—Noindex—> Весь текст, который надо скрыть  <!—/noindex—>.

Весь текст, который надо скрыть .

При этом другие поисковики просто его пропустят, и валидность кода останется неизменной.

Атрибут Nofollow для ссылок применяется

<a href=”веб-ссылка куда-то” rel=”nofollow”> анкор </a>

При этом анкор попадает в индекс, но поисковик по веб-ссылке не идет, вес на странице остается.

Если на странице слишком много Нофоллоу, то это может негативно сказаться на лояльности поисковиков.

Совместное использование

Для того чтобы закрыть и текстовую часть, и гиперссылку, следует придерживаться такого написания:

<!—Noindex—> Весь текст, который надо скрыть  <a href=”веб-ссылка куда-то” rel=”nofollow”> анкор </a>, и еще текст <!—/noindex—>

Варианты правильного использования Noindex и Nofollow для запрета индексации документа в целом

Тег и атрибут, все время ходят “за ручку”, и часто их применяют вместе. Они могут применяться в meta name=robots документа для указания рекомендаций по его индексации и переходу по веб-ссылкам. Указание на запрет индексации необходимо, если обнаружены дубли страниц, Или в сети появилась конфиденциальная или устаревшая информация, а другим способом страницы убрать нельзя.

В случае, если вы хотите закрыть всю страницу от индексации и запретить учет располагающихся на ней ссылок, необходимо указать в метаданных страницы — следующее:

Ноуиндекс создает команду Яндексу не индексировать контент на странице, но робот ходит по ее веб-ссылкам. Поэтому дополнительный Ноуфоллоу указывает по ним на не ходить. Данное указание воспринимают как Яндекс, так и Google.

Что касается удаления документа из индекса Google, то поисковиком предусмотрен альтернативный метод: запись X-Robots-Tag: noindex, nofollow. Данное указание закрепляется в http-заголовках, не видимых в коде страницы.

Рассказываем о разнице между Nofollow и Noindex, как их правильно использовать для ссылок и скрытия контента на сайте.

Всегда следите за наличием рассмотренных в статье тегов и атрибутов в нужных местах, чтобы получать именно тот результат, которого вы ожидаете.

SEO-wiki – Что такое Noindex

SEO-wiki – Что такое Noindex × Алфавитный указатель

Noindex

Тегом noindex отмечается часть содержимого веб-страницы, которая запрещена к индексации поисковым роботом. Мотивация для применения этого тега может быть разной, к примеру, веб-мастер может пойти на использование тега noindex, чтобы закрыть от индексации неуникальный контент, дублированные фрагменты и тексты, которые встречаются на других страницах ресурса, технический контент и т. п. Оформляется тег следующим образом: <noindex>фрагмент текста, запрещенный для индексации</noindex>.

Спасибо!

Скоро мы свяжемся с Вами!

Спасибо!

Скоро мы свяжемся с Вами!

Спасибо!

Скоро мы свяжемся с Вами!

× Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, пользовательских данных (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) в целях функционирования сайта, проведения ретаргетинга и проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.

× Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, пользовательских данных (сведения о местоположении; тип и версия ОС; тип и версия Браузера; тип устройства и разрешение его экрана; источник откуда пришел на сайт пользователь; с какого сайта или по какой рекламе; язык ОС и Браузера; какие страницы открывает и на какие кнопки нажимает пользователь; ip-адрес) в целях функционирования сайта, проведения ретаргетинга и проведения статистических исследований и обзоров. Если вы не хотите, чтобы ваши данные обрабатывались, покиньте сайт.

Что такое noindex, nofollow?

Время чтения: 4 минуты    Нет времени читать?

Всем Hello! Сегодня хочу рассказать про теги noindex и атрибут nofollow.

Тег noindex – что такое?

Если говорить коротко, то No index запрещает поисковым роботам индексировать какой-либо элемент на сайте. Данный тег не валидный, поэтому многие html-редакторы не воспринимают его. Например, чтобы редактор WordPress учитывал тег, то необходимо прописать:

<!—noindex —>

<!—/ noindex —>

Если прописать в таком формате тег не исчезнет. Еще нужно понимать, что тег noindex актуален только для поисковой системы Яндекс. В Google он никак не учитывается.

Не путайте тег noindex с атрибутом noindex, который прописывает 1 раз в шапке сайта.

<noindex> запрещает индексировать контент внутри этого тега. Что касается meta name=”robots” content=”noindex, nofollow”, он закрывает всю страницу от индексации, но этом я рассказал в данной статье.

Рассмотрим пример noindex:

<noindex>Этот текст не появится в поисковой системе Яндекс</noindex>

Также вложенность не столь важна, и тег может располагаться на в любом месте html кода.

Не забывайте! Если есть открывающий тег <noindex>, то должен быть и закрывающий </noindex), иначе ПС Яндекс не проиндексирует всю информацию.

Оптимизаторы доспускают ошибки, когда заносят все ссылки под noindex. Текст, тобишь анкор учитывается, но сама ссылка и ее вес нет. Для этого используют атрибут nofollow в теге <a>.

Читайте в нашем блоге: Где проверить скорость загрузки сайта

Зачем нужно использовать noindex?

Давайте разберем в каких случаях стоит применять тег, а в каких это не требуется.

Я использую, когда нужно:

  • Спрятать коды древних счетчиков, если вы их еще используете (LiveInternet, Rambler и прочие). Яндекс Метрику и Google Analytics помещать не обязательно;
  • Спрятать различные RSS-ленты, подписку на рассылки итд.

Не нужно:

  • Закрывать от индексации контекстную рекламу РСЯ, Adsense от поисковых систем Яндекс и Google. При обходе страницы роботы видят рекламу и не учитывают ее;
  • Прописывать внешние и внутренние ссылки внутри тега, поисковые системы не будут воспринимать это все равно. Плюс это выглядит глупо, когда есть другой тег который отвечает за ссылки nofollow. Но о нем чуть ниже.

Каков итог:

Старайтесь по минимуму использовать данный тег, чтобы не было различий между поисковыми системами Яндекс и Google.

Атрибут nofollow тега <а> – Что это такое?

Google представил атрибуты noindex, nofollow

В 2005 году Google представил новый атрибут (названный атрибутом ссылок) Nofollow.

Атрибут nofollow используется при закрытии ссылок от индексации поисковыми роботами Яндекс и Google. Данный атрибут запрещает передавать вес с одного сайта на другой.

В чем отличие от noindex?

Ноиндекс – это тег, который запрещает роботу индексировать текст, нофоллоу – относится к тегу <a> (тег ссылки) запрещает передавать вес по ссылке.

Пример тега nofollow:

<a href=»http://site.ru&quot; rel=»nofollow»>любой анкор</a>

Важно! Не стоит путать его с атрибутом nofollow мета-тега robots. Задача nofollow тега <a> скрыть конкретные ссылки, когда как meta robots content=”nofollow” не учитывает все ссылки на странице, то есть действует на всю страницу.

Узнать что такое атрибут content=”noindex, nofollow” тега meta name robots ?

Использование nofollow

Поисковая система Яндекс с мая 2010 перестал учитывать данный атрибут. Что касается Google то давайте разберем, как правильно использовать nofollow:

  • Ненадежный сайт. Если вы ссылаетесь на сайт, но не уверены в его качестве (допустим он окажется спамным) то следует закрыть ссылку nofollow. Тем меньше спамных ссылок на сайте тем лучше;
  • Платные ссылки. К данному пункту необходимо отнестись осторожно потому что, Google негативно относится к спамным ссылкам.  От одной-двух ссылок ничего не будет, но если у вас таких ссылок, например, 100 штук, стоит об этом задуматься. Поэтому прописать атрибут важно, чтобы не получить санкции со стороны поисковой системы.

Одновременное использование nofollow и noindex

Поисковые системы допускают такое сочетание, когда их ставят друг с другом.

Пример

<noindex><a href=”http://site.ru” rel=”nofollow”>любой анкор</a></noindex>

Таким образом, вы закрываете от индексации и анкор (с помощью noindex) и ссылку (с помощью).

Читайте в нашем блоге: Поисковые системы — список популярных систем в России

Заключение

Подводя итоги, хочу сказать, что поисковые системы в последнее время меньше стали учитывать данные теги и атрибуты, чем это было к примеру лет 10 назад. Поэтому не заостряйте внимание только на чём-то одном, ведь сейчас выигрывает тот, кто делает все комплексно. 

Оставляйте комментарии к статье, если у вас остались вопросы. А я желаю вам удачи и продвижения своих сайтов белыми способами!

 

Полное руководство по Robots.txt и метатегу Noindex

Файл Robots.txt и мета-тег Noindex важны для SEO-продвижения. Они информируют Google, какие именно страницы необходимо сканировать, а какие – индексировать (отображать в результатах поиска).

С помощью этих средств можно ограничить содержимое сайта, доступное для индексации.

Robots.txt – это файл, который указывает поисковым роботам (например, Googlebot и Bingbot), какие страницы сайта не должны сканироваться.

Файл robots.txt сообщает роботам системам, какие страницы могут быть просканированы. Но не может контролировать их поведение и скорость сканирования сайта. Этот файл, по сути, представляет собой набор инструкций для поисковых роботов о том, к каким частям сайта доступ ограничен.

Но не все поисковые системы выполняют директивы файла robots.txt. Если у вас остались вопросы насчет robots.txt, ознакомьтесь с  часто задаваемыми вопросами о роботах.

По умолчанию файл robots.txt выглядит следующим образом:

Можно создать свой собственный файл robots.txt в любом редакторе, который поддерживает формат .txt. С его помощью можно заблокировать второстепенные веб-страницы сайта. Файл robots.txt – это способ сэкономить лимиты, которые могут пойти на сканирование других разделов сайта.

User-Agent: определяет поискового робота, для которого будут применяться ограничения в сканировании URL-адресов. Например, Googlebot, Bingbot, Ask, Yahoo.

Disallow: определяет адреса страниц, которые запрещены для сканирования.

Allow: только Googlebot придерживается этой директивы. Она разрешает анализировать страницу, несмотря на то, что сканирование родительской веб-страницы запрещено.

Sitemap: указывает путь к файлу sitemap сайта.

В файле robots.txt символ (*) используется для обозначения любой последовательности символов.

Директива для всех типов поисковых роботов:

User-agent:*

Также символ * можно использовать, чтобы запретить все URL-адреса кроме родительской страницы.

User-agent:*

Disallow: /authors/*

Disallow: /categories/*

Это означает, что все URL-адреса дочерних страниц авторов и страниц категорий заблокированы за исключением главных страниц этих разделов.

Ниже приведен пример правильного файла robots.txt:

User-agent:*
Disallow: /testing-page/
Disallow: /account/
Disallow: /checkout/
Disallow: /cart/
Disallow: /products/page/*
Disallow: /wp/wp-admin/
Allow: /wp/wp-admin/admin-ajax.php
 
Sitemap: yourdomainhere.com/sitemap.xml

После того, как отредактируете файл robots.txt, разместите его в корневой директории сайта. Благодаря этому поисковый робот увидит файл robots.txt сразу после захода на сайт.

Noindex – это метатег, который запрещает поисковым системам индексировать страницу.

Существует три способа добавления Noindex на страницы:

Разместите приведенный ниже код в раздел <head>  страницы:

<meta name=”robots” content=”noindex”>

Он сообщает всем типам поисковых роботов об условиях индексации страницы. Если нужно запретить индексацию страницы только для определенного робота, поместите его название в значение атрибута name.

Чтобы запретить индексацию страницы для Googlebot:

<meta name=”googlebot” content=”noindex”>

Чтобы запретить индексацию страницы для Bingbot:

<meta name=”bingbot” content=”noindex”>

Также можно разрешить или запретить роботам переход по ссылкам, размещенным на странице.

Чтобы разрешить переход по ссылкам на странице:

<meta name=”robots” content=”noindex,follow”>

Чтобы запретить поисковым роботам сканировать ссылки на странице:

<meta name=”robots” content=”noindex,nofollow”>

x-robots-tag позволяет управлять индексацией страницы через HTTP-заголовок. Этот тег также указывает поисковым системам не отображать определенные типы файлов в результатах поиска. Например, изображения и другие медиа-файлы.

Для этого у вас должен быть доступ к файлу .htaccess. Директивы в метатеге «robots» также применимы к x-robots-tag.

Плагин YoastSEO в WordPress автоматически генерирует приведенный выше код. Для этого на странице записи перейдите в интерфейсе YoastSEO в настройки публикации, щелкнув по значку шестеренки. Затем в опции «Разрешить поисковым системам показывать эту публикацию в результатах поиска?» выберите «Нет».

Также можно задать тег noindex для страниц категорий. Для этого зайдите в плагин Yoast, в «Вид поиска». Если в разделе «Показать категории в результатах поиска» выбрать «Нет», тег noindex будет размещен на всех страницах категорий.

  • Чтобы проиндексированная страница была удалена из результатов поиска, убедитесь, что она не заблокирована в файле robots.txt. И только потом добавляйте тег noindex. Иначе Googlebot не сможет увидеть тег на странице. Если заблокировать страницу без тега noindex, она все равно будет отображаться в результатах поиска:
  • Добавление директивы sitemap в файл robots.txt технически не требуется, но считается хорошей практикой.
  • После обновления файла robots.txt рекомендуется проверить, не заблокированы ли важные страницы. Это можно сделать с помощью txt Tester в Google Search Console.
  • Используйте инструмент проверки URL-адреса в Google Search Console, чтобы увидеть статус индексации страницы.
  • Также можно проверить, проиндексировал ли Google ненужные страницы. Это можно сделать с помощью отчета в Google Search Console. Еще одной альтернативой может быть использование оператора «site». Это команда Google, которая отображает все страницы сайта, доступные в результатах поиска.

В последнее время в SEO-сообществе было много недоразумений по поводу использования noindex в robots.txt. Но представители Google много раз говорили, что поисковая система не поддерживают данный метатег. И все же многие люди настаивают на том, что он все еще работает. Но лучше избегать его использования.

Заблокированные через robots.txt страницы, не могут быть проиндексированы, даже если кто-то на них ссылается.

Чтобы быть уверенным, что страница без контента случайно не появится в результатах поиска, Джон Мюллер рекомендует размещать на этих веб-страницах noindex даже после того, как вы заблокировали их в robots.txt.

Использование файла robots.txt  улучшает не только SEO, но и пользовательский опыт. Для этого реализуйте приведенные выше практики.

Пожалуйста, оставьте ваши комментарии по текущей теме статьи. Мы очень благодарим вас за ваши комментарии, отклики, лайки, подписки, дизлайки!

Данная публикация является переводом статьи «The Complete Guide to Robots.txt and Noindex Meta Tag» , подготовленная редакцией проекта.

Что такое Noindex и как его реализовать?

Что такое noindex?

Noindex — это значение, которое можно использовать в метатеге robots в HTML-коде веб-сайта. Он адресован сканерам поисковых систем, таких как Google, Bing и Yahoo. Если они находят это значение в метатегах веб-страницы, эта страница не включается в индекс поисковых систем и, следовательно, не отображается для пользователей в списках результатов поиска. Аналог noindex — это «index», который явно разрешает индексацию.

С помощью noindex вы можете решить, должна ли определенная веб-страница быть включена в индекс поисковых систем или нет. Таким образом, noindex — отличное средство для управления индексированием каждой отдельной подстраницы с небольшими усилиями. Таким образом, директива является важным инструментом поисковой оптимизации (SEO). Google всегда придерживается директивы noindex, тогда как index рассматривается только как рекомендация.

Для чего используется директива и когда она (нет) имеет смысл?

С помощью noindex вы можете исключить страницы из индекса поисковых систем, которые не принесли бы пользователям никакой дополнительной ценности, если бы они отображались в результатах поиска.Сюда входят, например, карты сайта или результаты внутреннего поиска. Подстраницы с конфиденциальными данными или защищенными паролем загрузками и разделами для участников также могут быть исключены из индексации таким образом.

Для страниц с повторяющимся, похожим или разбитым на страницы содержанием индексирование также не всегда рекомендуется с точки зрения SEO. Исключая этот контент, Google не оценивает такие страницы как дублирующий контент, и поэтому отдельные подстраницы не конкурируют друг с другом в отношении рейтинга.Это может пригодиться, например, в категориях интернет-магазинов. Если продукты там можно отсортировать по разным критериям, могут возникнуть совпадения. Например, если пользователи могут отсортировать довольно небольшое количество элементов по размеру, продукты, доступные в нескольких размерах, появятся в нескольких дисплеях категорий. Если эти страницы исключить из индексации, сайт не будет дублироваться, что отлично для SEO. В этом контексте, однако, обратите внимание на релевантность этих страниц, которая может быть связана с обратными ссылками и т. Д., также теряется из-за директивы noindex. Таким образом, вы всегда должны использовать канонический тег для дублированного контента, поскольку этот тег объединяет ссылочную массу затронутых страниц с каноническим URL-адресом и одновременно сигнализирует роботу Googlebot, какая страница должна быть включена в индекс.

Другой часто встречающийся вариант использования noindex — это разбивка на страницы, которая часто используется для длинных текстов или серий изображений. Здесь может иметь смысл проиндексировать только первую страницу, чтобы пользователи не оказывались в середине содержания серии изображений, а в начале.Однако использование noindex в этом контексте не всегда имеет смысл. Особенно длинные редакционные статьи содержат не только полезную информацию на первой странице. Таким образом, исключение следующих страниц может привести к потере трафика, что может отрицательно сказаться на SEO. Чтобы избежать этого, вы должны использовать rel = «next» / «prev» для нумерации страниц.

Как реализовать noindex

Одна из возможностей исключить определенную веб-страницу из индексации — добавить noindex к метатегу robots в метаданных этой страницы.Этот метатег содержит инструкции для сканеров Google и других поисковых систем. Чтобы исключить страницу из индекса поисковой системы, вам необходимо интегрировать следующий тег в заголовок HTML-кода:

  

Вместо того, чтобы отклонять все сканеры, вы также можете обратиться к определенной поисковой системе с помощью этого метатега. Например, если вы хотите запретить Googlebot индексировать определенную подстраницу, замените значение в атрибуте name на «googlebot».Имя бота Yahoo — «slurp». Однако в практике SEO вряд ли имеет смысл исключать только отдельных ботов.

В качестве альтернативы вы можете реализовать директиву noindex через поле в заголовке ответа HTTP. Для этого вам нужно добавить следующий код в заголовок HTTP-ответа:

 X-Robots-Тег: noindex 

Комбинирование noindex с follow или nofollow

При желании вы можете комбинировать директиву noindex со значениями «follow» или «nofollow». Они сообщают поисковым роботам, как обрабатывать ссылки на неиндексированной странице.Поисковые боты переходят по ссылкам на соответствующей странице, если установлена ​​директива Follow. Эта комбинация директив часто используется для карт сайта в формате HTML. Индексирование карты сайта в формате HTML редко имеет смысл, но с точки зрения SEO карта сайта имеет ценность, потому что Google и другие поисковые системы могут получить доступ ко всем подстраницам веб-сайта всего за несколько шагов.

Следующая директива также может быть полезна для SEO в отношении страниц категорий с разбивкой на страницы или страниц результатов функции внутреннего поиска интернет-магазинов.Многие операторы веб-сайтов решают не индексировать такие подстраницы из-за их низкого информационного содержания и потенциальных проблем с дублированием контента. В этом случае значение «следовать» полезно для обеспечения того, чтобы поисковые системы могли находить и индексировать отдельные продукты, предлагаемые в этих категориях.

В этом контексте, однако, обратите внимание, что Google перестает переходить по ссылкам на странице noindex через определенный период времени. Следовательно, этот подход только частично рекомендуется для долгосрочного SEO.

В отличие от следующего, директива nofollow гарантирует, что поисковые роботы не будут оценивать ссылки на подстранице.

Отличие от директивы disallow в файле robots.txt

Используя директиву disallow в файле robots.txt, вы можете запретить поисковым роботам сканировать определенные там области. Команда используется, например, для файлов, таких как изображения в больших базах данных, чтобы сэкономить ценный бюджет сканирования SEO. Однако вы не должны использовать эту директиву, если хотите, чтобы определенный контент не индексировался. Хотя команда запрещает сканирование определенной страницы, эта страница все равно может отображаться в индексе, если на нее указывают обратные ссылки с других веб-сайтов.

По этой причине вам никогда не следует комбинировать noindex и disallow на одной странице. Поскольку сканеры всегда сначала вызывают файл robots.txt при индексировании веб-сайта, они сначала замечают директиву disallow и, следовательно, воздерживаются от сканирования соответствующих подстраниц. Следствием этого является то, что они не могут видеть возможные директивы noindex на этих страницах и по-прежнему включать подстраницы в индекс, если они связаны через обратные ссылки. Если вы не хотите, чтобы определенная страница была включена в индекс поисковых систем, вам следует использовать только noindex.

Ссылки по теме

Похожие статьи

Что такое Noindex и как его реализовать?

Что такое noindex?

Noindex — это значение, которое можно использовать в метатеге robots в HTML-коде веб-сайта. Он адресован сканерам поисковых систем, таких как Google, Bing и Yahoo. Если они находят это значение в метатегах веб-страницы, эта страница не включается в индекс поисковых систем и, следовательно, не отображается для пользователей в списках результатов поиска.Аналог noindex — это «index», который явно разрешает индексацию.

С помощью noindex вы можете решить, должна ли определенная веб-страница быть включена в индекс поисковых систем или нет. Таким образом, noindex — отличное средство для управления индексированием каждой отдельной подстраницы с небольшими усилиями. Таким образом, директива является важным инструментом поисковой оптимизации (SEO). Google всегда придерживается директивы noindex, тогда как index рассматривается только как рекомендация.

Для чего используется директива и когда она (нет) имеет смысл?

С помощью noindex вы можете исключить страницы из индекса поисковых систем, которые не принесли бы пользователям никакой дополнительной ценности, если бы они отображались в результатах поиска.Сюда входят, например, карты сайта или результаты внутреннего поиска. Подстраницы с конфиденциальными данными или защищенными паролем загрузками и разделами для участников также могут быть исключены из индексации таким образом.

Для страниц с повторяющимся, похожим или разбитым на страницы содержанием индексирование также не всегда рекомендуется с точки зрения SEO. Исключая этот контент, Google не оценивает такие страницы как дублирующий контент, и поэтому отдельные подстраницы не конкурируют друг с другом в отношении рейтинга.Это может пригодиться, например, в категориях интернет-магазинов. Если продукты там можно отсортировать по разным критериям, могут возникнуть совпадения. Например, если пользователи могут отсортировать довольно небольшое количество элементов по размеру, продукты, доступные в нескольких размерах, появятся в нескольких дисплеях категорий. Если эти страницы исключить из индексации, сайт не будет дублироваться, что отлично для SEO. В этом контексте, однако, обратите внимание на релевантность этих страниц, которая может быть связана с обратными ссылками и т. Д., также теряется из-за директивы noindex. Таким образом, вы всегда должны использовать канонический тег для дублированного контента, поскольку этот тег объединяет ссылочную массу затронутых страниц с каноническим URL-адресом и одновременно сигнализирует роботу Googlebot, какая страница должна быть включена в индекс.

Другой часто встречающийся вариант использования noindex — это разбивка на страницы, которая часто используется для длинных текстов или серий изображений. Здесь может иметь смысл проиндексировать только первую страницу, чтобы пользователи не оказывались в середине содержания серии изображений, а в начале.Однако использование noindex в этом контексте не всегда имеет смысл. Особенно длинные редакционные статьи содержат не только полезную информацию на первой странице. Таким образом, исключение следующих страниц может привести к потере трафика, что может отрицательно сказаться на SEO. Чтобы избежать этого, вы должны использовать rel = «next» / «prev» для нумерации страниц.

Как реализовать noindex

Одна из возможностей исключить определенную веб-страницу из индексации — добавить noindex к метатегу robots в метаданных этой страницы.Этот метатег содержит инструкции для сканеров Google и других поисковых систем. Чтобы исключить страницу из индекса поисковой системы, вам необходимо интегрировать следующий тег в заголовок HTML-кода:

  

Вместо того, чтобы отклонять все сканеры, вы также можете обратиться к определенной поисковой системе с помощью этого метатега. Например, если вы хотите запретить Googlebot индексировать определенную подстраницу, замените значение в атрибуте name на «googlebot».Имя бота Yahoo — «slurp». Однако в практике SEO вряд ли имеет смысл исключать только отдельных ботов.

В качестве альтернативы вы можете реализовать директиву noindex через поле в заголовке ответа HTTP. Для этого вам нужно добавить следующий код в заголовок HTTP-ответа:

 X-Robots-Тег: noindex 

Комбинирование noindex с follow или nofollow

При желании вы можете комбинировать директиву noindex со значениями «follow» или «nofollow». Они сообщают поисковым роботам, как обрабатывать ссылки на неиндексированной странице.Поисковые боты переходят по ссылкам на соответствующей странице, если установлена ​​директива Follow. Эта комбинация директив часто используется для карт сайта в формате HTML. Индексирование карты сайта в формате HTML редко имеет смысл, но с точки зрения SEO карта сайта имеет ценность, потому что Google и другие поисковые системы могут получить доступ ко всем подстраницам веб-сайта всего за несколько шагов.

Следующая директива также может быть полезна для SEO в отношении страниц категорий с разбивкой на страницы или страниц результатов функции внутреннего поиска интернет-магазинов.Многие операторы веб-сайтов решают не индексировать такие подстраницы из-за их низкого информационного содержания и потенциальных проблем с дублированием контента. В этом случае значение «следовать» полезно для обеспечения того, чтобы поисковые системы могли находить и индексировать отдельные продукты, предлагаемые в этих категориях.

В этом контексте, однако, обратите внимание, что Google перестает переходить по ссылкам на странице noindex через определенный период времени. Следовательно, этот подход только частично рекомендуется для долгосрочного SEO.

В отличие от следующего, директива nofollow гарантирует, что поисковые роботы не будут оценивать ссылки на подстранице.

Отличие от директивы disallow в файле robots.txt

Используя директиву disallow в файле robots.txt, вы можете запретить поисковым роботам сканировать определенные там области. Команда используется, например, для файлов, таких как изображения в больших базах данных, чтобы сэкономить ценный бюджет сканирования SEO. Однако вы не должны использовать эту директиву, если хотите, чтобы определенный контент не индексировался. Хотя команда запрещает сканирование определенной страницы, эта страница все равно может отображаться в индексе, если на нее указывают обратные ссылки с других веб-сайтов.

По этой причине вам никогда не следует комбинировать noindex и disallow на одной странице. Поскольку сканеры всегда сначала вызывают файл robots.txt при индексировании веб-сайта, они сначала замечают директиву disallow и, следовательно, воздерживаются от сканирования соответствующих подстраниц. Следствием этого является то, что они не могут видеть возможные директивы noindex на этих страницах и по-прежнему включать подстраницы в индекс, если они связаны через обратные ссылки. Если вы не хотите, чтобы определенная страница была включена в индекс поисковых систем, вам следует использовать только noindex.

Ссылки по теме

Похожие статьи

Что такое Noindex и для чего он нужен? с Гэри Иллисом

В нашем втором виртуальном выступлении с аналитиком Google Webmaster Trends Гэри Иллиесом Эрик Энге спросил его о том, как Google обрабатывает различные теги SEO. В этом посте я резюмирую то, что Гэри сказал о теге noindex.

Вы можете посмотреть сегмент, в котором происходит это обсуждение, в этом видео:

Что такое тег noindex?

По словам Эрика Энге, «Тег NoIndex — это инструкция для поисковых систем, что вы не хотите, чтобы страница оставалась в их результатах поиска.Вам следует использовать это, если вы считаете, что у вас есть страница, которую поисковые системы могут посчитать некачественной ».

Что делает тег noindex?

  • Это директива, а не предложение. То есть Google будет подчиняться ему, а не индексировать страницу.
  • Страница все еще может сканироваться Google.
  • Страница все еще может накапливать PageRank.
  • Страница все еще может передавать PageRank через любые ссылки на странице.

[Твитнуть: «Страницы Noindex по-прежнему собирают и передают PageRank (Гэри Иллис).См. »]

(Гэри отметил, что, хотя Эрик упомянул PageRank, на самом деле существует множество других сигналов, которые потенциально могут передаваться через любую ссылку. Лучше сказать« сигналы пройдены », чем« PageRank пройдены ».)

Уменьшается ли частота сканирования страницы noindex со временем?

Частота сканирования — это то, как часто Google возвращается на страницу, чтобы проверить, существует ли еще страница, есть ли какие-либо изменения, накоплены или нет сигналы.

Обычно частота сканирования снижается для любой страницы, которую Google не может проиндексировать по какой-либо причине.Google попытается выполнить повторное сканирование несколько раз, чтобы проверить, исчезли ли или исправлены ли noindex, ошибка или что-то, что блокировало сканирование.

Если инструкция noindex остается, Google начнет постепенно увеличивать время до следующей попытки сканирования страницы, в конечном итоге сокращаясь до проверки примерно каждые два-три месяца, чтобы увидеть, есть ли еще тег noindex.

Эрик заметил, что это означает, что тег noindex — это способ контролировать, как Google сканирует ваш сайт, и Гэри согласился.

[Твитнуть: «Тег Noindex постепенно снижает частоту сканирования страницы Google» (Гэри Иллис).См. »]

Узнайте, как реализовать тег noindex на своем сайте.

Узнайте, что Perficient Digital может сделать для SEO вашей компании.

Об авторе

Эрик Энге возглавляет отдел цифрового маркетинга Perficient.Он разрабатывает исследования и проводит отраслевые исследования, чтобы помочь доказать, опровергнуть или развить предположения о методах цифрового маркетинга и их ценности. Эрик — писатель, блоггер, исследователь, преподаватель, основной докладчик и участник крупных отраслевых конференций. В партнерстве с несколькими другими экспертами Эрик был ведущим автором книги «Искусство SEO».

Больше от этого автора

Google прекращает поддержку роботов.txt Noindex: Что это значит

Хотите узнать секреты лучших маркетологов мира всего за 5 минут в день? Подпишитесь на бесплатную 14-дневную пробную версию Marketing School Pro, чтобы получить доступ к эксклюзивному контенту, практическим советам и закрытому сообществу, которое сделает вас умнее! Кликните сюда, чтобы узнать больше.

Действующий 1 сентября 2019 г. , Google больше не будет поддерживать директиву robots.txt, связанную с индексированием. Это означает, что Google начнет индексировать ваши веб-страницы, если вы полагались только на robots.txt noindex, чтобы удалить эти страницы из результатов поиска. У вас есть время до первого сентября, чтобы удалить его и использовать другой метод.

A noindex robots.txt — это тег (обычно в HTML) в вашем файле robots.txt, который не позволяет поисковым системам включать эту страницу в результаты поиска.

Почему Google больше не поддерживает его? Потому что директива noindex robots.txt не является официальной директивой. И, как сообщает Google:

«В интересах поддержания здоровой экосистемы и подготовки к потенциальным будущим выпускам с открытым исходным кодом мы убираем весь код, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex) 1 сентября 2019 года.”

Мы помогли компаниям из списка Fortune 500, стартапам с венчурным капиталом и таким компаниям, как ваша , увеличить выручку быстрее . Получите бесплатную консультацию

Последние обновления Google

В 2019 году Google был занят большим количеством обновлений. Напоминаем, что наиболее важными из них являются:

  • Обновление ядра , июнь 2019 года. Google опубликовал официальное заявление, в котором говорится, что Завтра мы выпускаем широкое обновление основного алгоритма, как мы делаем это несколько раз в год.Он называется Core Update за июнь 2019 года. Наши рекомендации по поводу таких обновлений остаются такими же, как и раньше ».

Завтра мы выпускаем широкое обновление основного алгоритма, как мы делаем это несколько раз в год. Он называется Core Update за июнь 2019 года. Наши рекомендации по таким обновлениям остаются такими же, как и раньше. Пожалуйста, просмотрите этот твит, чтобы узнать больше об этом: https: //t.co/tmfQkhdjPL

— Google SearchLiaison (@searchliaison) 2 июня 2019 г.

  • Обновление разнообразия. Это небольшое июньское обновление больше всего влияет на транзакционный поиск. Согласно обновлению, Google теперь стремится возвращать результаты из уникальных доменов и больше не будет отображать более двух результатов из одного и того же домена.
  • Обновление ядра за март 2019 г. Это еще одно широкое изменение его алгоритма. Google подтвердил это обновление, но не назвал его, поэтому оно называлось либо обновлением Florida 2 , либо обновлением широкого ядра Google 3/12 . Для этого обновления не было дано никаких новых указаний.

Соответствующий контент:

Прощай, директива Google Robots.txt Noindex

Теперь, в июле 2019 года, Google попрощался с недокументированными и неподдерживаемыми правилами в robots.txt. Это то, что Google написал в Твиттере 2 июля 2019 года:

Сегодня мы прощаемся с недокументированными и неподдерживаемыми правилами в robots.txt?

Если вы полагались на эти правила, узнайте о своих возможностях в нашем блоге. Https://t.co/Go39kmFPLT

— Google Webmasters (@googlewmc) 2 июля 2019 г.

Если на вашем веб-сайте используется noindex директива в файле robots.txt, тогда вам нужно будет использовать другие параметры. Согласно заявлению, опубликованному в официальном блоге Google Webmaster Central:

«В интересах поддержания здоровой экосистемы и подготовки к возможным будущим выпускам с открытым исходным кодом мы удаляем весь код, который обрабатывает неподдерживаемые и неопубликованные правила (например, noindex ) 1 сентября 2019 г. »

Причина отмены поддержки noindex robots.txt также обсуждалась в блоге Google:

«В частности, мы сосредоточились на правилах, не поддерживаемых интернет-проектом, таких как задержка сканирования, nofollow и noindex.Поскольку эти правила никогда не были задокументированы Google, естественно, их использование по отношению к Googlebot очень мало. Копнув дальше, мы увидели, что их использование противоречит другим правилам во всех файлах robots.txt в Интернете, кроме 0,001%. Эти ошибки наносят ущерб присутствию веб-сайтов в результатах поиска Google так, как мы не думаем, что веб-мастера предполагали ».

Robots.txt — Протокол исключения роботов (REP)

Протокол исключения роботов (REP), более известный как Роботы.txt, используется с 1994 года, но так и не стал официальным интернет-стандартом. Но без надлежащего стандарта и веб-мастера, и сканеры не понимали, что сканировать. Кроме того, REP никогда не обновлялся, чтобы охватить сегодняшние критические ситуации.

Согласно официальному блогу Google:

« REP никогда не превращался в официальный интернет-стандарт , что означает, что разработчики интерпретировали протокол несколько иначе на протяжении многих лет.И с момента своего создания REP не обновлялся, чтобы охватить сегодняшние критические ситуации. Это серьезная проблема для владельцев веб-сайтов, потому что неоднозначный стандарт де-факто затрудняет правильное написание правил ».

Чтобы положить конец этой путанице, Google задокументировал, как REP используется в Интернете, и отправил его в IETF (Internet Engineering Task Force), которая является организацией открытых стандартов, чтобы улучшить работу Интернета.

В официальном заявлении Google говорится:

«Мы хотели помочь владельцам веб-сайтов и разработчикам создавать удивительные возможности в Интернете, вместо того, чтобы беспокоиться о том, как управлять поисковыми роботами.Вместе с первоначальным автором протокола, веб-мастерами и другими поисковыми системами мы задокументировали, как REP используется в современной сети, и отправили его в IETF ».

Что это значит для вас

Если вы используете noindex в своем файле robots.txt, Google больше не будет его соблюдать. Они уважают некоторые из этих реализаций, даже несмотря на то, что Джон Мюллер напоминает нам:

Что ж, мы говорили, что не стоит полагаться на это уже много лет :).

-? Джон ? (@JohnMu) 2 июля 2019 г.

Если вы продолжите использовать noindex в своих файлах robots.txt файлы.

Связанное содержание:

Альтернативы использованию директивы индексирования robots.txt

Если ваш веб-сайт по-прежнему использует директиву noindex в robots.txt, то ее необходимо изменить, поскольку роботы Google не будут следовать этой директиве. правила, начиная с 1 сентября 2019 г. Но что вы должны использовать вместо этого? Вот несколько альтернатив:

1) Блокировать поисковую индексацию с помощью метатега noindex

Чтобы сканеры поисковой системы не индексировали страницу, вы можете использовать метатег noindex и добавить его в раздел вашей страницы.

В качестве альтернативы вы можете использовать заголовки HTTP-ответа с тегом X-Robots-Tag, инструктирующим сканеры не индексировать страницу:

HTTP / 1.1 200 OK

(…)

X-Robots-Tag: noindex

2) Используйте коды состояния HTTP 404 и 410

410 — это код состояния, который возвращается, когда целевой ресурс больше не является доступно на исходном сервере.

Как указывает HTTPstatus:

Ответ 410 в первую очередь предназначен для помощи в выполнении задачи веб-обслуживания, уведомляя получателя о том, что ресурс намеренно недоступен и что владельцы серверов желают, чтобы удаленные ссылки на этот ресурс были удалены. . »

404 аналогичен коду состояния 410. По словам Джона Мюллера:

« С нашей точки зрения, в среднесрочной / долгосрочной перспективе, 404 — это то же самое, что 410 для нас.Поэтому в обоих случаях мы удаляем эти URL-адреса из нашего индекса.

Обычно мы немного сокращаем сканирование этих URL, чтобы не тратить слишком много времени на сканирование вещей, которых, как нам известно, не существует.

Тонкая разница в том, что 410 иногда выпадает немного быстрее, чем 404. Но обычно мы говорим примерно через пару дней.

Итак, если вы просто удаляете контент естественным образом, то вы можете использовать любой из них.Если вы уже давно удалили этот контент, значит, он еще не проиндексирован, поэтому для нас не имеет значения, используете ли вы 404 или 410 ».

3) Используйте защиту паролем

Вы можете скрыть страницу за логинами, потому что Google не индексирует страницы, которые скрыты за платным контентом или логинами.

4) Запретить роботам использование Robots.txt

Вы можете использовать директиву disallow в файле robots.txt, чтобы заставить поисковые системы запретить индексирование выбранных вами страниц, что просто означает, что вы говорите поисковым системам, что для сканирования определенной страницы.

По словам Google:

«Хотя поисковая система может также индексировать URL-адрес на основе ссылок с других страниц, не видя самого контента, мы стремимся сделать такие страницы менее заметными в будущем».

5) Используйте инструмент удаления URL-адреса Search Console

Вы можете использовать инструмент удаления URL-адреса Search Console, чтобы временно удалить URL-адрес из результатов поиска. Этот блок продлится 90 дней. Если вы хотите сделать блокировку постоянным, вы можете использовать любой из четырех методов, предложенных выше.

Мы помогли компаниям из списка Fortune 500, стартапам с венчурным капиталом и таким компаниям, как ваша , быстрее увеличить выручку . Получите бесплатную консультацию

Last Word

Если вы хотите узнать больше о том, как удалить свой контент из результатов поиска Google, перейдите в Справочный центр Google.

Что делать NOINDEX?

Ладно, кому-то этот пост будет колоссально скучен. Но я хотел дать вам возможность взглянуть на дебаты за кулисами в группе качества поиска Google.Вот обсуждение политики NOINDEX и того, как Google должен обрабатывать метатег NOINDEX. Во-первых, вы хотите прочитать этот пост о том, как Google обрабатывает метатег NOINDEX. Вы также можете посмотреть это видео о том, как удалить свой контент из Google или вообще предотвратить его индексирование. Вот вывод из моего предыдущего сообщения в блоге:

Таким образом, исходя из размера выборки в одну страницу, похоже, что поисковые системы обрабатывают метатег «NOINDEX»:
— Google никак не отображает страницу
— Ask никак не отображает страницу
— MSN показывает ссылку на URL и кешированную ссылку, но без фрагмента.Нажатие на кешированную ссылку ничего не возвращает.
— Yahoo! показывает ссылку на URL и кешированную ссылку, но без фрагмента. Щелчок по кэшированной ссылке возвращает кешированную страницу.

Вопрос в том, следует ли Google полностью исключать страницу с NOINDEX из результатов поиска или показывать ссылку на страницу или что-то среднее между ними? Приведу аргументы по каждому:

Полностью удалить страницу NOINDEX

Так мы поступаем последние несколько лет, и веб-мастера к этому привыкли.Мета-тег NOINDEX дает хороший способ — по сути, один из немногих — полностью удалить все следы сайта из Google (другой способ — наш инструмент для удаления URL-адресов). Это невероятно полезно для веб-мастеров. Единственный угловой случай заключается в том, что если Google видит ссылку на страницу A, но на самом деле не сканирует страницу, мы не узнаем, что страница A имеет тег NOINDEX, и можем показать страницу как непросканированный URL. Для этого есть интересное средство: в настоящее время Google разрешает директиву NOINDEX в файле robots.txt, которая полностью удаляет все совпадающие URL-адреса сайтов из Google.(Конечно, это поведение может измениться в результате обсуждения политики, поэтому мы не особо об этом говорили.)

веб-мастера иногда стреляют себе в ногу, используя NOINDEX, но если посещаемость сайта из Google очень низкая, веб-мастер будет заинтересован в диагностике проблемы самостоятельно. Кроме того, мы могли бы добавить проверку NOINDEX в консоль для веб-мастеров, чтобы помочь веб-мастерам самостоятельно диагностировать, удалили ли они свой собственный сайт с помощью NOINDEX. Мета-тег NOINDEX выполняет полезную роль, отличную от robots.txt, а тег находится достаточно далеко от проторенного пути, поэтому мало кто использует тег NOINDEX по ошибке.

Показать ссылку / отсылку на страницы NOINDEX

Наш высший долг — перед нашими пользователями, а не перед отдельным веб-мастером. Когда пользователь выполняет навигационный запрос, а мы не возвращаем нужную ссылку из-за тега NOINDEX, это ухудшает взаимодействие с пользователем (плюс это похоже на проблему Google). Если веб-мастер действительно хочет, чтобы его не было в Google, он может использовать инструмент удаления URL-адресов Google.Цифры небольшие, но мы определенно видим, что некоторые сайты случайно удаляются из Google. Например, если веб-мастер добавляет метатег NOINDEX для завершения сайта, а затем забывает удалить этот тег, сайт не будет отображаться в Google, пока веб-мастер не поймет, в чем проблема. Кроме того, недавно мы увидели, как несколько популярных корейских сайтов не возвращаются в Google, потому что все они имеют метатег NOINDEX. Если громкие сайты вроде

— http://www.police.go.kr/main/index.do (Национальное полицейское агентство Кореи)
— http: // www.nmc.go.kr/ (Национальный медицинский центр Кореи)
— http://www.yonsei.ac.kr/ (Университет Йонсей)

не отображаются в Google из-за метатега NOINDEX, что плохо для пользователей (и, следовательно, для Google).

Некоторая золотая середина между

Подавляющее большинство веб-мастеров, использующих NOINDEX, делают это намеренно и правильно используют метатег (например, для припаркованных доменов, которые они не хотят отображать в Google). Больше всего пользователей обескураживает, когда они ищут известный сайт и не могут его найти.Что, если бы Google по-другому относился к NOINDEX, если бы сайт был хорошо известен? Например, если сайт находился в открытом каталоге, то показывать ссылку на страницу, даже если сайт использовал метатег NOINDEX. В противном случае вообще не показывать сайт. Большинство веб-мастеров могут удалить свой сайт из Google, но Google по-прежнему будет возвращать сайты с более высоким профилем, когда пользователи будут искать их.

Как вы думаете?

Это внутреннее обсуждение, которое мы вели по поводу метатегов NOINDEX.Теперь мне любопытно, что вы думаете. Вот опрос:

{демократия: 6}

Мне также были бы интересны (конструктивные) предложения в комментариях о том, как Google должен обрабатывать метатег NOINDEX. Прежде чем оставлять комментарий, постарайтесь занять место как обычного пользователя, так и владельца сайта.

Как удалить URL из результатов поиска Google?

Есть ряд случаев, когда вы можете не захотеть, чтобы страницы отображались в поисковой выдаче, и в этом сообщении блога обсуждаются различные способы, которыми мы можем это сделать.

Основные способы убрать страницу из результатов поиска:

Какой контент мы не хотели бы отображать в поисковой выдаче?

Существует ряд различных типов страниц, которые мы не хотели бы использовать для поиска в Google или других поисковых системах.

Примеры включают:

  • Целевые страницы PPC
  • Страницы с благодарностями
  • Страницы администратора
  • Результаты внутреннего поиска

Мы также можем захотеть скрыть страницы от Google по ряду причин, в том числе:

  • Дублирование страницы — Для предотвращения появления нескольких версий одной и той же страницы в результатах поиска.
  • Каннибализация ключевого слова — Чтобы две или более похожих страниц не конкурировали друг с другом за определенное ключевое слово
  • Расточительство бюджета сканирования — В этом разделе я буду обсуждать сканирование, но это относится к тому, что Google тратит слишком много времени на поиск более низких ценить страницы на вашем сайте, а не отдавать приоритет важному.

Как Google находит контент для отображения в результатах поиска?

Прежде чем мы углубимся в различные способы предотвращения появления страниц в результатах поиска, стоит понять процесс, который Google использует для поиска и, в конечном итоге, ранжирования страниц.

1) Сканирование — это способ Google обнаруживать новый контент. Используя программы, часто называемые пауками или сканерами, Google посещает различные веб-страницы и переходит по ссылкам на них, чтобы найти новые страницы. У каждого сайта есть определенный «краулинговый бюджет» или количество ресурсов, которые он выделяет каждому сайту.

2) Индексирование — Как только Google находит контент, он поддерживает копию этого контента и сохраняет ее в так называемом индексе.

3) Рейтинги — Порядок этих разных страниц в результатах поиска известен как рейтинг . Google получает запрос, определяет цель поиска, лежащую в основе этого запроса, а затем обращается к индексу, чтобы получить наилучшие возможные результаты.

Google использует ряд различных вычислений, известных как алгоритмы, чтобы определить, какие результаты лучше всего использовать, и упорядочивает их от наиболее релевантных к наименее релевантным.

Как мы можем контролировать, какие страницы ранжируются в результатах поиска?

Теги Noindex

Теги Noindex — это директива, которая сообщает Google: «Я не хочу, чтобы эта страница индексировалась и, следовательно, не хочу, чтобы она отображалась в результатах поиска.”

Когда Google в следующий раз просканирует эту страницу и увидит директивы noindex, он удалит эту страницу из индекса и, следовательно, из результатов поиска.

Эти теги noindex можно реализовать двумя способами:

  • Путем включения их в HTML-код страницы
  • Путем возврата заголовка noindex в HTTP-запросе.

Теги Noindex, реализованные в HTML, будут выглядеть примерно так:


Теги

Noindex, реализованные через HTTP-заголовок, будут выглядеть так:

HTTP /... 200 OK

X-Robots-Tag: noindex

Платформы

CMS, такие как WordPress, позволяют добавлять на страницы теги noindex, а это значит, что для реализации этого не потребуется разработчик.

Важно отметить, что Google необходимо будет сканировать эти страницы, чтобы увидеть тег noindex, а затем удалить страницу из индекса.

Когда использовать теги noindex — Если на вашем сайте есть страницы, которые по-прежнему служат определенной цели, но вы не хотите, чтобы они появлялись в результатах поиска, это хороший вариант.

Блокировка в роботах txt

Robots.txt — это текстовый файл, используемый для указания веб-роботам, как вести себя при посещении вашего сайта, и может использоваться для указания сканерам поисковых систем, могут они или не могут сканировать части веб-сайта.

См. Приведенный ниже пример файла robots.txt Nike, который находится по адресу https://www.nike.com/robots.txt

.

Использование robots.txt для блокировки определенных путей к страницам, таких как, например, / admin / , означает, что робот Google или другие поисковые роботы даже не будут посещать эти страницы — следовательно, они не будут отображаться в результатах поиска.Это поможет сэкономить краулинговый бюджет для более важных страниц, а не сосредоточиться на менее важных страницах.

Примечание. Блокировка пути к странице в robots.txt в первую очередь не позволяет Google сохранять страницу, но не удаляет и не изменяет то, что было сохранено. Следовательно, если страница уже отображается в результатах поиска, значит, Google уже просканировал, а затем проиндексировал эту страницу.

Если вам нужно удалить страницу, заблокируйте ее в robots.txt, чтобы этого не произошло.В этом случае лучше всего добавить тег noindex, чтобы удалить эти страницы из индекса Google, и как только они будут удалены, вы сможете заблокировать их в файле robots.txt.

Более подробную информацию можно найти на этой странице центра поиска Google.

Когда блокировать страницы в robots.txt — Если у вас есть определенные пути к страницам или большие разделы вашего сайта, которые вы не хотите, чтобы Google сканировал, это ваш лучший выбор.

Если страница или коллекция страниц уже появляются в результатах поиска, вам не нужно сначала их индексировать и ждать, пока они будут удалены, прежде чем добавлять роботов.txt файл.

Удаление страницы

Вы, возможно, подумали, что наиболее очевидный ответ — просто удалить страницу, присвоив ей статусный код 404 или 410.

Оба кода статуса выполняют одну и ту же функцию: Google удаляет страницу из индекса при следующем сканировании этой страницы, хотя, по словам Джона Мюллера из Google, статус 410 может быть немного быстрее.

С точки зрения SEO, если эти страницы имеют ценность, будь то обратные ссылки или трафик, было бы целесообразно 301 перенаправить на релевантную страницу, чтобы консолидировать этот ссылочный вес на сайте.

В качестве альтернативы, если на странице есть внутренние ссылки и у вас нет соответствующей страницы для перенаправления, эти внутренние ссылки следует удалить или заменить на страницу с кодом состояния 200.

Когда удалять страницу — Если страница бесполезна и имеет небольшую ценность с точки зрения обратных ссылок или трафика, ее, возможно, стоит удалить. Если есть какая-то ценность либо с точки зрения пользователя, либо с точки зрения SEO, подумайте о том, чтобы оставить ее с тегом noindex или 301 перенаправлением на соответствующую страницу.

Инструмент удаления Google Search Console

Инструмент удаления

Google Search Console можно использовать для временной блокировки результатов поиска с вашего сайта для сайтов, принадлежащих вам в Google Search Console. Стоит отметить, что это не постоянное исправление.

Если вы хотите быстро удалить страницу из результатов поиска, это хороший вариант. Если вы хотите удалить страницу без возможности восстановления, Google рекомендует присвоить ей статус 404 или 410, заблокировать доступ к контенту с помощью пароля или присвоить странице тег noindex.

Более подробную информацию можно найти на этой странице веб-мастеров Google.

Когда использовать инструмент удаления Google Search Console — Когда вам нужно быстро удалить страницу. Если вам нужно удалить страницу навсегда, используйте тег noindex или присвойте ей статус 404 или 410.

Канонические теги


Канонический тег — это фрагмент HTML-кода, который находится в страницы и используется для определения основной версии для похожих или повторяющихся страниц.Канонические теги помогают предотвратить проблемы, вызванные дублированием или почти дублированием контента на нескольких URL-адресах.

См. Ниже пример канонического тега на домашней странице Brainlabs:


Если вы канонизируете одну страницу на другую, вы говорите, что не хотите, чтобы эта страница отображалась в результатах поиска, и вы бы предпочли, чтобы вместо нее отображалась другая версия этой страницы.

В отличие от тегов noindex, которые являются заказами, канонические теги могут игнорироваться Google.Google по-прежнему может сканировать эти страницы, видеть канонические теги, а затем решать, должна ли страница отображаться в результатах поиска или нет.

Когда использовать канонические теги — Канонические теги следует использовать при наличии нескольких одинаковых или похожих страниц в рейтинге. Вы захотите канонизировать неосновные версии в одну основную версию страницы, чтобы указать Google, что основная версия — это единственная версия, которую вы хотели бы видеть в результатах поиска. Это также объединит сигналы от каждого из этих URL-адресов на одной главной странице.

Ярким примером использования канонических тегов являются страницы с параметрами. Эти страницы могут иметь точно такое же содержание, но разные URL-адреса из-за этих параметров. Канонические теги могут помочь обеспечить правильный рейтинг страницы, а не другие версии.

Пример

Заключительные мысли…

Есть несколько способов удалить или контролировать, какой контент появляется в результатах поиска. Главное — убедиться, что вы выбираете лучший вариант для вашей конкретной ситуации, а не пытаетесь сделать все сразу!

Что такое метатег Noindex? Когда его использовать

Что такое метатеги «Noindex»?

«Noindex» — это метатег, который можно прикрепить к HTML-коду веб-страницы, который дает указание сканерам Google не индексировать определенную страницу, чтобы гарантировать, что она не будет отображаться в результатах поиска.

Это просто означает, что , когда вы добавляете метатег «noindex» на веб-страницу, вы сообщаете поисковым системам, что «они» не могут добавить страницу в свой поисковый индекс, даже если «они» могут сканировать страницу.

Все страницы с директивой noindex попадут в поисковый индекс поисковой системы и не будут отображаться на страницах результатов поисковой системы.

Важность метатегов «Noindex»

«Noindex» — важный тег, который следует использовать, когда вы не хотите, чтобы определенная страница отображалась в результатах поиска.Если страница не представляет особой ценности для пользователя или, возможно, содержит информацию, которую вы не хотите видеть широкой публикой, тег noindex сделает свою работу.

Во многих случаях это также помогает веб-сайтам избежать наказания за кажущиеся черные методы SEO, такие как дублирование контента. Это означает, что веб-сайты превентивно избегают падения рейтинга и посещаемости.

Когда следует использовать «Ноиндекс»?

Существует довольно много различных сценариев, когда вы должны использовать тег «noindex» .К ним относятся:

1. Страницы администратора

Очевидно, что конечные пользователи веб-сайта не должны видеть страницы входа в систему. Таким образом, noindex решает эту проблему и сохраняет страницы администратора только для вас и ваших коллег.

2. Дублированные страницы

Хотя в первую очередь канонический тег должен использоваться для работы с дублированным контентом, существуют определенные ситуации, когда вам следует использовать noindex.

Если вы являетесь единственным автором содержимого веб-сайта, страница автора не нужна и, вероятно, в значительной степени соответствует содержимому вашей домашней страницы.Noindex this, любви не будет.

3. Сообщения сообщества

Если у вас есть веб-сайт, который позволяет членам сообщества создавать профиль для публикации сообщений или контента в блогах, это то, что вы захотите отрегулировать.

Вам нужны только профили, которые предоставляют лучший контент, чтобы отображаться в поисковой выдаче, потому что это показатель авторитета веб-сайта и хорошего UX (пользовательского опыта).

Профили Noindex, которые вносят тонкий или плохой контент во избежание подрыва целостности вашего веб-сайта.

4. Тонкое содержание

Google заботится о качественном содержании, поэтому существуют алгоритмы Panda и Penguin. Веб-сайты, которые размещают высококачественные веб-страницы, будут вознаграждены, в то время как сайты с тонким и нерелевантным содержанием будут занимать низкие позиции в рейтинге.

Поэтому, если у вас есть контент, который вы не хотите удалять по какой-либо причине, но при этом не хотите, чтобы этот контент выступал в качестве представления вашего веб-сайта, не индексируйте его.

5. Эксклюзивные страницы

Если у вас есть платный контент, доступный только через членство, вы не должны индексировать эти страницы, чтобы не допустить бесплатного просмотра вашего контента пользователями, не совершающими платную подписку.

6. Ненужные страницы, не представляющие ценности

Страницы «Спасибо», хотя и являются приятным дополнением для покупателя после того, как он совершил покупку, не обязательно должны отображаться в поисковой выдаче.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *