Robots meta noindex это: Noindex и Nofollow: как и зачем использовать в SEO оптимизации | Дропшиппинг

Содержание

Руководство по метатегам Robots и X-robots-tag

Перед вами дополненный (конечно же, выполненный с любовью) перевод статьи Robots Meta Tag & X-Robots-Tag: Everything You Need to Know c блога Ahrefs. Дополненный, потому что в оригинальном материале «Яндекс» упоминается лишь вскользь, а в главе про HTTP-заголовки затрагивается только сервер Apache. Мы дополнили текст информацией по метатегам «Яндекса», а в части про X-Robots-Tag привели примеры для сервера Nginx. Так что этот перевод актуален для наиболее популярных для России поисковых систем и веб-серверов. Круто, правда?

Приятного чтения!

Направить поисковые системы таким образом, чтобы они сканировали и индексировали ваш сайт именно так, как вы того хотите, порой может быть непросто. Хоть robots.txt и управляет доступностью вашего контента для ботов поисковых систем, он не указывает краулерам на то, стоит индексировать страницы или нет.

Для этой цели существуют метатеги

robots и HTTP-заголовок X-Robots-Tag.

Давайте проясним одну вещь с самого начала: вы не можете управлять индексацией через robots.txt. Распространенное заблуждение — считать иначе.

Правило noindex в robots.txt официально никогда не поддерживалось Google. 2 июля 2019 года Google опубликовал новость, в которой описал нерелевантные и неподдерживаемые директивы файла robots.txt. С 1 сентября 2019 года такие правила, как noindex в robots.txt, официально не поддерживаются.

Из этого руководства вы узнаете:

что такое метатег robots;
почему robots важен для поисковой оптимизации;
каковы значения и атрибуты метатега robots;
как внедрить robots;
что такое X-Robots-Tag;
как внедрить X-Robots-Tag;
когда нужно использовать метатег robots
, а когда — X-Robots-Tag;
как избежать ошибок индексации и деиндексации.

Что такое метатег robots

Это фрагмент HTML-кода, который указывает поисковым системам, как сканировать и индексировать определенную страницу. Robots помещают в контейнер <head> кода веб-страницы, и выглядит это следующим образом:

<meta name="robots" content="noindex" />

Почему метатег robots важен для SEO

Метатег robots обычно используется для того, чтобы предотвратить появление страниц в выдаче поисковых систем. Хотя у него есть и другие возможности применения, но об этом позже.

Есть несколько типов контента, который вы, вероятно, хотели бы закрыть от индексации поисковыми системами. В первую очередь это:

страницы, ценность которых крайне мала для пользователей или отсутствует вовсе;
страницы на стадии разработки;
страницы администратора или из серии «спасибо за покупку!»;

внутренние поисковые результаты;
лендинги для PPC;
страницы с информацией о грядущих распродажах, конкурсах или запуске нового продукта;
дублированный контент. Не забывайте настраивать тег canonical для того, чтобы предоставить поисковым системам наилучшую версию для индексации.

В общем, чем больше ваш веб-сайт, тем больше вам придется поработать над управлением краулинговой доступностью и индексацией. Еще вы наверняка хотели бы, чтобы Google и другие поисковые системы сканировали и индексировали ваш сайт с максимально возможной эффективностью. Да? Для этого нужно правильно комбинировать директивы со страницы, robots.txt и sitemap.

Какие значения и атрибуты есть у метатега robots

Метатег robots содержит два атрибута: name и content.

Следует указывать значения для каждого из этих атрибутов. Их нельзя оставлять пустыми. Давайте разберемся, что к чему.

Атрибут name и значения user-agent

Атрибут name уточняет, для какого именно бота-краулера предназначены следующие после него инструкции. Это значение также известно как user-agent (UA), или «агент пользователя». Ваш UA отражает то, какой браузер вы используете для просмотра страницы, но вот у Google UA будет, например, Googlebot или Googlebot-image.

Значения user-agent, robots, относится только к ботам поисковых систем. Цитата из официального руководства Google:

Тег <meta name="robots" content="noindex" /> и соответствующая директива применяются только к роботам поисковых систем. Чтобы заблокировать доступ другим поисковым роботам, включая AdsBot-Google, возможно, потребуется добавить отдельные директивы для каждого из них, например <meta name="AdsBot-Google" content="noindex" />.

Вы можете добавить столько метатегов для различных роботов, сколько вам нужно. Например, если вы не хотите, чтобы картинки с вашего сайта появлялись в поисковой выдаче Google и Bing, то добавьте в шапку следующие метатеги:

<meta name="googlebot-image" content="noindex" />
<meta name="MSNBot-Media" content="noindex" />

Примечание: оба атрибута — name и content — нечувствительны к регистру. То есть абсолютно не важно, напишите ли вы их с большой буквы или вообще ЗаБоРчИкОм.

Атрибут content и директивы сканирования и индексирования

Атрибут content содержит инструкции по поводу того, как следует сканировать и индексировать контент вашей страницы. Если никакие метатеги не указаны или указаны с ошибками, и бот их не распознал, то краулеры расценят гнетущую тишину их отсутствия как «да», т. е. index и follow. В таком случае страница будет проиндексирована и попадет в поисковую выдачу, а все исходящие ссылки будут учтены. Если только ссылки непосредственно не завернуты в тег

rel=»nofollow» .

Ниже приведены поддерживаемые значения атрибута content.

all

Значение по умолчанию для index, follow. Вы спросите: зачем оно вообще нужно, если без этой директивы будет равным образом то же самое? И будете чертовски правы. Нет абсолютно никакого смысла ее использовать. Вообще.

<meta name="robots" content="all" />

noindex

Указывает ПС на то, что данную страницу индексировать не нужно. Соответственно, в SERP она не попадет.

<meta name="robots" content="noindex" />

nofollow

Краулеры не будут переходить по ссылкам на странице, но следует заметить, что URL страниц все равно могут быть просканированы и проиндексированы, в особенности если на них ведут внешние ссылки.

<meta name="robots" content="nofollow" />

none

Комбинация noindex и nofollow как кофе «два в одном». Google и Yandex поддерживают данную директиву, а вот, например, Bing — нет.

<meta name="robots" content="none" />

noarchive

Предотвращает показ кешированной версии страницы в поисковой выдаче.

<meta name="robots" content="noarchive" />

notranslate

Говорит Google о том, что ему не следует предлагать перевод страницы в SERP. «Яндексом» не поддерживается.

<meta name="robots" content="notranslate" />

noimageindex

Запрещает Google индексировать картинки на странице. «Яндексом» не поддерживается.

<meta name="robots" content="noimageindex" />

unavailadle_after

Указывает Google на то, что страницу нужно исключить из поисковой выдачи после указанной даты или времени. В целом это отложенная директива noindex с таймером. Бомба деиндексации с часовым механизмом, если изволите. Дата и время должны быть указаны в формате RFC 850. Если время и дата указаны не будут, то директива будет проигнорирована. «Яндекс» ее тоже не знает.

<meta name="robots" content="unavailable_after: Sunday, 01-Sep-19 12:34:56 GMT" />

nosnippet

Отключает все текстовые и видеосниппеты в SERP. Кроме того, работает и как директива noarchive. «Яндексом» не поддерживается.

<meta name="robots" content="nosnippet" />

Важное примечание

С октября 2019 года Google предлагает более гибкие варианты управления отображением сниппетов в поисковой выдаче. Сделано это в рамках модернизации авторского права в Евросоюзе. Франция стала первой страной, которая приняла новые законы вместе со своим обновленным законом об авторском праве.

Новое законодательство хоть и введено только в Евросоюзе, но затрагивает владельцев сайтов повсеместно. Почему? Потому что Google больше не показывает сниппеты вашего сайта во Франции (пока только там), если вы не внедрили на страницы новые robots-метатеги.

Мы описали каждый из нововведенных тегов ниже. Но вкратце: если вы ищете быстрое решение для исправления сложившейся ситуации, то просто добавьте следующий фрагмент HTML-кода на каждую страницу сайта. Код укажет Google на то, что вы не хотите никаких ограничений по отображению сниппетов. Поговорим об этом более подробно далее, а пока вот:

<meta name="robots" content=”max-snippet:-1, max-image-preview:large, max-video-preview:-1" />

Заметьте, что если вы используете Yoast SEO, этот фрагмент кода уже добавлен на все ваши страницы, при условии, что они не отмечены директивами noindex или nosnippet.

Нижеуказанные директивы не поддерживаются ПС «Яндекс».

max-snippet

Уточняет, какое максимальное количество символов Google следует показывать в своих текстовых сниппетах. Значение «0» отключит отображение текстовых сниппетов, а значение «-1» укажет на то, что верхней границы нет.

Вот пример тега, указывающего предел в 160 символов (стандартная длина meta description):

<meta name="robots" content="max-snippet:160" />

max-image-preview

Сообщает Google, какого размера картинку он может использовать при отображении сниппета и может ли вообще. Есть три опции:

none — картинки в сниппете не будет вовсе;
standart — в сниппете появится (если появится) картинка обыкновенного размера;
large — может быть показана картинка максимального разрешения из тех, что могут влезть в сниппет.

<meta name="robots" content="max-image-preview:large" />

max-video-preview

Устанавливает максимальную продолжительность видеосниппета в секундах. Аналогично текстовому сниппету значение «0» выключит опцию показа видео, значение «-1» укажет, что верхней границы по продолжительности видео не существует.

Например, вот этот тег скажет Google, что максимально возможная продолжительность видео в сниппете — 15 секунд:

<meta name="robots" content="max-video-preview:15" />

noyaca

Запрещает «Яндексу» формировать автоматическое описание с использованием данных, взятых из «Яндекс.Каталога». Для Google не поддерживается.

Примечание относительно использования HTML-атрибута data-nosnippet

Вместе с новыми директивами по метатегу robots, представленными в октябре 2019 года, Google также ввел новый HTML-атрибут data-nosnippet. Атрибут можно использовать для того, чтобы «заворачивать» в него фрагменты текста, который вы не хотели бы видеть в качестве сниппета.

Новый атрибут может быть применен для элементов <div>, <span> и <section>. Data-nosnippet — логический атрибут, то есть он корректно функционирует со значениями или без них.

Вот два примера:

<p>Фрагмент этого текста может быть показан в сниппете <span data-nosnippet>за исключением этой части.</span></p>
<div data-nosnippet>Этот текст не появится в сниппете.</div><div data-nosnippet="true">И этот тоже.</div>

Использование вышеуказанных директив

В большинстве случаев при поисковой оптимизации редко возникает необходимость выходить за рамки использования директив noindex и nofollow, но нелишним будет знать, что есть и другие опции.

Вот таблица для сравнения поддержки различными ПС упомянутых ранее директив.

Директива	Google	«Яндекс»	Bing
all	✅	✅	❌
noindex	✅	✅	✅
nofollow	✅	✅	✅
none	✅	✅	❌
noarchive	✅	✅	✅
nosnippet	✅	❌	✅
max-snippet	✅	❌	❌
max-snippet-preview	✅	❌	❌
max-video-preview	✅	❌	❌
notranslate	✅	❌	❌
noimageindex	✅	❌	❌
unavailable_after:	✅	❌	❌
noyaca	❌	✅	❌
index\|follow\|archive	✅	✅	✅

Вы можете сочетать различные директивы.

И вот здесь очень внимательно

Если директивы конфликтуют друг с другом (например, noindex и index), то Google отдаст приоритет запрещающей, а «Яндекс» — разрешающей директиве. То есть боты Google истолкуют такой конфликт директив в пользу noindex, а боты «Яндекса» — в пользу index.

Примечание: директивы, касающиеся сниппетов, могут быть переопределены в пользу структурированных данных, позволяющих Google использовать любую информацию в аннотации микроразметки. Если вы хотите, чтобы Google не показывал сниппеты, то измените аннотацию соответствующим образом и убедитесь, что у вас нет никаких лицензионных соглашений с ПС, таких как Google News Publisher Agreement, по которому поисковая система может вытягивать контент с ваших страниц.

Как настроить метатеги robots

Теперь, когда мы разобрались, как выглядят и что делают все директивы этого метатега, настало время приступить к их внедрению на ваш сайт.

Как уже упоминалось выше, метатегам robots самое место в head-секции кода страницы. Все, в принципе, понятно, если вы редактируете код вашего сайта через разные HTML-редакторы или даже блокнот. Но что делать, если вы используете CMS (Content Management System, в пер. — «система управления контентом») со всякими SEO-плагинами? Давайте остановимся на самом популярном из них.

Внедрение метатегов в WordPress с использованием плагина Yoast SEO

Тут все просто: переходите в раздел Advanced и настраивайте метатеги robots в соответствии с вашими потребностями. Вот такие настройки, к примеру, внедрят на вашу страницу директивы noindex, nofollow:

Строка meta robots advanced дает вам возможность внедрять отличные от noindex и nofollow директивы, такие как max-snippet, noimageindex и так далее.

Еще один вариант — применить нужные директивы сразу по всему сайту: открывайте Yoast, переходите в раздел Search Appearance. Там вы можете указать нужные вам метатеги robots на все страницы или на выборочные, на архивы и структуры сайта.

Примечание: Yoast — вовсе не единственный способ управления вашим метатегами в CMS WordPress. Есть альтернативные SEO-плагины со сходным функционалом.

Что такое X-Robots-Tag

Метатеги robots замечательно подходят для того, чтобы закрывать ваши HTML-страницы от индексирования, но что делать, если, например, вы хотите закрыть от индексирования файлы типа изображений или PDF-документов? Здесь в игру вступает X-Robots-Tag.

X-Robots-Tag — HTTP-заголовок, но, в отличие от метатега robots, он находится не на странице, а непосредственно в файле конфигурации сервера. Это позволяет ему сообщать ботам поисковых систем инструкции по индексации страницы даже без загрузки содержимого самой страницы. Потенциальная польза состоит в экономии краулингового бюджета, так как боты ПС будут тратить меньше времени на интерпретацию ответа страницы, если она, например, будет закрыта от индексации на уровне ответа веб-сервера.

Вот как выглядит X-Robots-Tag:

Чтобы проверить HTTP-заголовок страницы, нужно приложить чуть больше усилий, чем требуется на проверку метатега robots. Например, можно воспользоваться «дедовским» методом и проверить через Developer Tools или же установить расширение на браузер по типу Live HTTP Headers.

Последнее расширение мониторит весь HTTP-трафик, который ваш браузер отправляет (запрашивает) и получает (принимает ответы веб-серверов). Live HTTP Headers работает, так сказать, в прямом эфире, так что его нужно включать до захода на интересующий сайт, а уже потом смотреть составленные логи. Выглядит все это следующим образом:

Как правильно внедрить X-Robots-Tag

Конфигурация установки в целом зависит от типа используемого вами сервера и того, какие страницы вы хотите закрыть от индексирования.

Строчка искомого кода для веб-сервера Apache будет выглядеть так:

Header set X-Robots-Tag «noindex»

Для nginx — так:

add_header X-Robots-Tag «noindex, noarchive, nosnippet»;

Наиболее практичным способом управления HTTP-заголовками будет их добавление в главный конфигурационный файл сервера. Для Apache обычно это httpd.conf или файлы .htaccess (именно там, кстати, лежат все ваши редиректы). Для nginx это будет или nginx.conf, где лежат общие конфигурации всего сервера, или файлы конфигурации отдельных сайтов, которые, как правило, находятся по адресу etc/nginx/sites-available.

X-Robots-Tag оперирует теми же директивами и значениями атрибутов, что и метатег robots. Это из хороших новостей. Из тех, что не очень: даже малюсенькая ошибочка в синтаксисе может положить ваш сайт, причем целиком. Так что два совета:

при каких-либо сомнениях в собственных силах, лучше доверьте внедрение X-Robots-Tag тем, кто уже имеет подобный опыт;
не забывайте про бекапы — они ваши лучшие друзья.

Подсказка: если вы используете CDN (Content Delivery Network), поддерживающий бессерверную архитектуру приложений для Edge SEO, вы можете изменить как метатеги роботов, так и X-Robots-теги на пограничном сервере, не внося изменений в кодовую базу.

Когда использовать метатеги robots, а когда — X-Robots-tag

Да, внедрение метатегов robots хоть и выглядит более простым и понятным, но зачастую их применение ограничено. Рассмотрим три примера.

Файлы, отличные от HTML

Ситуация: нужно впихнуть невпихуемое.

Фишка в том, что у вас не получится внедрить фрагмент HTML-кода в изображения или, например, в PDF-документы. В таком случае X-Robots-Tag — безальтернативное решение.

Вот такой фрагмент кода задаст HTTP-заголовок со значением noindex для всех PDF-документов на сайте для сервера Apache:

Header set X-Robots-Tag «noindex»

А такой — для nginx:

location ~* \.pdf$ { add_header X-Robots-Tag «noindex»; }

Масштабирование директив

Если есть необходимость закрыть от индексации целый домен (поддомен), директорию (поддиректорию), страницы с определенными параметрами или что-то другое, что требует массового редактирования, ответ будет один: используйте X-Robots-Tag. Можно, конечно, и через метатеги, но так будет проще. Правда.

Изменения заголовка HTTP можно сопоставить с URL-адресами и именами файлов с помощью различных регулярных выражений. Массовое редактирование в HTML с использованием функции поиска и замены, как правило, требует больше времени и вычислительных мощностей.

Трафик с поисковых систем, отличных от Google

Google поддерживает оба способа — и robots, и X-Robots-Tag. «Яндекс» хоть и с отставанием, но в конце концов научился понимать X-Robots-Tag и успешно его поддерживает. Но, например, чешский поисковик Seznam поддерживает только метатеги robots, так что пытаться закрыть сканирование и индексирование через HTTP-заголовок не стоит. Поисковик просто не поймет вас. Придется работать с HTML-версткой.

Как избежать ошибок доступности краулинга и деиндексирования страниц

Вам, естественно, нужно показать пользователям все ваши страницы с полезным контентом, избежать дублированного контента, всевозможных проблем и не допустить попадания определенных страниц в индекс. А если у вас немаленький сайт с тысячами страниц, то приходится переживать еще и за краулинговый бюджет. Это вообще отдельный разговор.

Давайте пробежимся по распространенным ошибкам, которые допускают люди в отношении директив для роботов.

Ошибка 1. Внедрение noindex-директив для страниц, закрытых через robots.txt

Официальные инструкции основных поисковых систем гласят:

«Яндекс»Google

Никогда не закрывайте через disallow в robots.txt те страницы, которые вы пытаетесь удалить из индекса. Краулеры поисковых систем просто не будут переобходить такие страницы и, следовательно, не увидят изменения в noindex-директивах.

Если вас не покидает чувство, что вы уже совершили подобную ошибку в прошлом, то не помешает выяснить истину через Ahrefs Site Audit. Смотрите на страницы, отмеченные ошибкой noindex page receives organic traffic («закрытые от индексации страницы, на которые идет органический трафик»).

Если на ваши страницы с директивой noindex идет органический трафик, то очевидно, что они все еще в индексе, и вполне вероятно, что робот их не просканировал из-за запрета в robots.txt. Проверьте и исправьте, если это так.

Ошибка 2. Плохие навыки работы с sitemap.xml

Если вы пытаетесь удалить контент из индекса, используя метатеги robots или X-Robots-Tag, то не стоит удалять их из вашей карты сайта до момента их деиндексации. В противном случае переобход этих страниц может занять у Google больше времени.

— …ускоряет ли процесс деиндексации отправка Sitemap.xml с URL, отмеченным как noindex?

— В принципе все, что вы внесете в sitemap.xml, будет рассмотрено быстрее.

Для того чтобы потенциально ускорить деиндексацию ваших страниц, установите дату последнего изменения вашей карты сайта на дату добавления тега noindex. Это спровоцирует переобход и переиндексацию.

Еще один трюк, который вы можете проделать, — загрузить sitemap.xml с датой последней модификации, совпадающей с датой, когда вы отметили страницу 404, чтобы вызвать переобход.

Джон Мюллер говорит здесь про страницы с ошибкой 404, но можно полагать, что это высказывание справедливо и для директив noindex.

Важное замечание

Не оставляйте страницы, отмеченные директивой noindex, в карте сайта на долгое время. Как только они выпадут из индекса, удаляйте их.

Если вы переживаете, что старый, успешно деиндексированный контент по каким-то причинам все еще может быть в индексе, проверьте наличие ошибок noindex page sitemap в Ahrefs Site Audit.

Ошибка 3. Оставлять директивы noindex на страницах, которые уже не находятся на стадии разработки

Закрывать от сканирования и индексации все, что находится на стадии разработки, — это нормальная, хорошая практика. Тем не менее, иногда продукт выходит на следующую стадию с директивами noindex или закрытым через robots.txt доступом к нему. Органического трафика в таком случае вы не дождетесь.

Более того, иногда падение органического трафика может протекать незамеченным на фоне миграции сайта через 301-редиректы. Если новые адреса страниц содержат директивы noindex, или в robots.txt прописано правило disallow, то вы будете получать органический трафик через старые URL, пока они будут в индексе. Их деиндексация поисковой системой может затянуться на несколько недель.

Чтобы предотвратить подобные ошибки в будущем, стоит добавить в чек-лист разработчиков пункт о необходимости удалять правила disallow в robots.txt и директивы noindex перед отправкой в продакшен.

Ошибка 4. Добавление «секретных» URL в robots.txt вместо запрета их индексации

Разработчики часто стараются спрятать страницы о грядущих промоакциях, скидках или запуске нового продукта через правило disallow в файле robots.txt. Работает это так себе, потому что кто угодно может открыть такой файл, и, как следствие, информация зачастую сливается в интернет.

Не запрещайте их в robots.txt, а закрывайте индексацию через метатеги или HTTP-заголовки.

Заключение

Правильное понимание и правильное управление сканированием и индексацией вашего сайта крайне важны для поисковой оптимизации. Техническое SEO может быть довольно запутанным и на первый взгляд сложным, но метатегов robots уж точно бояться не стоит. Надеемся, что теперь вы готовы применять их на практике!

Мета-тег vs robots.txt — CodeRoad

Лучше ли использовать meta tags* или файл robots.txt для информирования пауков/искателей о включении или исключении страницы?
Есть ли какие-либо проблемы с использованием как мета-тегов, так и robots.txt?

*Eg: <#META name="robots" content="index, follow">

seo robots.txt meta-tags
Поделиться Источник keruilin 27 июля 2010 в 21:39
11 ответов
Wordpress удалить роботы мета-тег noindex
наблюдается странная проблема с wordpress сайтов мета-тег Robots. Все страницы имеют следующий мета тег и мы не можем его удалить <meta name=robots content=noindex,follow/> Мы сняли флажок Discourage search engines from indexing this site в настройках > чтение > видимость поисковой системы,…
Какие правила действуют в отсутствие robots.txt?
Должна ли поисковая система не сканировать веб-сайт, на котором нет robots.txt? Редактирование 1: Что делать, если даже мета-тег роботов отсутствует? Я пытаюсь определить законность, связанную с этим. Вот и все.

48

Есть одно существенное различие. Согласно Google , они все равно будут индексировать страницу за robots.txt DENY, если страница связана с другим сайтом.
Однако они этого не сделают, если увидят метатег:
Хотя Google не будет сканировать или индексировать контент, заблокированный robots.txt, мы все равно можем найти и индексировать запрещенный URL из других мест в Интернете. В результате адрес URL и, возможно, другая общедоступная информация, такая как якорный текст в ссылках на сайт, все еще могут отображаться в результатах поиска Google. Вы можете полностью запретить URL появляться в результатах поиска Google, используя другие методы блокировки URL, такие как защита паролем файлов на вашем сервере или использование мета-тега noindex или заголовка ответа .
Поделиться user2696762 19 августа 2013 в 14:27

4

Оба они поддерживаются всеми искателями, которые уважают пожелания веб-мастеров. Не все это делают, но против них ни одна техника не является достаточной.
Вы можете использовать правила robots.txt для общих вещей, например, запретить целые разделы вашего сайта. Если вы говорите Disallow: /family , то все ссылки, начинающиеся с /family , не индексируются искателем.
Мета-тег можно использовать для запрета одной страницы. Страницы, запрещенные метатегами, не влияют на подстраницы в иерархии страниц. Если у вас есть мета-тег disallow на /work , он не мешает обходчику получить доступ к /work/my-publications , если на разрешенной странице есть ссылка на него.
Поделиться jmz 27 июля 2010 в 21:50

3

Robots.txt IMHO.
Опция Мета-тега говорит ботам не индексировать отдельные файлы, в то время как Robots.txt можно использовать для ограничения доступа ко всем каталогам.
Конечно, используйте мета-тег, если у вас есть нечетная страница в индексированных папках, которую вы хотите пропустить, но в целом я бы рекомендовал вам большую часть вашего неиндексированного контента в одной или нескольких папках и использовать robots.txt, чтобы пропустить много.
Нет, нет проблем в использовании обоих — если есть столкновение, в общих чертах, запрет отменит разрешение .
Поделиться CJM 27 июля 2010 в 21:49

1

Существует очень огромная разница между meta robot и robots.txt.
В robots.txt мы спрашиваем искателей, какую страницу вы должны сканировать и какую вы должны исключить, но мы не просим искателя не индексировать эти исключенные страницы из обхода.
Но если мы используем тег meta robots, мы можем попросить поисковые роботы не индексировать эту страницу. Тег, который будет использоваться для этого, является:
<#meta name = «имя робота», content = «noindex»> (удалить #)
OR
<#meta name = «имя робота», content = «follow, noindex»> (удалить #)
Во втором метатеге я попросил робота следовать этому URL, но не индексировать в поисковой системе.
Поделиться Abhishek Kaushik 18 июля 2014 в 12:23

1

Вот мои знания о них. Я говорю об их рабочей зоне. И то, и другое мы можем использовать для блокировки контента.
Разница между тем и другим заключается в:
Мета-робот может заблокировать одну страницу с помощью некоторого фрагмента кода, вставленного в заголовок сайта. Используя метатег робота, мы сообщаем поисковой системе, для какой функции мы используем метатег.
В файле Robots.txt вы можете заблокировать весь веб-сайт.
Вот пример мета-робота:
<meta name="robots" content="index, follow"> <meta name="robots" CONTENT="all"> <meta name="robots" content="noindex, follow"> <meta name="robots" content="noindex, nofollow"> <meta name="robots" content="index, nofollow" /> <meta name="robots" content="noindex, nofollow" />
Вот пример файла Robots.txt:
Разрешение сканерам сканировать все веб-сайты
user-agent: * Allow: Disallow:
Запрещение обходчикам сканировать все веб-сайты
user-agent: * Allow: Disallow:/
Поделиться Tripti Rajput 04 марта 2019 в 13:47

0

Я бы, вероятно, использовал robots.txt поверх тега meta . Robots.txt существует дольше и может быть более широко поддержан (но я не уверен в этом).
Что касается второй части, я думаю, что большинство пауков будут использовать любые наиболее ограничительные настройки для страницы — если есть несоответствие между тегом robots.txt и метатегом.
Поделиться Mitch Dempsey 27 июля 2010 в 21:42

0

Robots.txt хорош для страниц, которые потребляют много вашего бюджета на обход, таких как внутренний поиск или фильтры с бесконечной комбинацией. Если вы позволите Google индексировать yoursite.com/search=lalalala , это потратит ваш бюджет на обход.
Поделиться Mathilde Joly 23 января 2014 в 17:03

0

мета превосходна.
Чтобы исключить отдельные страницы из индексов поисковых систем, метатег noindex на самом деле превосходит robots.txt.
Поделиться user2513846 15 февраля 2014 в 16:57

0

Вы хотите использовать ‘noindex,follow’ в метатеге роботов , а не robots.txt , потому что это позволит соку ссылки проходить через него. Это лучше с точки зрения SEO.
Поделиться Jérôme Verstrynge 12 августа 2014 в 18:31

0

Лучше ли использовать meta tags* или файл robots.txt для информирования пауков/искателей о включении или исключении страницы?
Ответ: и то, и другое важно использовать, они используются для разных целей. Файл Robots используется для включения или исключения страниц или корневых файлов из индекса spider. В то время как мета-теги используются для анализа страницы веб-сайта, которая определяет его нишу & контента внутри страницы.
Есть ли какие-либо проблемы с использованием как мета-тегов, так и robots.txt?
Ответ: оба должны быть реализованы на сайтах так, чтобы пауков поисковых систем/роботов может индексировать или индексировать URL-адреса.
Подробнее о работе пауков поисковой системы читайте здесь >> https:/ / www.playbuzz.com/alexhuber10 / how-search-and-spider-engines-work
Поделиться Alex Huber 23 июля 2019 в 11:07

-1

У вас может быть любой, но если на вашем сайте много веб-страниц, то robots.txt легко и сокращает время.
Поделиться James Andreson 20 августа 2013 в 07:20
Похожие вопросы:

Роботы Мета и robots.txt
Я использую условный оператор в моем заголовке php, чтобы исключить некоторые файлы из того, чтобы за ними следовали роботы. Однако временно я должен заблокировать некоторые из этих страниц, потому…

Должен ли я удалить мета-роботов (index, follow), когда у меня есть robots.txt?
Я немного запутался, должен ли я удалить мета-тег роботов, если хочу, чтобы поисковые системы следовали моим правилам robots.txt. Если мета-тег роботов (index, follow) существует на странице, будут…

Как вы динамически редактируете robots.txt в среде с балансировкой нагрузки?
Похоже, нам скоро придется начать балансировку нагрузки на наши веб-серверы. У нас есть запрос функции для динамического редактирования robots.txt, что не является проблемой для одного хоста-однако…

WordPress удалить роботы мета-тег noindex
наблюдается странная проблема с wordpress сайтов мета-тег Robots. Все страницы имеют следующий мета тег и мы не можем его удалить <meta name=robots content=noindex,follow/> Мы сняли флажок…

Какие правила действуют в отсутствие robots.txt?
Должна ли поисковая система не сканировать веб-сайт, на котором нет robots.txt? Редактирование 1: Что делать, если даже мета-тег роботов отсутствует? Я пытаюсь определить законность, связанную с…

Какие мета-теги я могу использовать на своей странице, чтобы остановить ее индексацию?
Есть ли для этого какие-то мета-теги? Я продолжаю получать Google индексировать свои страницы входа в систему и регистрации. Я попытался вставить что-то в robots.txt, но, похоже, он уже давно не…

Мета-тег Viewport для настольных браузеров?
Мой клиент просит меня уменьшить размер текущего веб-сайта для настольных браузеров на 30%. есть ли css или мета-тег, чтобы сделать это, как мета-тег viewport в мобильном браузере?

Мета-тег в html
Может ли кто-нибудь сказать мне, почему мы используем мета-тег в html

Как захватить мета-тег
Я пытаюсь написать функцию для заполнения значения мета-тега с помощью JavaScript. это мой мета тег; <meta my-data-id=home> и сценарий я попробовал….

Аргумент noindex в robots.txt
Я всегда запрещал google индексировать мой сайт с помощью файла robots.txt. Недавно я прочитал статью от сотрудника google, где он заявил, что вы должны сделать это с помощью мета-тегов. Значит ли…
HTML МЕТА-тег ROBOTS
МЕТА тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Кроме того, этим тегом могут воспользоваться те, кто не имеет доступа к корневому каталогу сервера и изменить файл robots.txt, но хочет запретить к индексированию свои файлы и директории.
Формат мета-тега Robots
МЕТА тег robots помещается в тег html-документа (внутри тега <HEAD>). Формат достаточно прост (регистр букв значения не играет)
<META NAME=»ROBOTS» CONTENT=»value»>
Данному мета-тегу можно присвоить варианта четыре значений. Атрибут CONTENT может содержать следующие значения:
Index (индексировать), noindex (не индексировать), follow (следовать по ссылкам), nofollow (не следовать по ссылкам)
Например, не индексировать данный документ:
<META NAME="ROBOTS" CONTENT="NOINDEX>
Робот поисковой машины не должен идти по ссылкам с данной страницы.
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Для одновременного запрета индексирования страницы и обхода ссылок с нее используйте
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
Если значений несколько, то они разделяются запятыми.
Чтобы запретить индексирование страницы на вашем сайте только роботам Google и разрешить ее индексирование другим роботам, используйте следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">
Чтобы разрешить роботам индексировать страницу, но запретить индексирование картинок на странице, используйте следующий тег:
<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX">
Google автоматически создает и архивирует «снимок» каждой сканируемой страницы. Версия, сохраненная в кэше, позволяет показывать вашу страницу конечным пользователям, даже если исходная страница недоступна (из-за временной технической проблемы на веб-сервере). Сохраненная в кэше страница представляется пользователям в том виде, в котором ее в последний раз просканировал робот Google, при этом вверху страницы мы показываем сообщение о том, что это версия из кэша. Пользователи могут получить доступ к кэшированной версии, нажав на ссылку «Сохранено в кэше», расположенную на странице результатов поиска.
Чтобы запретить всем поисковым системам выводить эту ссылку на ваш сайт, добавьте в раздел <HEAD> следующий тег:
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
Чтобы запретить выводить ссылку «Сохранено в кэше» только системе Google, а остальным разрешить, используйте следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">
Примечание. Этот тег удаляет только ссылку «Сохранено в кэше» на соответствующую страницу. Google продолжит индексировать страницу и выводить ее фрагмент.
Предотвращение сканирования или удаление фрагментов
Фрагмент — это текст, который показывается под названием страницы в списке результатов поиска и описывает содержание страницы.
Чтобы запретить Google выводить фрагменты с вашей страницы, добавьте в раздел <HEAD> следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">
Примечание. При удалении фрагментов удаляются также и сохраненные в кэше страницы.
Как сделать так, чтобы поисковые системы не использовали данные DMOZ в результатах поиска для вашего сайта
Одним из источников, которые используются при создании фрагментов описаний, является Open Directory Project. Чтобы никакие поисковые системы (поддерживающие метатеги) не использовали эту информацию для описания страницы, добавьте следующий тег:
<META NAME="ROBOTS" CONTENT="NOODP">
Чтобы только для Google запретить использовать эту информацию в описании страницы, добавьте тег:
<META NAME="GOOGLEBOT" CONTENT="NOODP">
Если метатег «robots» используется для других команд, их можно объединить. Пример:
<META NAME="GOOGLEBOT" CONTENT="NOODP, NOFOLLOW">
Пример использования описания:
<META NAME="Description" CONTENT="Информация для WEB-разработчиков, программистов и студентов ВУЗ-ов, изучающх WEB-технологии.">
Поисковые запреты
Как сказать поисковой машине, что определенный участок кода не нужно индесировать или что по определенной ссылке не нужно следовать?
Каждый поисковик тут изобретает свой велосипед: Yandex рекомендует заключать подобный текст в теги <noindex>, Google дописывать у ссылок атрибут rel=»nofollow», Yahoo добавлять класс.
Тег NOINDEX
Запретить индексирование можно не только для файлов, но также и для их частей. Для того, чтобы запретить индексирование определенных частей файлов (текстовых), необходимо пометить их специальными тегами .
При этом, тег NOINDEX не должен нарушать вложенность других тегов. Понимает только ПС Яндекс.
rel=»nofollow»
Чтобы указать поисковой системе не идти по ссылке, в теге A можно задать атрибут rel=»nofollow»:
<a rel="nofollow" href="htmlweb.ru>WEB-технологии</a>
Данный атрибут не влияет на индексацию ссылки. В большинстве поисковиков (кроме Google) переход по ней все-таки осуществляется. Единственная задача данного атрибута — сообщить поисковой системе, что рейтинг со страницы, на которой ссылка размещена, не должен передаваться странице, на которую данная ссылка ведет.
Если вам необходимо уменьшить количество внешних ссылок на странице, заключите их в теги <NOINDEX>здесь ссылки</NOINDEX> или <!—NOINDEX—>здесь ссылки<!—/NOINDEX—>
Использованны материалы с сайтов поисковых систем: Google
class=»robots-nocontent»
Применение «class=robots-nocontent» атрибут:
Ниже приводятся несколько примеров того, как применять этот атрибут для различных целей и различных вариантов синтаксиса:
<div>     Это навигационного меню сайта и является общим на всех страницах.     Она содержит много терминов и слов, не связанных с сайтом </div>
<span> Это сайт заголовок, который присутствует на всех страницах сайта     и не связан с какой-либо конкретной страницей </span>
<p>     Это Юридическая информация требуется на каждую страницу сайта </p>
Как часто индексировать документ поисковому роботу?
Вебмастер может «сказать» поисковому роботу или файлу bookmark пользователя, что содержимое того или иного файла будет изменяться. В этом случае робот не будет сохранять URL, а браузер пользователя внесет или не внесет это файл в bookmark. Пока эта информация описывается только в файле /robots.txt, Пользователь не будет знать о том, что эта страница будет изменяться.
Мета-таг DOCUMENT-STATE может быть полезен для этого. По умолчанию, этот мета-таг принимается с CONTENT=STATIC.
<META NAME="DOCUMENT-STATE" CONTENT="STATIC"> <META NAME="DOCUMENT-STATE" CONTENT="DYNAMIC">
Зеркала
Как исключить индексирование поисковой системой генерируемых страниц или дублирование документов, если есть зеркала сервера?
Генерируемые страницы — страницы, порождаемые действием CGI-скриптов. Их наверняка не следует индексировать, поскольку если попробовать провалиться в них из поисковой системы, будет выдана ошибка. Что касается зеркал, то негоже, когда выдаются две разные ссылки на разные сервера, но с одним и тем же содержимым. Чтобы этого избежать, следует использовать мета-таг URL с указанием абсолютного URL этого документа (в случае зеркал — на соответствующую страницу главного сервера).
<META NAME="URL" CONTENT="absolute_url">
Ещё почитать по теме:
Как скрыть ссылки и текст от индексации на странице сайта?
Встречаются такие ситуации, когда требуется закрыть контент от индексации. Это может быть:
неуникальный контент;

шаблонный текст, встречающийся на всех страницах сайта;

ссылки на сторонние ресурсы.

Ссылки

(внешние и внутренние)
Закрывать от поисковых систем внешние ссылки необходимо, если вы не хотите, чтобы страница, имеющая ссылку, теряла свой вес.
Это может происходить следующим образом:
Удалением внешних ссылок. Рекомендуется убирать внешние ссылки на сторонние ресурсы.

Если удалить ссылку нет возможности, то необходимо скрыть ссылку от индексации посредством скрипта так, чтобы в исходном коде страницы не было <a href=»» …></a>, а блок выводился в виде: <div></div>. Далее при формировании страницы скриптом выводилось содержимое данного блока в виде ссылок и прочего.
Сам скрипт требуется закрыть от индексации в файле robots.txt.

Добавлением атрибута rel=»nofollow». Необходимо прописать атрибут rel=»nofollow» для внешней ссылки (<a href=»» rel=»nofollow» target=»_blank»>текст ссылки</a>).

Помимо внешних ссылок, аналогичное рекомендуют проводить с внутренними ссылками вида добавить в корзину, вход, авторизация, фильтр, сбросить фильтр и т.д. (для всех элементов, которые сверстаны ссылками <a href>, но при этом не ведут на реальные страницы).
Текст
Если у вас на сайте используется большое количество неуникального или дублирующегося контента, то его необходимо скрыть от индексации.
Это можно сделать двумя способами:
выделить кусок необходимого текста с помощью тега <!—noindex—>…<!—/noindex—>

прописать мета-тег <meta name=»robots» content=»noindex»/> странице.

Важно
Если Вы прописали мета-тег <meta name=»robots» content=»noindex»/>, то ссылки на странице все будут доступны для поисковых систем и роботы будут переходить по ним. Поэтому необходимо добавить атрибут, nofollow, если необходимо полностью запретить индексацию страницы. Выглядеть это может следующим образом: <meta name=»robots» content=»noindex, nofollow»/> или <meta name=»robots» content=»none»/>.
#133
Сентябрь’21 3565 19
#104
Февраль’19 1330 21
#94
Декабрь’18 3663 28
#60
Февраль’18 4137 19
Что такое meta name robots?
Всем привет. В предыдущей статье я рассказывал про тег <noindex> и атрибут nofollow тега <a>, но в отдельную тему я решил вынести мета-тег robots с атрибутом content=”noindex,nofollow”.
Индексация страниц с точки зрения SEO имеет огромное значение и необходимо владеть базовыми техническими знаниями в SEO. Поэтому сегодня я расскажу вам про мета-тег robots, про который не знают многие оптимизаторы.
Что такое meta name robots?
Прошу не путать с robots.txt, так как это совершенно разные файлы. Meta robots необходим, а Robots.txt призван для того чтобы создавать правила индексирования страниц для поисковых роботов.
Чтоб было нагляднее давайте разберем на примере:
Это пример файла robots.txt

User-agent: *

Disallow: /admin/

Clean-Param: utm_source&utm_medium&utm_campaign

Crawl-Delay: 0.5

Sitemap: https://website.ru/sitemap.xml

Host: https://website.ru

Читайте в нашем блоге: Поисковые системы — список популярных систем в России
Кстати, совсем недавно написал полноценную статью про правильную настройку robots.txt
Вот это пример мета-тега robots с атрибутами name и content

<meta name=”robots” content=”noindex, follow” />

Как вы видете синтаксис довольно прост + параметры данного тега нечувствительны к регистру. Можно написать и в таком формате

<META NAME=”ROBOTS” CONTENT=”NOINDEX, FOLLOW” />

В принципе синтаксис мы уже увидели. Данный тег должен располагаться в разделе <head> тут</head> и нигде больше! Но использовать данный тег можно несколько раз на странице.
Список параметров мета-тега name robots:
Для всех поисковых систем
index – позволяет индексировать текст страницы
noindex – не индексировать текст страницы
follow – индексировать ссылки на этой странице
nofollow – не индексировать ссылки на этой странице
all – индексировать текст и ссылки на странице
none — не индексировать текст и ссылки на странице
noarchive – не показывает ссылку на сохраненную копию на странице поисковой системы
Только для Яндекса:
noyaca – не использовать описание Яндекс Каталога в результатах выдачи Яндекса
Только для Google:
nosnippet – не использует фрагмент содержания в результах поиска Google
noodp – не использует описание из каталогов ODP/DMOZ в результатах поиска Google
unavailable_after:[date]: — возможность указать точную дату и время, когда необходимо прекратить индексирование страницы
noimageindex – не использует картинки сайта в качестве источника ссылки, которая отображается в поисковой системе Google
Если тег meta name robots отсутствует на страницы, то мы автоматически разрешаем роботу индексировать текст и ссылки на странице.
Читайте в нашем блоге: Разработка сайта под дальнейшее SEO-продвижение
Итак, разберем каждый пример отдельно

<meta name=”robots” content=”noindex” />

Этот пример позволит закрыть от индексации текст страницы, но будет учитывать все ссылки на сайте и соответственно проиндексирует их. Та же ситуация произойдет если, мы добавим follow

<meta name=”robots” content=”noindex, follow” />

Разницы нет, писать можно так и так.
Если мы хотим полностью закрыть страницу от индексации через тег meta name, то есть два способа:

<meta name=”robots” content=”noindex, nofollow” />

И <meta name=”robots” content=”none” />

(Также можно использовать на странице тег noindex и и атрибут nofollow)
Оба варианта позволят роботу не учитывать текст и ссылки на странице.
<meta name=”robots” content=”all” />
Этот тег учитывает все ссылки и текст
Далее я расскажу в каких случаях использовать.
Использование meta name robots
Когда нужен robots.txt, а когда meta name robots?
Плюсы meta name robots.txt
Данный файл мы можем указывать, когда необходимо закрыть целые разделы, несколько страниц от индексации поисковых роботов. Причем, чтобы запретить раздел, мы прописываем это только одной строкой и если мы хотим разрешить индексирование одной страницы, то добавляем дополнительно строку.
В принципе более подробно про robots.txt я рассказал здесь.
Мета-тег name robots в этом случае проигрывает, потому что невозможно указать данный тег на весь раздел (придется выставлять отдельно на каждой странице, что очень неудобно и затратно).
Ну в целом и все. Главное, что мы выигрываем время.
Теперь разберем, когда лучше всего использовать meta name robots.
1. Страница в разработке.
Допустим, вы не до конца доделали страницу и в дальнейшем планируете его закончить, тогда вы можете внести ее на сайт, но попросить поисковую систему не индексировать эту страницу. В дальнейшем, когда страница будет готова, вы удалите этот тег.
Тег будет выглядеть так:

<meta name=”robots” content=”none” />2. Дублированный контент.

Если вы не знаете, то архивы, ярлыки создают дублирование контента. Но закрывать эти страницы от индексации полностью необязательно. Достаточно, тег meta name robots с запретом индексации текста, но индексацию ссылок не трогать.

<meta name=”robots” content=”noindex,follow” />

Ответы на вопросы
Что будет, если использовать одновременно meta name robots и robots.txt ?
Поисковой системе без разницы что вы используете для управления индексацией (файлом robots.txt или мета тегом robots). Важно чтобы эти элементы не противоречили друг другу. Поэтому будьте внимательны.
Читайте в нашем блоге: Как правильно прописать Title страницы
Яндекс про meta robots.txt
Прочитал у Яндекса интересную заметку в справке:
“Если мета-теги не указаны, робот считает, что они имеют положительное значение (index, follow, archive). Если робот обнаруживает конфликт между тегами, выбирается именно положительное значение.
Пример:

<meta name=»robots» content=»all»/>

<meta name=»robots» content=»noindex, follow»/>

<!—Робот выберет значение all, текст и ссылки будут проиндексированы.—>

Исключение — атрибут all не влияет на noarchive:

<meta name=»robots» content=»all»/>

<meta name=»robots» content=»noarchive»/>

<!—Текст и ссылки будут проиндексированы, но в результатах поиска не будет ссылки
на сохраненную копию страницы.—> “
Google про мета-тег robots
Интересную информацию я нашел в справочнике Гугла:
Чтобы заблокировать большую часть поисковых роботов, добавьте следующий метатег в раздел <head> веб-страницы:

<meta name=»robots» content=»noindex»>

Если вы хотите закрыть доступ к странице только роботам Google, используйте такой код:

<meta name=»googlebot» content=»noindex»>

Другие поисковые системы могут иначе интерпретировать атрибут noindex на странице и показывать ее в результатах поиска.
По поводу ноуиндекс ничего нового мы не узнали, но зато я увидел вот что! В атрибуте name указано значение googlebot, а это говорит о том, что можно использовать различных поисковых ботов. Это я увидел в англоязычном справочнике Гугла.

Вот что пишет справочник Google
Странно здесь одно, что в справочнике Яндекса никакой информации про это я не увидел.
Заключение
Конечно, не стоит закрывать все ссылки на сайте, обязательно ссылайтесь на полезные ресурсы для посетителя и никаких nofollow, noindex вам не понадобится. Потому что роль данных тегов важна с точки зрения индексации, но не с точки зрения продвижения вашего сайта. Ну к примеру, я не использовал данный тег и мои сайты ранжировались нормально. Это скорее некая дополнительная фича к robots.txt.
Не злоупотребляйте спамными техниками и прочими черными методами продвижения сайтов и старайтесь не слушать биржи о покупке ссылок и волшебном продвижении в ТОП 10, и ничего за это вам не будет. Поймите – их цель продать вам продукт и они будут вливать вам как можно больше воды. Можно продвигать сайт без них, есть конкретные кейсы и примеры (точнее без покупки ссылок), ну а в сегодняшней статье всё.
Оставляйте вопросы в комментариях, а пока у меня к вам несколько вопросов:
Как вы используете meta-robots name?
Используете ли вы различных ботов (googlebot, googlebotnews) для запрета индексации той или иной страницы?
WordPress Meta Robots — meta robots для страниц и записей.
Flector 5
WordPress Meta Robots это маленький SEO-плагин, дополняющий функционал больших SEO-плагинов. Он позволяет устанавливать тег «meta robots» для любой страницы или записи в блоге. Таким образом, вы всегда можете запретить поисковикам индексировать содержимое какой-либо отдельно взятой записи или страницы. Запретить индексирование любой страницы можно и через файл robots.txt, но это удобно только, если вам не надо время от времени закрывать новые записи или страницы. Да и через robots.txt нельзя указать поисковикам не индексировать страницу, но при этом следовать по ссылкам в ней. Также плагин управляет индексированием рубрик, архивов, тегов и других типов страниц в WordPress.
Скачиваем плагин с его домашней страницы и устанавливаем его:
1. Распаковываем архив.
2. Копируем папку wordpress-meta-robots в /wp-content/plugins/.
3. Заходим в админку блога на вкладку «Плагины» и активируем плагин.
Никаких настроек в плагине нет. Сразу после активации у каждой вашей записи или страницы при редактировании появится административный виджет (как на скриншоте выше). По умолчанию после активации плагина индексация всех записей и страниц в блоге разрешена, плагин сразу ставит для всех страниц значение по умолчанию «index, follow«. Убедитесь, что тег «meta robots» не дублируется в вашем шаблоне. Для этого откройте файл header.php вашего шаблона и поищите там строчку, похожую на:
<meta name="robots" content="follow, all" />
<meta name=»robots» content=»follow, all» />

Если вы нашли такую строчку, то смело ее удаляйте, так как вставкой этого тега теперь будет заниматься сам плагин.

Некоторые пояснения по поводу значений тега «meta robots«:

1. «index» — разрешает индексирование страницы.
2. «noindex» — запрещает индексирование страницы.
3. «follow» — разрешает следовать по ссылкам.
4. «nofollow» — запрещает следовать по ссылкам.

То есть значение «index, follow» будет означать указание для поисковика индексировать страницу и следовать по каждой ссылке на ней. А значение «noindex, nofollow» будет означать, что поисковику не надо индексировать эту страницу и не надо ходить по ссылкам, то есть для поисковика страница с таким значением тега «meta robots» будет своеобразным «тупиком».

К сожалению, автор плагина встроил поддержку этого тега не только для страниц и записей в блоге. Но и для рубрик и других типов страниц. Только вот он не дал возможности указать настройки тега «meta robots» для этих страниц, а решил, что лучше владельца блога знает, что надо индексировать, а что нет.

Плагин устанавливает значение «noindex, follow» для всех рубрик, тегов и архивов. И значение «noindex, nofollow» для всех остальных типов страниц (кроме страниц и записей). С одной стороны, он в чем-то прав – если в блоге существуют и рубрики и архивы и теги, а все записи выводятся полностью (без использования тега more), то получится, что у вас одна и та же запись будет продублирована аж 5 раз на разных типах страниц (главная, страница рубрики, страница архива, страница тега и сама страница с записью). А это не очень хорошо с точки зрения SEO. С другой стороны, если вы используете тег more и не используете архивы и теги, то дублирование у вас будет только на 2-х типах страниц, да и то лишь неполного текста записи.

Исходя из сказанного, я вам предлагаю все-таки разрешить индексирование любого типа страниц в блоге, а необходимые запреты встроить в файл robots.txt. Откройте файл плагина wp-meta-robots.php и найдите там строчки:
56 57 58
echo '<meta name="robots" content="noindex, follow" />'."\n"; } else { echo '<meta name="robots" content="noindex, nofollow" />'."\n";
echo ‘<meta name=»robots» content=»noindex, follow» />’.»\n»; } else { echo ‘<meta name=»robots» content=»noindex, nofollow» />’.»\n»;

Поменяйте их на:
56 57 58
echo '<meta name="robots" content="index, follow" />'."\n"; } else { echo '<meta name="robots" content="index, follow" />'."\n";
echo ‘<meta name=»robots» content=»index, follow» />’.»\n»; } else { echo ‘<meta name=»robots» content=»index, follow» />’.»\n»;

Теперь все типы страниц у вас в блоге станут индексируемыми (кроме тех страниц и записей, для которых вы поставили запрет через виджет плагина при редактировании записи). Но открывать индексирование всего контента в блоге очень плохая идея. Зачастую именно бесконечное дублирование (особенно через страницы тегов) контента записей является причиной для бана в поисковиках. Поэтому вам лучше запретить как минимум индексирование тегов и страниц с результатами поиска. Для этого откройте файл robots.txt и добавьте туда строчки:
56 57 58 59
User-agent: * Disallow: /*?s= Disallow: /*&s= Disallow: /tag/
User-agent: * Disallow: /*?s= Disallow: /*&s= Disallow: /tag/

Если у вас в блоге не установлены ЧПУ, то вам надо будет чуть-чуть отредактировать приведенный пример, чтобы он подходил для вашего вида постоянных ссылок. Например, при структуре постоянных ссылок по умолчанию запрещать индексацию тегов надо не через «Disallow: /tag/«, а через «Disallow: /?tag=«.

Я не пишу про запрет индексирования страниц архивов. Тут я с автором плагина согласен – запретить индексацию архивов надо, а вот отключать хождение по ссылкам на этих страницах нет. Чем больше есть ссылок на страницы записей в вашем блоге, то тем больше вероятность, что поисковики проиндексируют все записи блога полностью. Если вы используете архивы в вашем блоге, то файл плагина надо изменить немного другим образом, найдите в wp-meta-robots.php строчки:
55 56 57 58
} elseif ( is_category() || is_tag() || is_archive() ) { echo '<meta name="robots" content="noindex, follow" />'."\n"; } else { echo '<meta name="robots" content="noindex, nofollow" />'."\n";
} elseif ( is_category() || is_tag() || is_archive() ) { echo ‘<meta name=»robots» content=»noindex, follow» />’.»\n»; } else { echo ‘<meta name=»robots» content=»noindex, nofollow» />’.»\n»;

И замените их на:
55 56 57 58
} elseif ( is_archive() ) { echo '<meta name="robots" content="noindex, follow" />'."\n"; } else { echo '<meta name="robots" content="index, follow" />'."\n";
} elseif ( is_archive() ) { echo ‘<meta name=»robots» content=»noindex, follow» />’.»\n»; } else { echo ‘<meta name=»robots» content=»index, follow» />’.»\n»;

Впрочем, что индексировать в вашем блоге, а что нет решать только вам. Вовсе необязательно следовать моим рекомендациям, думайте сами. В любом случае использование плагина WordPress Meta Robots избавляет вас от необходимости править robots.txt при появлении каждой новой записи, чье индексирование (или чьи ссылки) вы хотите запретить.

Автор плагина: destio
Страница плагина: http://wordpress.org/extend/plugins/wordpress-meta..
Рассматриваемая версия: 1.8 от 22.02.2011
Совместимость с версией WordPress: 3.0 и выше.
Управление мета тегом Robots из панели Joomla

Вступление
Считается, и так на самом деле, не все поисковики «видят», а вернее, «подчиняются» директивам в файле Robots.txt. Обычно это малоизвестные, но очень «вредные» поисковые машины. Многие веб-мастера, а вернее некоторые, закрывают от поисковиков страницы и/или разделы сайта при помощи мета тегов Robots. На CMS Joomla добавление мета тегов Robots в заголовок страниц сайта автоматизировано.
Немного теории
META-теги это атрибуты HTML, в которых можно указать (задать) информацию не для посетителей сайта, так называемую информацию служебного пользования. Обращена такая информация к поисковым роботам и браузерам.
Есть два атрибута, которые могут иметь МЕТА-теги:
В этой статье «HTTP-EQUIV» нас не интересует, а вот «METANAME» это по нашей теме.
Синтаксис атрибута META NAME
Посмотрим на синтаксис атрибута [METANAME]. Синтаксис [METANAME] не сложен:
<META NAME=»значение-атрибута» CONTENT=»содержание»>
Значениями атрибута могут быть:
Robots;

Description;

Keywords;

document-state;

GOOGLEBOT;

Author и др.

Как вы понимаете, нас интересует атрибут Robots, который обращен к поисковым роботам и управляет индексацией страниц сайта.
Синтаксис мета тега с атрибутом Robots таков:
<meta name=»Robots» content=»директива»>, где директива это, команда поисковикам по поведению в индексации страницы.
Примечание: Любой мета-тег нужно размещать, ТОЛЬКО, в заголовке HTML страницы, между тегами заголовка <head></head>. Как следствие, мета тег <meta name=»Robots» content=»директива»> будет работать, только для той страницы (страниц) в заголовок которых он помещен. Это нам понадобится для дальнейшего понимания, про Управление мета тегом Robots из панели Joomla.
Директивы МЕТА-тег Robots
Директива, а проще говоря, инструкция для поисковых роботов, указывает поисковикам, глобальные правила индексации страницы, где размещен этот тег. Основных директив четыре:
[Index]- не ограниченная индексация.

[Follow]-неограниченный обход всех внешних и внутренних ссылок, которые есть в документе.

[Noindex] и [Nofollow]- запрещена индексация и обход ссылок соответственно.

Дополнительных директив две:
[All] соответствует Index, Follow;

[None] соответствует Noindex, Nofollow.

Специальных директив несколько:
[noarchive] без ссылки на сохраненную копию;

[noyaca] без описания из Яндекс каталога;

[noodp] без DMOZ описания.

Примечание: Последние три читает Яндекс поисковик. В CMS Joomla дополнительные атрибуты не используются.
Мета тег name=»Robots» и файл Robots.txt
Вам наверняка знаком файл Robots.txt, который помещают в корневой каталог сайта и директивами в этом сайте управляют индексацией отдельных и групп страниц (разделов) сайта. Читать статью: Как использовать файл robots.txt на Joomla 3. Возникает вопрос, а как взаимодействуют директивы мета-тага Robots и директивы файла Robots.txt. Очень просто. Поисковик читает мета тег Robots и при встрече противоречащей директивы в файле Robots.txt её игнорирует.
Важно! Используя инструменты взаимодействия (управления) поисковыми роботами, нужно понимать, что не все роботы восприимчивы к сторонним командам, и некоторые из них, обычно малоизвестные, не «читают» ни мета теги Robots, ни файл Robots.txt.
Однако, расширенный синтаксис директив в файле Robots.txt, позволяют более конкретно «объяснять» поисковикам, как индексировать страницы сайта.
Управление мета тегом Robots на Joomla
Пора переходить, на управление мета тегом Robots из панели Joomla.
Чтобы каждый раз не ставить «ручками» мета теги Robots.txtна страницы сайта, в CMS Joomla предусмотрены инструменты такой вставки. Смотрим их в административной панели:
1. Мета теги Robots для всего сайта: Система→Общие настройки→
2. Мета теги Robots для разделов: Менеджер категорий→Категория→Публикация
3. Мета теги Robots для страниц (статей): Создать материал→Публикация
4. Настройки Мета тега Robots по умолчанию: берутся из Общих настроек. В завершении напомню,
Как закрыть отдельную ссылку от обхода и часть статьи от индексации
Чтобы закрыть отдельную ссылку от обхода и её учета используем синтаксис: <a href=»/url» rel=»nofollow»>текст ссылки</a>.

Чтобы закрыть часть текста от индексации поисковиком Яндекс, используем синтаксис: <!—noindex—>текст, запрещенный к индексации<!—/noindex—>

если забыть поставить закрывающий тег <!—/noindex—>, Яндекс проигнорирует весь после <!—noindex—>.

©Joomla3-x.ru
Другие статьи по теме: Оптимизация Joomla 3

Что такое метатег роботов?
Что такое атрибут мета-роботов?
Атрибут Meta Robots или Robots Meta tag используется для предоставления поисковым системам инструкций о том, как сканировать, индексировать и представлять веб-страницы в результатах поиска.
Как и все метаэлементы, содержимое тегов Meta Robots не отображается напрямую для посетителей веб-сайта.
Мета-теги роботов более эффективны, чем роботы.txt, запрещающие Google индексировать неважный или повторяющийся контент.
Значения метатегов роботов
Атрибут Robots может содержать одно или несколько из нескольких доступных значений, большинство из которых поддерживаются Google, Yahoo !, и Bing:
Index & noindex: Значение noindex запрещает поисковым системам индексировать страницу веб-страницы, содержащую инструкцию. Значение по умолчанию — , индекс
.
Follow & nofollow: Значение nofollow предотвращает сканирование всех ссылок на странице веб-страницы.Значение по умолчанию — после .
None: Значение none является сокращением для noindex и nofollow
Noarchive: Значение noarchive просит поисковые системы не хранить заархивированную (кэшированную) копию веб-страницы
Nosnippet: Значение nosnippet требует, чтобы поисковые системы не включали фрагмент мета-описания со страницы вместе с листингом страницы в результатах поиска
Noodp: В случае автоматически сгенерированных метаописаний noodp запрещает поисковым системам использовать описания из Open Directory Project, если в нем указан веб-сайт
Noydir: В случае автоматически генерируемых метаописаний атрибут noydir запрещает поисковым системам использовать описания из Yahoo! Справочник, если в нем указан веб-сайт
Nocache: То же, что и значение noarchive , но используется только поисковой системой MSN / Live
Примеры мета-тегов роботов
Значения по умолчанию .Веб-страница с индексом и после значений мета-тегов Robots будет индексироваться и сканироваться нормально, как и без директив:

Комбинация значений мета-тегов nofollow и noindex Robots предотвратит индексацию веб-страницы. Страница будет накапливать PageRank, но не будет передавать его другим страницам, в том числе тем, что находятся в том же домене.Поскольку значение nofollow предотвращает передачу ссылочного веса страницы на другие страницы, обычно не рекомендуется использовать эту комбинацию значений метатегов Robot:

Лучшее решение для предотвращения индексации не препятствует передаче PageRank на другие веб-страницы:

Атрибут Meta Robots может использоваться для указания всех поддерживающих поисковых систем или определенных роботов:
Робот Google: Робот Google
Мобильный робот Googlebot: Мобильный робот Googlebot
Робот новостей Googlebot: Робот Googlebot-news
Робот Yahoo: Slurp
MSN и робот Live Search: Bingbot
Чтобы заблокировать отображение страницы в результатах Google News , но не в основных результатах веб-поиска Google:

Поддержка поисковой системой значений метатегов роботов
Стоимость роботов Google Yahoo! MSN / Live Спросите
индекс Есть Есть Есть Есть
noindex Есть Есть Есть Есть
следовать Есть Маловероятно Маловероятно Есть
nofollow Есть Есть Есть Есть
нет Есть Маловероятно Маловероятно Есть
без архива Есть Есть Есть Есть
носниппет Есть № № №
лапша Есть Есть Есть №
нойдир № Есть № №
Поддержка поисковой системой значений метатегов роботов
Внешние ссылки
Вернуться к глоссарию Springboard SEO Получите предложение или позвоните нам: 1-800-514-5796
ОТЧЕТ ПО СПАЙДЕРИНГУ Доклад Майкла Молдина (Lycos) (позже отредактированный Майклом Шварцем) В то время как общая цель семинара состояла в том, чтобы определить области, в которых стандарты Паукообразный конвертер попытался достичь реальных стандартов соглашения о некоторых немедленных проблемах, с которыми сталкивается поиск с помощью роботов. сервисов, по крайней мере, среди представителей поисковых сервисов, основанных на пауках, которые присутствовали на семинаре (Excite, InfoSeek и Lycos).В соглашения распадались на четыре области, но мы сообщаем здесь только о трех из них потому что четвертая область касалась тега KEYWORDS, который многие семинары участники посчитали, что это не подходит для спецификации этим конвертером без участия других групп, которые работали над этим проблема. Остальные три области были: 1. Мета-тег ROBOTS по умолчанию = empty = «ВСЕ» «NONE» = «NOINDEX, NOFOLLOW» Заполнитель представляет собой список терминов, разделенных запятыми: ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.Обсуждение: этот тег предназначен для пользователей, которые не могут контролировать файл robots.txt на своих сайтах. Это последний шанс держать их контент подальше от поисковых служб. Было решено не добавить синтаксис, чтобы разрешить конкретные разрешения для роботов в метатеге. ИНДЕКС означает, что роботы могут включать эту страницу в поисковые услуги. ПОДПИСАТЬСЯ означает, что роботы могут переходить по ссылкам с этого страницу, чтобы найти другие страницы.Таким образом, значение NOINDEX позволяет исследовать дополнительные ссылки, даже если страница не проиндексирована. Значение «NOFOLLOW» позволяет страницу для индексации, но никакие ссылки со страницы не исследуются (это может будет полезно, если страница является бесплатной точкой входа в контент с оплатой за просмотр, Например. Значение «NONE» указывает роботу игнорировать страницу. 2. Мета-тег DESCRIPTION Цель состоит в том, что текст может использоваться поисковой службой, когда печать резюме документа.Текст не должен содержать любая информация о форматировании. 3. Другие проблемы с ROBOTS.TXT Это вопросы, рекомендованные для обсуждения будущих стандартов, которые не могут быть решены в рамках этого семинара. — Неясности в текущей спецификации http://www.kollar.com/robots.html — Средство канонизации сайтов с использованием: HTTP-EQUIV HOST РОБОТЫ.TXT НИКНЕЙМЫ — способы поддержки нескольких файлов robots.txt на сайте («robotsN.txt») — способы размещения рекламы, которые следует индексировать (а не просто ограничивая контент, который не следует индексировать) — Информация управления потоком: интервал поиска или максимум соединения открыты для сервера
Назначение мета-тега роботов
Вы когда-нибудь задумывались, для чего нужен файл robots на вашем веб-сайте? Возможно, вы используете WordPress и наткнулись на этот незнакомый тег, который гласит:.Что это, черт возьми !? Это робот, который автоматизирует ваши метатеги? Это волшебный SEO-тег? Вызывает ли он робота Google на вашу страницу?
Мета-тег роботов — это тег, который сообщает поисковым системам, за чем следовать, а за чем не следовать. Это фрагмент кода в разделе вашей веб-страницы. Это простой код, который дает вам возможность решить, какие страницы вы хотите скрыть от поисковых роботов и какие страницы вы хотите, чтобы они проиндексировали и просматривали.
Другая функция метатега роботов заключается в том, что он сообщает сканерам поисковых систем, по каким ссылкам следует переходить и на каких ссылках останавливаться.Когда с вашего веб-сайта выходит много ссылок, вы должны знать, что теряете немного сока Google. В результате рейтинг вашей страницы снизится. Итак, что вы хотите сделать, так это сохранить этот сок при себе с помощью некоторых ссылок — и вы говорите сканерам поисковых систем не переходить по ссылкам, исходящим с вашего сайта, потому что при этом они также заберут часть вашего сока Google. с ними.
Если у вас нет метатега robots, не паникуйте. По умолчанию сканеры поисковых систем БУДУТ проиндексировать ваш сайт и БУДУТ переходить по ссылкам.Позвольте мне прояснить, что поисковые роботы, переходящие по вашим ссылкам, это совсем не плохо. Потеря части вашего сока не сильно повлияет на ваш сайт в обмен на привлечение внимания других веб-сайтов, на которые вы ссылаетесь. На самом деле я вообще не рекомендую использовать nofollow, если у вас не слишком много исходящих ссылок.
По сути, метатег роботов может быть разбит на четыре основные функции для поисковых роботов:
FOLLOW — команда для сканера поисковой системы, чтобы перейти по ссылкам на этой веб-странице
INDEX — команда для сканера поисковой системы, чтобы проиндексировать эту веб-страницу
NOFOLLOW — команда для сканера поисковой системы НЕ переходить по ссылкам на этой веб-странице
NOINDEX — команда для сканера поисковой системы НЕ индексировать эту веб-страницу
Довольно просто, не правда ли? Теперь вы говорите себе: «Черт возьми, это все? Я думал, что это какая-то безумная программа, на изучение которой уйдут годы.”
Ну, есть еще несколько команд для мета-тега robots, но эти четыре являются ГЛАВНЫМИ функциями. Именно для этих четырех мета-тегов в основном используются.
Если вы спросите меня, мета-теги роботов — это мелочи в SEO вашего сайта, которые вы можете использовать для управления своими ресурсами Google. Я лично не использую noindex, но иногда использую nofollow. Не спрашивайте почему. Это личное. Ха-ха!
Пример кода мета-тега роботов будет выглядеть так:
Этот тег индексирует веб-страницу, на которой он находится.Это все равно, что сказать кому-то, кто хочет получить стакан воды, чтобы получить стакан воды. Потому что, опять же, по умолчанию поисковая система уже индексирует ваш сайт, даже если вы не используете этот код.
И вы также можете комбинировать команды, если хотите:
Мне следует помнить об этом коде, особенно если вы пытаетесь сэкономить ресурсы Google, применяя nofollow к исходящим ссылкам. В остальном это не то, что вам нужно постоянно проверять, когда вы оптимизируете локальное SEO.
Советы для Keeps: Мы все хотим знать все мелочи о SEO. Это может помочь в будущем, поэтому постарайтесь запомнить это. Этот код создан не зря. Самые опытные специалисты по поисковой оптимизации знают, как это лучше всего использовать.
Для дальнейшего чтения вы можете перейти к статье о мета-роботах в Search Engine Land
Эта запись является частью серии «Школа хакеров SEO: Использование метатегов для SEO
».
Если вы хотите, чтобы это руководство было отправлено прямо на ваш почтовый ящик, подпишитесь на в текстовой области под
роботов.txt против мета-роботов: что лучше?
Назначение файла robots.txt, также известного как протокол исключения роботов, состоит в том, чтобы дать веб-мастерам контроль над тем, какие страницы роботы (обычно называемые пауками) могут сканировать и индексировать на своем сайте. Типичный файл robots.txt, размещенный на сервере вашего сайта, должен включать URL-адрес вашей карты сайта и любые другие параметры, которые вы хотите указать.
Если робот хочет посетить страницу вашего веб-сайта, перед этим он проверяет ваш robots.txt (размещенный по адресу www.domain.com/robots.txt — с учетом регистра, если вы назовете его Robots.TXT, работать не будет) и видит, что ваш файл robots.txt содержит следующее исключение:
Пользовательский агент: *
Disallow: /
«User-agent: *» сообщает роботу, что это правило применяется ко всем роботам, а не только к поисковой системе или ботам Google.
«Disallow: /» сообщает роботам, что им запрещено посещать какие-либо страницы в этом домене. При создании файла robots.txt вы должны быть осторожны с тем, какие параметры вы устанавливаете, как если бы ваш файл robots.txt выглядит так, как в приведенном выше примере, это означает, что ваш веб-сайт не будет сканироваться Google!
Примечание: Некоторые роботы игнорируют ваш файл robots.txt, поскольку это всего лишь директива, и поэтому все равно будут получать доступ к страницам вашего сайта в любом случае. Обычно это злонамеренные боты, которые могут собирать информацию с вашего сайта. Некоторые из них могут быть вредоносными, даже если вы создадите раздел в своем файле robots.txt, чтобы исключить его из сканирования вашего сайта, поскольку эти роботы обычно игнорируют ваш файл robots.txt, это будет безуспешно.Блокировка IP-адреса робота может быть вариантом, но поскольку эти спамеры обычно используют разные IP-адреса, это может быть утомительным процессом.
Зачем нужен файл robots.txt?
Некоторые веб-мастера думают, что, поскольку они хотят, чтобы все роботы могли сканировать весь их сайт, им не нужен файл robots.txt, однако это не так. Ваш файл robots.txt должен содержать местоположение вашей карты сайта, чтобы паукам, особенно паукам поисковых систем, было проще получить доступ ко всем страницам вашего сайта.Вам также понадобится файл robots.txt, если вы находитесь в процессе разработки нового сайта, который находится в режиме реального времени на вашем сервере, но вы пока не хотите, чтобы он был проиндексирован Google. Если вы используете файл robots.txt, убедитесь, что вы понимаете, что исключаете из сканирования, поскольку достаточно одной ошибки, чтобы весь ваш сайт не сканировался!
Ограничения Robots.txt
Важно помнить, что использование файла robots.txt в качестве средства защиты и сокрытия конфиденциальной информации — это не только плохая практика, но и нарушение Закона о защите данных, если информация хранится ненадлежащим образом.К вашему файлу robots.txt может получить доступ кто угодно, а не только роботы, поэтому, если у вас есть какая-либо информация на вашем сайте, которую вы не хотите, чтобы ее просматривал кто-либо, кроме тех, для кого он предназначен, то наиболее безопасным подходом будет защитить паролем страницу / документ.
Инструкции в вашем файле robots.txt являются только директивами.
Инструкции, которые вы объявляете в своем файле robots.txt, не могут управлять поведением пауков на вашем сайте, но могут различать, какие сканеры могут, а какие нет. получить доступ к вашему сайту.Однако в то время как легальные сканеры, такие как Googlebot и другие сканеры поисковых систем, будут подчиняться правилам, указанным вами в файле robots.txt, другие сканеры могут просто игнорировать правила в вашем файле robots.txt или вообще не смотреть на него.
Синтаксис в вашем robots.txt может по-разному интерпретироваться разными поисковыми роботами
Важно, чтобы при создании файла robots.txt вы знали правильный синтаксис для обращения к определенным веб-поисковым роботам, поскольку директивы, которые робот Google может легко прочитать, могут быть непонятны другим веб-поисковым роботам, что означает, что они не смогут следовать инструкции, которые вы ввели.
Директивы в вашем файле robots.txt не препятствуют ссылкам на ваш URL на других сайтах
Google будет следовать директивам в вашем файле robots.txt, что означает, что любые запрещенные вами файлы не будут сканироваться или индексироваться, однако это не удалит все следы вашего URL из Google. Ссылки на ваш сайт на других сайтах, такие как каталоги и якорный текст на других веб-страницах, по-прежнему будут отображаться в результатах поиска Google, поскольку вы не можете вносить изменения на других сайтах с помощью своих роботов.текст. Однако, чтобы ваш URL-адрес не появлялся где-либо в поисковой выдаче Google, вы можете использовать комбинацию методов блокировки URL-адресов, таких как защита паролем и добавление метатегов директивы индексации в ваш HTML, наряду с запретом доступа для сканера в вашем файле robots.txt.
Параметры Robots.txt
У вас есть несколько вариантов, когда дело доходит до вашего robots.txt и того, что вы хотите, чтобы он содержал. Ниже приведены несколько примеров, которые могут помочь вам создать свой!
Чувствительность корпуса
Роботы.txt чувствительны к регистру, поэтому, если вы запретите /logo-image.gif, директива заблокирует http://www.domain.com/logo-image.gif, но http://www.domain.com/Logo-Image.gif по-прежнему будет доступен для роботов.
Разрешить всем роботам сканировать весь ваш сайт
User-agent: *
Disallow:
Исключить всех роботов (вредоносных и роботов Google) со всего вашего сайта
User-agent: *
Disallow: /

Исключить определенного робота из определенной папки / файла на вашем веб-сайте
User-agent: Examplebot
Запретить: / no-robots /
Примечание : У вас может быть только одна папка / файл на одну строку «Disallow:», если у вас есть несколько мест, которые вы хотите исключить, вам придется добавить больше строк Disallow.
Разрешить одного конкретного робота и исключить всех остальных роботов
User-agent: Googlebot
Disallow:
User-agent: * Disallow: / Исключить определенного робота User-agent: SpamBotDisallow: /
Объявление карты сайта в файле robots.txt
User-agent: *
Disallow:
Sitemap: http://www.domain.com/sitemap.xml
Примечание : объявление карты сайта должно указывать на абсолютный URL, а не на относительный.
Исключить всех роботов из всей папки, кроме одного файла / изображения
User-agent: *
Disallow: / my-photos
Allow: / my-photos / logo.jpg
Директива по шаблону Robots.txt Поисковые системы
, такие как Google и Bing, допускают использование подстановочных знаков в файлах robots.txt, поэтому вам не нужно перечислять множество URL-адресов, потому что они содержат одни и те же символы.
Disallow: * мобильный
Приведенная выше директива блокирует доступ сканеров к любым URL-адресам на вашем веб-сайте, которые содержат термин «мобильный», например:
/ мобильный
/ услуги / оптимизация для мобильных устройств
/ blog / important-of-mobile-ppc-bidding
/ images / mobile.jpg
/phone/mobile34565.html
Другая директива с подстановочными знаками, которую вы можете использовать в своем robots.txt, — это символ «$».
Disallow: * .gif $
В примере директива блокирует доступ сканеров к любому URL-адресу, который содержит файл типа «.gif». Подстановочные знаки могут быть чрезвычайно мощными и должны использоваться с осторожностью, поскольку в приведенном выше примере подстановочный знак $ блокирует любые пути к файлам, которые также содержат «.gif», например /my-files.gif/blog-posts.
Тестирование роботов.txt с помощью Инструментов для веб-мастеров
Если у вас есть учетная запись в Инструментах для веб-мастеров и вы подтвердили свой URL-адрес, вы можете использовать инструмент robots.txt Tester. С помощью этого инструмента вы можете протестировать изменения в файле robots.txt и увидеть их влияние, прежде чем запускать его. Вы также можете просмотреть предыдущие версии своего файла и увидеть, какая строка в вашем файле robots.txt блокирует определенную страницу. Это может предотвратить ошибки и потерю трафика / дохода.
Вы также можете ввести URL-адрес, чтобы проверить, не заблокирован ли он директивой в вашем файле robots.txt и легко изменить его соответствующим образом. Этот инструмент можно найти в раскрывающемся списке «Сканирование» в Инструментах для веб-мастеров. Проверьте свое сейчас!
Тег Meta Robots
С точки зрения SEO, если вы хотите запретить Google сканирование определенной страницы на вашем веб-сайте и ее индексацию на страницах результатов поиска, лучше всего использовать метатег роботов, чтобы сообщить им, что им разрешен доступ к этой странице. но не показывать это в поисковой выдаче. Ваш метатег robots должен выглядеть так и размещаться в разделе вашего веб-сайта:
Если вы хотите запретить роботу индексировать контент на вашей странице и запретить ему переходить по любой из ссылок, ваш метатег роботов будет выглядеть так:
Обзор основных доступных команд мета-тегов robots:
Индекс — Все поисковые системы могут индексировать контент на этой веб-странице
Follow — Все поисковые системы могут сканировать внутренние ссылки на веб-странице
Noindex — запретит включение указанной страницы в индекс
Nofollow — запретит роботам Google переходить по ссылкам на странице.Обратите внимание, что это отличается от атрибута ссылки rel = ”nofollow”.
Noarchive — предотвращает отображение кешированных версий страницы в поисковой выдаче
Nosnippet — предотвращает кеширование страницы и отображение описаний под страницей в поисковой выдаче
NOODP — предотвращает описание проекта Open Directory для страницы, заменяя описание, заданное вручную для этой страницы
Noimageindex — запрещает Google индексировать изображения на странице
Notranslate — предотвращает перевод страницы в поисковой выдаче Google
В метатеге robots можно использовать несколько команд.Если вы хотите предотвратить кэширование страницы на вашем веб-сайте всеми поисковыми системами, а также предотвратить замену описаний Open Directory вашими текущими описаниями, вы должны использовать следующие команды: noarchive и NOODP. Ваш метатег роботов будет выглядеть так:
NOARCHIVE, NOODP “>
Если вы хотите, чтобы поисковые роботы не индексировали эту веб-страницу, а следовали по внутренним ссылкам на этой странице, ваш метатег robots будет выглядеть следующим образом. Это рекомендуемая позиция для SEO, потому что, если какие-либо ссылки ведут на страницы, которые вы не хотите индексировать, мы все равно хотим, чтобы ссылочный вес ссылки проходил через остальную часть сайта.
Тег Meta Robots vs Robots.txt
В целом, если вы хотите деиндексировать страницу или каталог из результатов поиска Google, мы предлагаем вам использовать метатег «Noindex», а не директиву robots.txt, поскольку при использовании этого метода при следующем сканировании вашего сайта ваш страница будет деиндексирована, а это значит, что вам не нужно будет отправлять запрос на удаление URL. Однако для этого вы все равно можете использовать директиву robots.txt вместе с удалением страницы в Инструментах для веб-мастеров.
Использование метатега robots также гарантирует, что ваша ссылочная стоимость не будет потеряна, с помощью команды «follow».
Файлы
Robots.txt лучше всего подходят для запрета целого раздела сайта, например категории, тогда как метатег более эффективен для запрета отдельных файлов и страниц. Вы можете использовать как метатег robots, так и файл robots.txt, поскольку ни один из них не имеет власти над другим, но «noindex» всегда имеет власть над запросами «индексирования».
Назад в блог
Когда использовать NOINDEX или robots.текст?
Уведомление: Для этого элемента нет устаревшей документации, поэтому вы видите текущую документацию.
Один из вопросов, которые нам чаще всего задают, — в чем разница между метатегом NOINDEX robots и robots.txt и когда следует использовать каждый из них. В данной статье рассматривается этот вопрос.
Мета-тег роботов NOINDEX
Тег NOINDEX используется для предотвращения появления контента в результатах поиска.Мета-тег NOINDEX появляется в исходном коде вашего контента и сообщает поисковой системе не включать этот контент в результаты поиска.
В исходном коде вашей страницы метатег роботов NOINDEX выглядит так:

Файл robots.txt
Файл robots.txt сообщает поисковым системам, где их сканеры могут и не могут заходить на веб-сайт. Он включает директивы «Разрешить» и «Запрещать», которые указывают поисковой системе, какие каталоги и файлы следует сканировать, а какие — нет.
Однако это не мешает вашему содержанию отображаться в результатах поиска.
Пример использования файла robots.txt — указание поисковым системам не сканировать каталог «/ cgi-bin /», который может существовать на вашем сервере, поскольку в этом каталоге нет ничего, что можно было бы использовать для поиска. двигатели.
Файл robots.txt по умолчанию для WordPress выглядит так:
Агент пользователя: * Запретить: / wp-admin / Разрешить: /wp-admin/admin-ajax.php
Отличие NOINDEX от robots.txt
Разница между ними заключается в следующем:
Файл robots.txt используется для указания поисковой системе, какие каталоги и файлы следует сканировать. Это не препятствует индексации контента и его отображению в результатах поиска.
Мета-тег NOINDEX robots сообщает поисковым системам не включать контент в результаты поиска, и, если контент уже был проиндексирован ранее, они должны полностью удалить контент. Это не мешает поисковым системам сканировать контент.
Самая большая разница, которую нужно понимать, заключается в том, что если вы хотите, чтобы поисковые системы не включали контент в результаты поиска, тогда ДОЛЖЕН использовать тег NOINDEX, а ДОЛЖЕН разрешить поисковым системам сканировать контент. Если поисковые системы НЕ МОГУТ сканировать контент, то они НЕ МОГУТ, видеть метатег NOINDEX и, следовательно, НЕ МОГУТ исключить контент из результатов поиска.
Итак, если вы хотите, чтобы контент не отображался в результатах поиска, используйте NOINDEX.Если вы хотите, чтобы поисковые системы не сканировали каталог на вашем сервере, потому что он не содержит ничего, что им нужно видеть, используйте директиву Disallow в вашем файле robots.txt.
Вы можете найти документацию по использованию функции NOINDEX в All in One SEO в нашей статье «Отображение или скрытие вашего контента в результатах поиска» здесь.
Вы можете найти документацию по использованию функции Robots.txt в All in One SEO в нашей статье об использовании инструмента Robots.txt в All in One SEO здесь.
Дополнительная литература
Уведомление: В настоящее время вы просматриваете устаревшую документацию.
Один из вопросов, которые нам чаще всего задают, — в чем разница между метатегом NOINDEX robots и robots.txt и когда следует использовать каждый из них. В данной статье рассматривается этот вопрос.
Мета-тег роботов NOINDEX
Тег NOINDEX используется для предотвращения появления контента в результатах поиска. Мета-тег NOINDEX появляется в исходном коде вашего контента и сообщает поисковой системе не включать этот контент в результаты поиска.
В исходном коде вашей страницы метатег роботов NOINDEX выглядит так:

Роботы.txt файл
Файл robots.txt сообщает поисковым системам, где их сканеры могут и не могут заходить на веб-сайт. Он включает директивы «Разрешить» и «Запрещать», которые указывают поисковой системе, какие каталоги и файлы следует сканировать, а какие — нет.
Однако это не мешает вашему содержанию отображаться в результатах поиска.
Пример использования файла robots.txt — указание поисковым системам не сканировать каталог «/ cgi-bin /», который может существовать на вашем сервере, поскольку в этом каталоге нет ничего, что было бы полезно для поиска. двигатели.
Файл robots.txt по умолчанию для WordPress выглядит так:
Агент пользователя: * Запретить: / wp-admin / Разрешить: /wp-admin/admin-ajax.php
Разница между NOINDEX и robots.txt
Разница между ними заключается в следующем:
Файл robots.txt используется для указания поисковой системе, какие каталоги и файлы следует сканировать. Это не препятствует индексации контента и его отображению в результатах поиска.
Мета-тег роботов NOINDEX сообщает поисковым системам, что они не должны включать контент в результаты поиска, и, если контент уже был проиндексирован ранее, они должны полностью удалить контент.Это не мешает поисковым системам сканировать контент.
Самая большая разница, которую следует понимать, заключается в том, что если вы хотите, чтобы поисковые системы не включали контент в результаты поиска, тогда ДОЛЖЕН использовать тег NOINDEX, а ДОЛЖЕН разрешить поисковым системам сканировать контент. Если поисковые системы НЕ МОГУТ сканировать контент, то они НЕ МОГУТ, видеть метатег NOINDEX и, следовательно, НЕ МОГУТ исключить контент из результатов поиска.
Итак, если вы хотите, чтобы контент не отображался в результатах поиска, используйте NOINDEX.Если вы хотите, чтобы поисковые системы не сканировали каталог на вашем сервере, потому что он не содержит ничего, что им нужно видеть, используйте директиву Disallow в вашем файле robots.txt.
Вы можете найти документацию по использованию функции NOINDEX в All in One SEO в нашей статье о настройках Noindex в All in One SEO здесь.
Вы можете найти документацию по использованию функции Robots.txt в All in One SEO в нашей статье об использовании инструмента Robots.txt в All in One SEO здесь.
Дополнительная литература
Мета-роботов найдено за пределами
Критический Этот совет требует немедленного внимания, поскольку проблема может серьезно повлиять на сканирование, индексирование или ранжирование.Проблема Этот совет представляет собой ошибку или проблему, которую необходимо исправить.
Это означает, что в рассматриваемом URL есть мета-роботы, указанные в HTML, но за пределами.
Почему это важно?
Метатеги роботов должны содержаться только в, но даже если они найдены в, они будут уважаться поисковыми системами, несмотря на то, что вы могли ожидать.
Приведенный выше пример от Gary Illyes из Google, вероятно, является наихудшим сценарием — когда значение robots равно noindex, так как вы можете не осознавать, что тег отображается.
Что проверяет подсказка?
Этот совет будет активирован для любого внутреннего URL-адреса, который содержит метатег robots в HTML, но за пределами области.
Примеры, которые запускают эту подсказку:
Рассмотрим URL: https://example.com/
Подсказка сработает для этого URL, если у него есть метатег robots, который находится где-то за пределами, например:

пример
...

...

...

Подсказка МОЖЕТ также сработать, если у вас есть недопустимые элементы HTML, которые нарушают, так как это может означать, что запускается раньше, а тег robots заканчивается там.
Как решить эту проблему?
Этот совет помечен как «Критический», поскольку он представляет собой принципиально критическую проблему, которая может иметь серьезные негативные последствия для обычного поискового трафика.Настоятельно рекомендуется, чтобы критические вопросы решались в первоочередном порядке.
Обычно это происходит из-за того, что сломан. Когда робот Googlebot анализирует ваш HTML, тег robots перемещается в тело. Проверьте, не срабатывает ли также одна из этих подсказок:
Если это так, то сначала устранение этих проблем может также решить проблему с мета-роботами.
Если хотя бы одна из этих 2 подсказок не срабатывает, вам нужно будет еще раз покопаться, чтобы исследовать проблему.Тогда это будет указывать на проблему с конфигурацией рассматриваемого URL, которая, вероятно, связана с проблемой с шаблоном страницы или скриптом, который помещает тег robots в неправильное место.
Проверьте как «Просмотр исходного кода», так и визуализированный DOM (через Chrome DevTools «Inspect»), которые помогут определить, как загружается мошеннический тег. Вы также можете попробовать сканировать с помощью Sitebulb с помощью HTML Crawler и Chrome Crawler (чтобы увидеть если вы получите другие результаты).
Тег robots необходимо удалить из (и заменить в), поэтому вам может потребоваться помощь разработчика.
Дополнительная литература
4 расширенных мета-тега для SEO, которые вы, возможно, не используете, но должны
Если вы маркетолог или SEO, вы, вероятно, уже знаете о важности тегов заголовков и метаописаний для повышения вашего рейтинга. Но, как и в большинстве случаев в маркетинге, если пойти немного дальше, можно добиться гораздо лучших результатов.
В то время как большинство маркетологов останавливаются на тегах заголовков, использование расширенных метатегов может помочь вам сообщить Google, какие целевые страницы на ваших веб-сайтах наиболее важны, и в процессе улучшить ваш рейтинг.
В этой статье я расскажу о четырех расширенных HTML-тегах, которые помогут вам улучшить рейтинг ваших самых ценных и самых конвертируемых страниц.
Мета-тег robots позволяет владельцам сайтов контролировать, будет ли робот Googlebot сканировать и индексировать их страницы. Владельцы сайтов могут использовать директивы для роботов, чтобы дать роботу Googlebot конкретные инструкции по сканированию и индексации. Основные директивы роботов включают:
«index, follow» : указывает роботу Googlebot сканировать и индексировать страницу в обычном режиме.
«index, nofollow» : указывает роботу Googlebot индексировать страницу, но игнорировать ссылки на странице
«noindex, nofollow : сообщает роботу Googlebot не индексировать страницу и не переходить по ссылкам на странице.
Вот пример тега robots с директивой «index, follow».
Многие владельцы сайтов по умолчанию «индексируют, подписываются» на каждой веб-странице своего сайта, думая, что они могут извлечь выгоду только из того, что Google сканирует их все. Но не все наши веб-страницы нуждаются в ранжировании. Если есть страница с низким качеством или устаревшим содержанием, она вряд ли приведет к конверсии посетителей и может навредить вашей репутации по мнению Google и других поисковых систем.
Добавление nofollow — это упреждающий подход к тому, чтобы страницы низкого качества не просматривались и не обнаруживались естественным образом при поиске.
Вот несколько примеров, когда вы можете добавить метатег robots noindex, nofollow к определенным страницам вашего сайта.
Когда страница неважна или имеет тонкое содержание (и, следовательно, маловероятно, что она будет иметь высокий рейтинг).
Для страниц продуктов, которые являются сезонными, имеют мало товаров или товаров, которых нет в наличии.
Корпоративные сайты с ограниченным бюджетом сканирования и должны обеспечивать сканирование и индексирование своих страниц с более высокой конверсией.
Когда страница не обладает потенциалом конверсии (например,грамм. страницы администратора, страницы входа, страницы подтверждения и т. д.)
Рассмотрите возможность проведения аудита содержимого всего сайта и добавления «noindex, nofollow» к страницам, подпадающим под указанные выше критерии.
Как добавить тег роботов
Есть два способа использовать возможности тегов роботов, чтобы направлять сканеры поисковых систем на ваши самые важные страницы:
Добавляя метатеги роботов на отдельные страницы или создавая и загружая файл robots.txt.
Первый наиболее полезен, если вы хотите добавить теги роботов на отдельные страницы.
Вот как это сделать.
Если вы используете популярную CMS, такую как WordPress или Wix, есть плагины, которые позволяют легко указать предпочитаемую директиву во внешнем интерфейсе, даже не глядя на единственную строчку кода. Тем не менее, если у вас есть ресурсы для разработчиков, вы также можете попросить их помочь вам. Если у вас мало командных ресурсов и вы не очень разбираетесь в технических вопросах, использование такого плагина, как Yoast, станет отличным началом.
Если вы хотите самостоятельно добавить метатеги на страницу HTML, вы можете написать свой код в текстовом редакторе или использовать инструмент генератора метатегов, как показано ниже.Опять же, очень важно, чтобы вы не совершали масштабных изменений, если не знаете, что делаете.
Затем скопируйте и вставьте этот код в раздел своей HTML-страницы.
Если вы хотите предотвратить сканирование или индексирование нескольких страниц или целого раздела своего сайта, гораздо эффективнее сделать это с помощью файла robots.txt. Вот как это сделать:
1. Создайте текст для файла robots.txt. Если вы хотите написать код самостоятельно в текстовом редакторе, вы можете это сделать, но, по моему опыту, гораздо проще и экономичнее использовать инструмент.Вот бесплатный генератор robots.txt, который вы можете использовать.
2. Убедитесь, что вы добавили XML-карту сайта в файл robots.txt, чтобы сканеры Google легко ее нашли.
3. Загрузите файл в корневой каталог вашего веб-сайта.
4. Проверьте свой файл с помощью тестера robots.txt. Эти инструменты работают как сканеры и проверяют, будет ли робот Googlebot игнорировать страницы, указанные в файле
.
Опять же, главное преимущество тегов роботов заключается в том, что вы можете побудить Google индексировать ваши более эффективные страницы.
Чем больше на вашем сайте целевых страниц, тем более эффективными могут быть роботы. Для корпоративных веб-сайтов, которые могут исчерпать свой обходной бюджет, эти теги могут предотвратить деиндексирование наиболее важных страниц.
2. Rel canonical (rel = «canonical»)
Назначение тега rel = «canonical» — сообщить Google, какая версия целевой страницы имеет наивысшее качество. Или, другими словами, версию, которую вы хотите, чтобы Google продвигал в результатах поиска.
Вообще говоря, Google не любит дублированный контент и с меньшей вероятностью оценит ваши веб-страницы, если считает, что они слишком похожи. Но есть много законных случаев, когда требуется подобный контент. Например, многие страницы продуктов могут быть похожими с небольшими изменениями.
Вот пример того, как rel canonical выглядит в HTML:
Тег rel canonical указывает на канонический URL-адрес или URL-адрес, который представляет «основную версию» страницы.В приведенном выше примере «https://www.xero.com/us/why-xero/your-business/» — это канонический URL.
Когда Google просканирует веб-страницу, на которой расположен этот атрибут, он поймет, что это дублированная версия эталона. Кроме того, зная, что канонический URL-адрес является предпочтительным, Google обычно будет чаще продвигать эту веб-страницу по релевантным поисковым запросам.
Вот несколько идеальных вариантов использования этого тега:
Если у вас есть несколько версий одной и той же целевой страницы.
Если у вас есть целевые страницы с тонким или очень похожим содержанием (например, страницы продуктов).
Для издателей, которые распространяют контент.
Сайты электронной торговли, которые программно создают целевые страницы для каждого города или штата, например Lyft, с контентом для аэропортов.
Как добавить канонические теги rel
Существуют разные теории SEO относительно того, следует ли добавлять относительные канонические ссылки на каждую страницу вашего веб-сайта. Тем не менее, отказ от использования Rel canonicals — это решение само по себе.Если вы не предложите Google, какая версия вашей целевой страницы является главной, его сканеры назначат вам канонические URL-адреса.
По этой причине я обычно рекомендую добавлять канонические ссылки на все ваши целевые страницы. Канонические URL-адреса также более регулярно сканируются роботом Googlebot, что означает, что Google быстрее увидит те обновления или оптимизации, которые вы вносите на свои важные страницы.
Вот как добавить относительные каноники: выберите, какую версию целевой страницы вы хотите сделать главной.Я рекомендую страницу с высококачественным контентом, которая, скорее всего, будет хорошо ранжироваться и конвертировать посетителей.
1.) Выберите, какую версию целевой страницы вы хотите сделать главной. Я рекомендую страницу с высококачественным контентом, которая, скорее всего, будет хорошо ранжироваться и конвертировать посетителей.
2.) Добавьте саморегулирующуюся каноническую ссылку на главную страницу. Опять же, не все оптимизаторы поисковых систем согласны с тем, что вам нужна самореференционная каноническая версия, но, по моему опыту, это того стоит.
Вот веб-страница Microsfot, на которой есть ссылка на canonical.
3.) Добавьте одинаковые канонические теги ко всем похожим страницам. Вы можете использовать относительный канонический генератор (вот простой и бесплатный) или написать код в текстовом редакторе. Канонические ссылки Rel следует разместить в разделе вашего веб-сайта вместе с другими метатегами.
Как и теги роботов, rel canonicals дают вам возможность влиять на то, какие страницы Google показывает поисковикам.Выполнение этих дополнительных шагов с вашим техническим SEO может существенно повлиять на коэффициенты конверсии на вашем сайте.
3. Hreflang (rel = «альтернативный» hreflang = «x»)
Если ваш веб-сайт обслуживает международные рынки и имеет языковые варианты одной и той же целевой страницы, тег hreflang очень эффективен как для SEO, так и для оптимизации конверсии.
Google использует данные о местоположении браузера, чтобы понимать языковые намерения пользователя. Тег hreflang указывает, есть ли у страницы разные языковые варианты, поэтому Google затем покажет пользователю версию страницы в зависимости от его географического региона или предпочтительного языка.
Если ваш веб-сайт ориентирован на поисковые запросы, которые имеют глобальную аудиторию, теги hreflang могут помочь обеспечить показ соответствующего контента наиболее релевантной аудитории и в процессе улучшить ваш рейтинг.
Целевая страница с несколькими тегами hreflang
Вы можете использовать теги hreflang в ситуациях, не связанных с языками. Теги Hreflang могут указывать на страницы с контентом на том же языке, но с региональными вариациями.
В приведенном выше примере все альтернативные страницы на английском языке (en), но владелец сайта говорит Google показать различные версии целевых страниц, адаптированные для основных рынков в Австралии, Канаде, Индонезии и других странах.Некоторые из этих мест по-прежнему обслуживают маркетологов на английском языке, но от региона зависит, какой контент следует показывать.
Подобно rel canonical, теги hreflang предписывают Google показывать определенные URL-адреса поверх других. По этой причине, если вы используете оба, вы хотите убедиться, что вы не отправляете поисковым роботам Google инструкции, противоречащие друг другу. Вот несколько советов:
Если ваш канонический тег определяет другую страницу как канонический URL, но ваш hreflang определяет несколько языковых вариаций текущего URL, Google не поймет, какую страницу продвигать.
Как правило, добавляйте на свои веб-страницы только теги hreflang, которые имеют саморегулирующиеся канонические ссылки.
Именно по этим причинам указанные выше теги hreflang расположены на странице с самореференционным каноническим тегом.
Перед добавлением тегов hreflang необходимо создать языковые или региональные варианты вашей страницы. Это, пожалуй, самая трудоемкая часть процесса. Различия на этих страницах будут лучше всего определять ваши собственные команды по контенту и маркетингу.
После того, как ваши варианты были созданы и опубликованы, вы можете использовать hreflang, чтобы Google показывал каждому отдельному поисковику ту версию страницы, которая ему больше всего подходит.
Есть два способа сделать это: 1) добавить теги hreflang на отдельные страницы или 2) указать языковые вариации в карте сайта.
Чтобы добавить атрибут hreflang к отдельным страницам , выполните следующие действия.
Определите, какой URL-адрес является вашим URL-адресом по умолчанию, а также все URL-адреса с языковыми или региональными вариациями (ваши варианты не обязательно должны находиться в одном домене).
Напишите теги hreflang в текстовом редакторе или с помощью инструмента генератора hreflang.
Каждый тег hreflang должен иметь определенный язык HTML и код страны, поэтому убедитесь, что ваш язык и региональные атрибуты верны.
Добавьте элементы ссылки hreflang в раздел вашего URL-адреса по умолчанию (у вас должен быть один элемент ссылки на вариант страницы)
Добавьте идентичные элементы ссылки hreflang в раздел каждого языка или региональные варианты веб-страниц
Убедитесь, что все относящиеся к ним канонические ссылки на этих веб-страницах ссылаются на себя.
Вы также можете сообщить Google свои языковые варианты, добавив hreflangs в карту сайта. Однако, если у вас есть сотни языковых вариаций, это может занять много времени.
Укажите языковые варианты под URL-адресом по умолчанию в вашей карте сайта, используя атрибут xhtml: link. Ваша карта сайта будет выглядеть так:
Любой альтернативный URL-адрес, который вы указываете с атрибутом xhtml: link, теперь также необходимо добавить в вашу карту сайта (вместе со всеми его вариантами).
Если у вас есть только одна страница с языковым вариантом, это можно сделать очень быстро.Но если у вас сайт корпоративного уровня с сотнями языковых вариаций, этот процесс может занять много времени.
В целом, hreflang имеет много преимуществ для SEO. Прежде всего, это улучшает взаимодействие с пользователем, что может снизить показатель отказов, улучшить сеансы страниц и увеличить глубину прокрутки. Кроме того, если у вас международный веб-сайт, теги hreflang также могут значительно повысить коэффициент конверсии посетителей, которых вы зарабатываете на обычном поиске.
4. Schema.org (Общий словарь микроданных)
Схема.разметка org — это общий словарь микроданных, который поддерживается большинством основных поисковых систем. Для Google теги схемы помогают сканерам легко извлекать данные и отображать их на более заметном месте в поисковой выдаче с помощью полнофункциональных результатов, ориентированных на пользователя.
Google теперь предлагает более 30 различных типов расширенных результатов, и все они предназначены для того, чтобы сделать ваш результат поисковой выдачи более интерактивным для пользователя. Если содержание вашей веб-страницы соответствует типу расширенных результатов, нет причин не использовать последующую схему.разметка org.
Вот несколько примеров распространенных расширенных результатов в Google.
Пример «Организация», богатый результат. Пример богатого результата «Продукты». Расширенные результаты по поисковому запросу «рецепт печенья с шоколадной крошкой»
А вот как выглядит разметка schema.org для первого результата рецепта на бэкэнде. Без этой разметки страница не появилась бы в этом заметном месте выдачи результатов поиска.
Разметка JSON-LD для результатов с расширенным набором рецептов
Схема.разметка org — все еще недостаточно используемая оптимизация. По оценкам, менее 1% веб-страниц в индексе Google используют схему, а это означает, что добавление этих тегов на ваш сайт может дать вам огромное преимущество над вашими конкурентами в рейтинге.
Как добавить разметку Schema.org
Поскольку каждая разметка schema.org имеет разные свойства элементов и использует JSON-LD, а не традиционную структуру XML, добавление schema.org не обязательно случайное занятие.
По этой причине я настоятельно рекомендую работать с опытным веб-разработчиком или использовать инструмент для создания схем.
Если вы хотите попробовать добавить schema.org самостоятельно, вот самый простой способ сделать это:
Определите, какой тип расширенного результата вы хотите для своей веб-страницы (вот полный список). Убедитесь, что содержимое вашей веб-страницы естественным образом соответствует расширенному результату, и вы можете определить все необходимые свойства элемента.
Используйте инструмент для создания схемы. Большинство этих инструментов работают одинаково. Выберите расширенный результат, введите необходимые свойства элемента, и инструмент сгенерирует для вас разметку JSON-LD.
Скопируйте и вставьте разметку в или своей HTML-страницы. Хотя существуют более старые типы кодирования для schema.markup, которые все еще могут быть поняты Google, JSON-LD теперь является отраслевым стандартом и, возможно, его проще всего реализовать.
Вот пример того, как schema.org берет содержимое веб-страницы и извлекает данные для получения расширенного результата.
Внешний интерфейс веб-страницы, использующий схему «События» Серверная часть той же веб-страницы, использующая схему «События» со всеми необходимыми свойствами элемента в разметке JSON-LD Та же веб-страница в расширенных результатах Google по ключевому слову «концерт Кенни Чесни»
Привлечение органического трафика на ваши веб-страницы связано не только с рейтингом в Google, но и с их действиями.Богатые результаты — это простой способ повысить «кликабельность» вашего контента и направить органический трафик к наиболее релевантной информации для их запроса.
Заключение
Реальность такова, что , большинство владельцев сайтов не предпринимают дополнительных шагов для использования расширенных метатегов, потому что им неудобно работать с серверной частью своих веб-сайтов. Но с таким количеством доступных инструментов для создания точных метатегов и микроданных это не должно быть пугающим процессом.
Рассмотрение реализации различных из этих четырех.
Роботы ()
Rel canonical (rel = «canonical»)
Hreflang (rel = «alternate» hreflang = «x»)
Схема (Общий словарь микроданных)
Если вы хотите взять на себя ответственность за техническое SEO и дать своим наиболее эффективным веб-страницам конкурентное преимущество в рейтинге, подумайте о добавлении этих метатегов и посмотрите, как улучшится ваш рейтинг и коэффициент конверсии.
.

Стоимость роботов	Google	Yahoo!	MSN / Live	Спросите
индекс	Есть	Есть	Есть	Есть
noindex	Есть	Есть	Есть	Есть
следовать	Есть	Маловероятно	Маловероятно	Есть
nofollow	Есть	Есть	Есть	Есть
нет	Есть	Маловероятно	Маловероятно	Есть
без архива	Есть	Есть	Есть	Есть
носниппет	Есть	№	№	№
лапша	Есть	Есть	Есть	№
нойдир	№	Есть	№	№
Поддержка поисковой системой значений метатегов роботов