спецификаций мета-тегов роботов | Центр поиска Google | Документация
В этом документе подробно описывается, как можно использовать настройки уровня страницы и текста для настройки того, как Google
представляет ваш контент в результатах поиска. Вы можете задать настройки на уровне страницы, включив
Мета-тег
на страницах HTML или в заголовке HTTP. Вы можете задать настройки уровня текста с помощью атрибут data-nosnippet
для элементов HTML на странице.
Имейте в виду, что эти настройки можно прочитать и использовать только в том случае, если сканерам разрешено получить доступ к страницам, которые включают эти настройки.
К поисковой системе применяется правило
.
гусеницы. Чтобы заблокировать поисковые роботы, такие как AdsBot-Google
, вам может потребоваться добавить правила, ориентированные на конкретный
поисковый робот (например,
).
Использование тега robots
meta
Метатег robots
позволяет вам использовать детальный, специфичный для страницы подход к управлению тем, как
отдельная страница должна быть проиндексирована и показана пользователям в результатах поиска Google. Поместите
роботы метатег
в разделе
данной страницы, например
этот:
<заголовок> (…) голова> <тело> (…) тело>
Если вы используете CMS, например Wix, WordPress или Blogger , возможно, вы не сможете редактировать
ваш HTML напрямую, или вы можете предпочесть этого не делать. Вместо этого ваша CMS может иметь поисковую систему. страница настроек или какой-либо другой механизм, сообщающий поисковым системам о метатегов
.
Если вы хотите добавить на свой веб-сайт метатег
, выполните поиск инструкций.
об изменении
вашей страницы на вашей CMS (например,
найдите «wix добавить метатеги»).
В этом примере тег robots meta
указывает поисковым системам не показывать страницу в
результаты поиска. Значение атрибута
( robots
)
указывает, что правило применяется ко всем сканерам. К
обратиться к конкретному сканеру, замените роботов
значение имя
атрибут с именем искателя, которым вы являетесь
адресация. Определенные сканеры также известны как пользовательские агенты (сканер использует свой пользовательский агент для
запросить страницу.) Стандартный поисковый робот Google имеет имя пользовательского агента Гуглбот
. Чтобы предотвратить индексацию вашей страницы только Google,
обновите тег следующим образом:
Этот тег теперь предписывает Google не показывать эту страницу в результатах поиска. Оба имя
и содержимое
атрибуты
не чувствительны к регистру.
Поисковые системы могут иметь разные сканеры для разных целей. См.
полный список поисковых роботов Google.
Например, чтобы показать страницу в результатах веб-поиска Google, но не в Новостях Google, используйте
следующий метатег
:
Чтобы указать несколько сканеров по отдельности, используйте несколько robots мета
теги:
Чтобы заблокировать индексирование ресурсов, отличных от HTML, таких как файлы PDF, видеофайлы или файлы изображений,
вместо этого используйте заголовок ответа X-Robots-Tag
.
Использование
X-Robots-Tag
HTTP-заголовка X-Robots-Tag
можно использовать как элемент HTTP-заголовка
ответ для заданного URL. Любое правило, которое можно использовать в robots 9Метатег 0003 также может быть
указан как X-Robots-Tag
. Вот пример HTTP
ответ с X-Robots-Tag
, указывающим поисковым роботам не индексировать
страница:
HTTP/1.1 200 ОК Дата: вторник, 25 мая 2010 г., 21:42:43 по Гринвичу (…) X-Robots-Tag: noindex (…)
Несколько заголовков X-Robots-Tag
могут быть объединены в HTTP-заголовке.
ответ, или вы можете указать список правил, разделенных запятыми. Вот пример
Ответ заголовка HTTP, который имеет без архива
X-Robots-Tag
в сочетании с недоступен_после
X-Robots-Tag
.
HTTP/1.1 200 ОК Дата: вторник, 25 мая 2010 г., 21:42:43 по Гринвичу (…)X-Robots-Метка: нет в архиве X-Robots-Tag: unavailable_after: 25 июня 2010 г. 15:00:00 PST (…)
X-Robots-Tag
может дополнительно указывать пользовательский агент перед
правила. Например, следующий набор из X-Robots-Tag
HTTP
заголовки могут использоваться для условного разрешения показа страницы в результатах поиска для разных
поисковые системы:
HTTP/1.1 200 ОК Дата: вторник, 25 мая 2010 г., 21:42:43 по Гринвичу (…) X-Robots-Tag: googlebot: nofollow X-Robots-Tag: otherbot: noindex, nofollow (…)
Правила, заданные без пользовательского агента, действительны для всех сканеров. Заголовок HTTP, имя пользовательского агента, а указанные значения не чувствительны к регистру.
Конфликтующие правила роботов: В случае конфликтующих роботов
правил, применяется более строгое правило. Например, если на странице есть оба max-snippet:50
и nosnippet
правила, будет применяться правило nosnippet
.
Действительные правила индексации и обслуживания
Следующие правила, также доступные в
машиночитаемый формат, может использоваться для
управлять индексацией и показом сниппета с помощью
роботы метатег
и X-Robots-Tag
. Каждое значение представляет определенный
правило. Несколько правил могут быть объединены через запятую.
списке или в отдельных мета-тегах
. Эти правила нечувствительны к регистру.
Правила | |
---|---|
все | Нет никаких ограничений для индексации или обслуживания. Это правило является значением по умолчанию и не имеет никакого эффекта, если явно указан. |
без индекса | Не показывать эту страницу, медиа или ресурс в результатах поиска. Если вы не укажете это правило, страница, медиа или ресурс могут быть проиндексированы и показаны в результатах поиска. Чтобы удалить информацию из Google, следуйте нашим пошаговое руководство. |
nofollow | Не переходите по ссылкам на этой странице. Если вы не укажете это правило, Google может использовать
ссылки на странице, чтобы обнаружить эти связанные страницы. Узнать больше о nofollow . |
нет | Эквивалентно noindex, nofollow |
без архива | Не показывать кешированная ссылка в результатах поиска. Если вы не укажете это правило, Google может создать кешированную страницу. и пользователи могут получить к нему доступ через результаты поиска. |
nositelinkssearchbox | Не показывать окно поиска дополнительных ссылок в результатах поиска для этой страницы. Если вы не укажете это правило, Google может создать поле поиска, относящееся к вашему сайту, в результатах поиска вместе с другими прямыми ссылками на ваш сайт. |
нет фрагмента | Не показывать фрагмент текста или предварительный просмотр видео в результатах поиска для этой страницы. А миниатюра статического изображения (если она доступна) все еще может быть видна, когда это приводит к лучшему Пользовательский опыт. Это относится ко всем формам результатов поиска (в Google: веб-поиск, Google картинки, Откройте для себя). Если вы не укажете это правило, Google может создать фрагмент текста и видео. предварительный просмотр на основе информации, найденной на странице. |
indexifembedded | Google разрешено индексировать содержимое страницы, если оно встроено в другую страницу.
через |
макс-фрагмент: [число] | Используйте не более [число] символов в текстовом фрагменте для этого результата поиска. (Примечание что URL-адрес может отображаться как несколько результатов поиска на странице результатов поиска.) Это не влияет на предварительный просмотр изображений или видео. Это относится ко всем формам результатов поиска (например, веб-поиск Google, Google Images, Discover, Assistant). Однако этот предел не применяется в случаях, когда издатель отдельно предоставил разрешение на использование содержание. Например, если издатель предоставляет контент в виде встроенных структурированные данные или имеет лицензионное соглашение с Google, этот параметр не прерывает более конкретное разрешенное использование. Это правило игнорируется, если нет анализируемого [число] указано. Если вы не укажете это правило, Google выберет длину фрагмента. Специальные значения:
Примеры: Чтобы остановить отображение фрагмента в результатах поиска: Чтобы во фрагменте отображалось до 20 символов: Чтобы указать, что нет ограничений на количество символов, которые могут отображаться в фрагмент: |
максимальный предварительный просмотр изображения: [настройка] | Установить максимальный размер предварительного просмотра изображения для этой страницы в результатах поиска. Если вы не укажете правило Принятые значения [настройки]:
Это относится ко всем формам результатов поиска (таким как веб-поиск Google, изображения Google, Откройте для себя, помощник). Однако это ограничение не применяется в случаях, когда издатель отдельно предоставленное разрешение на использование контента. Например, если издатель предоставляет контент в виде структурированных данных на странице (таких как AMP и канонические версии статьи) или имеет лицензионное соглашение с Google, этот параметр не будет прерывать эти более конкретные разрешенные виды использования. Если вы не хотите, чтобы Google использовал большие эскизы изображений на своих AMP-страницах
и каноническая версия статьи отображаются в Поиске или Обнаружении, укажите Пример: |
макс-видео-превью: [номер] | Используйте максимум [число] секунд в качестве фрагмента видео для видео на этой странице в поиске Результаты. Если вы не укажете правило Специальные значения:
Это относится ко всем формам результатов поиска (в Google: веб-поиск, изображения Google, Google Видео, Discover, Ассистент). Это правило игнорируется, если нет анализируемого [число] указано. Пример: |
без перевода | Не предлагать перевод этой страницы в результатах поиска. Если вы не укажете это правило, Google может предоставлять перевод заглавной ссылки и сниппета результатов поиска для результатов, которые не на языке поискового запроса. Если пользователь щелкает переведенную ссылку заголовка, все дальнейшие пользовательские взаимодействие со страницей осуществляется через Google Translate, который будет автоматически переводить любые ссылки. |
индекс индекса изображения | Не индексировать изображения на этой странице. Если не указать это значение, изображения на странице могут быть проиндексированы и показаны в результатах поиска. |
недоступен_после: [дата/время] | Не показывать эту страницу в результатах поиска после указанной даты/времени. Дата/время должны быть указаны в общепринятом формате, включая, но не ограничиваясь RFC 822, RFC 850 и ИСО 8601. Правило игнорируется, если не указаны допустимые дата/время. По умолчанию нет срок годности контента. Если вы не укажете это правило, эта страница может отображаться в результатах поиска. на неопределенный срок. Робот Googlebot значительно снизит скорость сканирования URL-адреса после указанного Дата и время. Пример: |
Обработка комбинированных правил индексации и обслуживания
Вы можете создать инструкцию с несколькими правилами, объединив роботов мета
правила тегов с запятыми или с использованием нескольких мета-тегов
. Вот пример метатега robots
, который предписывает поисковым роботам не индексировать
страницу и не сканировать ни одну из ссылок на странице:
Список, разделенный запятыми
Несколько
метатегов
Вот пример, который ограничивает текстовый фрагмент до 20 символов и позволяет использовать большое изображение. предварительный просмотр:
В ситуациях, когда несколько искателей указаны вместе с разными правилами, поисковая система будет использовать сумму отрицательных правил. Например:
Страница, содержащая эти метатега
, будет интерпретироваться как имеющая noindex, правило nofollow
при сканировании роботом Googlebot.
Использование HTML-атрибута
data-nosnippet
Вы можете определить текстовые части HTML-страницы, которые не будут использоваться в качестве фрагмента. Это можно сделать
на уровне HTML-элемента с HTML-атрибутом data-nosnippet
на диапазон
, раздел
и раздел
элементов. data-nosnippet
считается
логический атрибут.
Как и для всех логических атрибутов, любое указанное значение игнорируется. Чтобы обеспечить машиночитаемость,
раздел HTML должен быть действительным HTML, и все соответствующие теги должны быть соответствующим образом закрыты.
Примеры:
Этот текст можно отобразить во фрагменте и эта часть не будет отображаться.
не во фрагментетоже не во фрагментетоже не во фрагментекакой-то тексткакой-то текст Google обычно отображает страницы для их индексации, однако обработка не гарантируется. Из-за этого извлечение
data-nosnippet
может произойти как до и после рендеринга. Во избежание неопределенности при рендеринге не добавляйте и не удаляйтеdata-nosnippet
атрибут существующих узлов через JavaScript. При добавлении элементов DOM через JavaScript включитеатрибут data-nosnippet
по мере необходимости при первоначальном добавлении элемент в DOM страницы. Если используются пользовательские элементы, оберните их или визуализируйте с помощьюраздел
,интервал
илираздел
элементов, если вам нужно использоватьdata-nosnippet
.Использование структурированных данных
Метатеги Robots
регулируют объем контента, который Google автоматически извлекает из Интернета. страницы для отображения в качестве результатов поиска. Но многие издатели также используют структурированные данные schema.org. сделать конкретную информацию доступной для поисковое представление. Роботы
мета тег
ограничения не влияют на использование этих структурированных данных, за исключениемартикул.описание
и т.д.описание
значения для структурированных данных, указанные для других творческие работы. Чтобы указать максимальную продолжительность предварительного просмотра на основе этихописание
значения, используйтеmax-snippet
правило. Например,рецепт
структурированные данные на странице подходят для включения в карусель рецептов, даже если в противном случае предварительный просмотр текста был бы ограничен. Вы можете ограничить длину предварительного просмотра текста сmax-snippet
, но этот тег robotsmeta
не применяется, когда информация предоставляется с использованием структурированных данных для расширенных результатов.Чтобы управлять использованием структурированных данных для ваших веб-страниц, измените типы структурированных данных и сами значения, добавляя или удаляя информацию, чтобы предоставить только те данные, которые вам нужны сделать доступным. Также обратите внимание, что структурированные данные остаются пригодными для использования в результатах поиска, когда объявлено в
data-nosnippet
элемент.Практическая реализация
X-Robots-Tag
Вы можете добавить
X-Robots-Tag
в HTTP-ответы сайта через файлы конфигурации программного обеспечения веб-сервера вашего сайта. Например, в Интернете на основе Apache серверах вы можете использовать файлы .htaccess и httpd.conf. Преимущество использованияX-Robots-Tag
с ответами HTTP заключается в том, что вы можете указать сканирование правила, которые применяются глобально на сайте. Поддержка регулярных выражений позволяет высокий уровень гибкости.Например, чтобы добавить noindex
, nofollow
X-Robots-Tag
на ответ HTTP для всехфайлов .PDF
в весь сайт, добавьте следующий фрагмент в корневой файл сайта.htaccess
или файлhttpd.conf
на Apache или файл.conf
сайта на NGINX.Апач
<Файлы ~ "\.pdf$"> Набор заголовков X-Robots-Tag "noindex, nofollow" файлы>НГИНКС
расположение ~* \. pdf$ { add_header X-Robots-Tag "noindex, nofollow"; }Вы можете использовать
X-Robots-Tag
для файлов, отличных от HTML, таких как файлы изображений. где использование тегов robotsmeta
в HTML невозможно. Вот пример добавленияnoindex
X-Robots-Tag
правило для файлы изображений (.png
,.jpeg
,.jpg
,.gif
) по всему сайту:Апач
<Файлы ~ "\.(png|jpe?g|gif)$"> Набор заголовков X-Robots-Tag "noindex" файлы>НГИНКС
расположение ~* \.(png|jpe?g|gif)$ { add_header X-Robots-Tag "noindex"; }Вы также можете установить заголовки
X-Robots-Tag
для отдельных статических файлов:Апач
# файл htaccess должен быть помещен в каталог соответствующего файла. <Файлы "unicorn.pdf"> Набор заголовков X-Robots-Tag "noindex, nofollow" файлы>НГИНКС
местоположение = /secrets/unicorn.pdf { add_header X-Robots-Tag "noindex, nofollow"; }Объединение правил robots.txt с правилами индексирования и обслуживания
метатеги robots
и заголовки
X-Robots-Tag
HTTP обнаруживаются, когда URL просканирован. Если страница запрещена для сканирования через файл robots.txt, то любой информация об индексировании или правилах обслуживания не будет найдена и, следовательно, будет игнорируется. Если необходимо соблюдать правила индексирования или обслуживания, URL-адреса, содержащие эти правила не могут быть запрещены для сканирования.Robots.txt VS. Метатег Noindex Robots — когда какой использовать?
//in SEO/от ТониСодержание
Последнее обновление
Однако бывают случаи, когда вам не следует показывать свой сайт поисковым системам, и многие люди склонны забывать об этом.
Например,
- , если у вас есть определенные страницы маркетинга в поисковых системах, специально предназначенные для платного поиска, а не обычного поиска, вы не хотите, чтобы эти страницы сканировались поисковыми системами
- если у вас есть тестовый сайт на промежуточном/рабочем сервере, вы не хотите, чтобы поисковая система сканировала этот контент и делала его общедоступным для пользователей
- , если на вашем сайте есть функция поиска на месте, которая генерирует много страниц результатов поиска с динамическими параметрами URL, вам следует заблокировать эти страницы, поскольку они, вероятно, дублируют контекст 9. 03:00
- , если вы хотите, чтобы страницы административного раздела сайта не отображались в результатах поиска
, и этот список можно продолжать и продолжать в зависимости от вашей ситуации.
Так как же запретить поисковым системам сканировать определенные разделы сайта или определенные страницы? Вы должны применить Noindex в метатеге robots.
Как применить метатег Noindex?
Это довольно просто и очень похоже на другие метатеги, как вы можете видеть ниже. Вы можете комбинировать его с Nofollow, чтобы поисковые системы не переходили и не сканировали ссылки, которые есть на странице.
<голова> <название>...название>Как насчет добавления «Запретить» в Robots.txt? Разве этого недостаточно?
Это одна из самых распространенных ошибок, которые делают люди. Добавление параметра «Запретить», как показано ниже, в файле Robots. txt не позволит поисковым системам прекратить сканирование указанных вами страниц (или каталогов) при посещении вашего сайта. Если кто-то уже создал обратную ссылку на ваши веб-страницы на своем веб-сайте, поисковые системы все равно могут посещать эти страницы и индексировать их.
Агент пользователя: * Disallow: /Кроме того, даже если Google соблюдает код Robots.txt и не сканирует ваш сайт, Google все равно может получить информацию с других сайтов, например, открыть каталог, чтобы добавить ваш сайт в результаты поиска. (Посмотрите видео ниже для получения дополнительной информации)
По-видимому, некоторые веб-сайты, такие как BMW, NY Times, Ebay, использовали Robots.txt, чтобы заблокировать свой сайт в какой-то момент. Я предполагаю, что Google не понравился тот факт, что эти страницы не отображались в результатах поиска, поэтому они придумали этот альтернативный метод.
Существуют ли другие способы запретить поисковым системам индексировать мои веб-страницы?
Я нашел действительно хорошее видео, созданное Мэттом Каттом, в котором объясняется несколько методов, их плюсы и минусы.
По его словам, использование файла .htaccess и защита паролем страниц (каталогов) — лучший способ предотвратить сканирование поисковыми системами.
Вывод по метатегу Robots.txt и Noindex Robots
Метатег robots — это то, что нужно. Вы также можете использовать инструмент «Удалить URL» в инструментах Google для веб-мастеров. Инструменты Bing для веб-мастеров также предоставляют инструмент для удаления URL, если вы хотите быть тщательным.
Ссылки
- http://evolvedigitallabs.com/blog/robots-txt-vs-noindex-differences
- http://etechdiary.com/robots-txt-vs-noindex-deindex-your-site-the-right-way/
- https://support.