Robots закрыть от индексации сайт: Как закрыть сайт от индексации и запретить поисковым роботам его сканировать – Блог Netpeak Software

Содержание

Как закрыть сайт от индексации: краткое руководство

На сайт, который разрабатывается или проходит редизайн, как и на его копию, иногда не стоит пускать роботов поисковых систем.

Как закрыть сайт от индексации в поиске

Как закрыть сайт от индексации

Для закрытия от индексации всего ресурса достаточно просто создать в корневой папке файл robots.txt с таким текстом:

Usеr-аgеnt: Yаndех
Dіsаllоw: /

Это позволит закрыть сайт от робота Яндекса. А сделать так, чтобы он не индексировался ни одним поисковиком, можно при помощи такой команды:

Usеr-аgеnt: *
Dіsаllоw: /

Ввод такого текста в «роботс» позволяет скрыть ресурс не только от Яндекса, но и от всех остальных поисковых систем. Можно также использовать файл .htассеss, но при этом устанавливается пароль, что приводит к некоторым сложностям в работе с сайтом.

Как

запретить индексацию папки?

Можно отключить робота как полностью, так и частично.

Чтобы поисковая система не видела определенную папку, указываем в robots.txt ее название. В результате будет установлен запрет на индексирование всех находящихся в ней объектов.

Шаблон:

Usеr-аgеnt: *
Dіsаllоw: /fоldеr/ (название папки)

Есть также возможность открыть отдельный файл. При такой необходимости дополнительно используется команда Allow. Прописываем разрешение на индексацию нужного объекта и запрет на доступ к папке:

Usеr-аgеnt: *
Аllоw: /fоldеr/fіlе.рhр (местонахождение объекта – его название и папка)
Dіsаllоw: /fоldеr/

Как запретить Яндексу доступ к определенному файлу?

Тут нужно действовать по аналогии с предыдущим примером. Команда та же, но указывается адрес местонахождения файла и название поисковика.

Шаблон команд, блокирующих индексацию:

User-agent: Yandex
Disallow: /folder/file.php

Как определить, документ открыт для индексации или нет?

С этой целью можно использовать специализированные сервисы, в том числе бесплатные. Работают они довольно просто, например по такой схеме: вы вводите перечень адресов, которые нужно проверить, и запрашиваете информацию об их возрасте в поисковике. Для документа, который индексируется, будет указана дата его попадания в индекс, а если он недоступен для поисковых роботов, отобразится соответствующая надпись.

Как блокируется индексирование изображений?

Можно запретить поисковикам индексировать картинки таких распространенных форматов как gif, png и jpg. Для этого в robots.txt указывается расширение файлов.

В зависимости от того, какие изображения блокируются, команды имеют такой вид:

User-Agent: *
Disallow: *.gif (*.png или *.jpg)

Алгоритм действий в этом случае такой же, как при запрете индексации основного сайта. У каждого поддомена есть собственный robots.txt, чаще всего расположенный в его корневой папке. Если не удалось его обнаружить, нужно создать такой файл. Содержащиеся в нем данные корректируются с использованием команды Disallow путем упоминания разделов, которые закрываются.

Как запретить индексацию поддомена с CDN?

При использовании этой версии наличие дубля может превратиться в серьезную помеху для SEO-продвижения. Есть два способа этого избежать. Первый – провести предварительную настройку на домене тега <link> атрибута rel=»canonical», а второй – создать собственный robots.txt на поддомене. Лучше остановиться на первом варианте, поскольку так данные о поведенческих факторах удастся сохранить в полном объеме по каждому из адресов.

Как называть роботов разных поисковых систем?

В robots.txt содержатся обращения к индексаторам, и необходимо правильно указать их названия. У каждого поисковика собственный набор роботов.

  • У Google главный индексатор – это Googlebot.
  • У Яндекса – Yandex.
  • У отечественной поисковой системы «Спутник» от компании «Ростелеком» – SputnikBot.
  • У поисковика Bing от корпорации «Майкрософт» – робот-индекстор от MSN под названием MSNBot.
  • Yahoo! – Slurp.

Как дополнительные команды можно прописать в robots.txt?

Яндексом, кроме рассмотренных выше директив, поддерживаются и такие.

  • Sitemap: – показывает путь к карте сайта. Кроме Яндекса, на него реагирует Google и многие другие поисковые системы.
  • Clean-param: – демонстрирует параметры GET, не влияющие на то, как на сайте отображается контент, например ref-ссылки или метки UTM.
  • Crawl-delay: – устанавливает минимальный временной интервал для поочередного скачивания файлов. Работает в большинстве поисковиков.

Как использовать для блокировки индексации метатег?

Чтобы роботы не индексировали сайт или определенную страницу, можно воспользоваться командой name=»robots» #. Установка запрета на поиск при помощи этого метатега является удачным способом закрытия ресурса, поисковые роботы с большой вероятностью будут выполнять вашу команду. Допускается использование одного из двух равносильных вариантов кода:

1) <meta name=»robots» соntent=»none»/>,

2) <meta name=»robots» content=»nоіndex, nofollow»/>.

Метатег прописывается в зоне <head> </head>. Так блокируется доступ для всех роботов, но при желании можно обратиться к какому-то конкретному, заменив в коде «robots» на его название. Например, для Яндекса команда выглядит так:

<meta name=»yandex» content=»nоіndex, nofollow»/>

ЧИТАЙ ТАКЖЕ

Адаптивный дизайн сайта: что это и как работает

Как найти целевую аудиторию в Instagram

Как создавать рекламные креативы для социальных сетей

Как закрыть сайт от индексации в robots.txt и meta-тегом

Содержание

  1. Когда нужно закрывать сайт от индексации
  2. Как проверить правильность настроек
  3. Как запретить индексацию
  4. Как закрыть весь сайт в robots.txt
  5. Как закрыть раздел сайта в robots.txt
  6. Закрытие с помощью Meta-тег name=»robots»
  7. Заключение

Поисковые системы проверяют каждую страницу в интернете, анализируют ее содержимое и заносят в индекс, чтобы в дальнейшем использовать ее в ранжировании и формировании поисковой выдачи. Этот процесс называется индексированием. Для этого у поисковых систем есть специальные боты — они сканируют страницу и только после этого она становится доступной всем пользователям интернета. Но иногда страницу или весь сайт нужно скрыть из выдачи. Разберемся, как закрыть сайт от индексации и зачем это делать.

Когда нужно закрывать сайт

В первую очередь от индексирования стоит закрыть новый сайт, который только появился и находится в процессе разработки. То же самое рекомендуется делать, когда на сайте проводятся серьезные изменения — перестройка структуры, настройка нового дизайна, замена текстов.

До окончания технических работ стоит закрыть сайт, чтобы он не индексировался неправильно. Если в выдачу попадут ненужные страницы, есть больший риск понижения значимости сайта для поисковых систем. 

Кроме полезного для посетителей контента на сайте есть служебные страницы, которые видеть никому ненужно. Их можно закрыть на все время, чтобы не затруднять поиск и навигацию на сайте.  

Как проверить правильность настроек

Такую возможность предоставляет «Пиксель Тулс», простой и бесплатный сервис. Встроенный инструмент определения возраста страницы позволяет проверять сразу несколько URL списком.

Если страница индексируется, то в результатах проверки будет указан ее возраст, дата индексирования и кэша. Если не индексируется, то в этом же столбце будет указано «Не в индексе». 

Другой способ проверки — через консоли вебмастера. Search Console и Я.Вебмастер показывают элементы сайта, доступные для сканирования и закрытые. 

Как запретить индексацию

Взаимодействовать с поисковыми роботами нужно с помощью файла из корневой папки сайта — robots.txt. Это специальный служебный текстовый документ, в котором указывается информация для ботов. Когда они попадают на страницу в интернете, то сначала обращаются к нему и в основном следуют написанным там инструкциям.

Если он пустой или отсутствует, то робот проиндексирует полностью все страницы. Создать файл можно самим и загрузить его на хостинг. Для этого подходит любой текстовый редактор, который сохраняет файлы в формате «.txt». В него нужно внести информацию для роботов через специальные команды. Их применение зависит от того, что именно необходимо скрыть.

Если сайт работает на платформе WordPress, можно сделать то же самое через плагин Yoast SEO.

Закрытие сайта

Доступ поисковиков к сайту можно контролировать с помощью трех команд:

  • User-agent – в директории указывается имя бота, для которого установлены указания;
  • Disallow – запрет;
  • Allow – разрешение.

Приведем примеры разных вариантов написания команды.

Закрыться от всех поисковых ботов:

User-agent: *
Disallow: /

Сочетанием команд можно сделать исключение для ботов какой-то одной системы, закрыв доступ остальным. В случае выделения какого-то одного поискового бота нужно писать именно его имя, а не название поисковика. Так, робот Яндекса называется Yandex, у Гугла – Googlebot. А также менее популярные поисковые системы тоже имеют своих ботов с именами:

Slurp — робот от поисковика Yahoo!;

SputnikBot — российский бот, который работает в поисковике от Ростелекома — Спутник;

MSNBot — поисковый робот Microsoft в поисковой системе Bing.

Например, такой код дает доступ к сайту только для роботов Гугла:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: / 

Если нужно закрыться от некоторых ботов, а другим предоставить право индексировать, то в документе прописывается отдельная директива для каждого бота, который входит в исключения, с указанием имени каждого бота поисковой системы.

Больше никаких команд для закрытия сайта не предусмотрено, кроме указанных трех. Взаимодействие максимально простое, главное – не допускать ошибок при сочетании этих команд.

Закрытие страниц или каталогов 

Если закрывать весь сайт нет необходимости, но нужно скрыть некоторые его разделы или единичные страницы, указываем их адрес с использованием тех же команд.

Для скрытия раздела:

User-agent: *

Disallow: /catalog 

Закрыть индексацию карты сайта:

User-agent: *

Disallow: /sitemap.xml

Далее в примерах индексирование настроено наоборот — с закрытием всего сайта, кроме одного элемента.

Запретить доступ ко всему сайту, кроме одного каталога:

User-agent: *
Disallow: /
Allow: /catalog

Такого простого набора команд достаточно, чтобы настроить работу с поисковыми роботами так, как нужно вебмастеру и контролировать видимость сайта и его частей по необходимости. 

Meta-тег name=»robots»

Команды ботам можно передавать не только через отдельный файл, но и через исходный код. Для этого нужно прописать в коде страницы мета-тег name=»robots». Он считается даже более надежным и приоритетным, так как боты его чаще выполняют.

Внутри блока <head> устанавливается команда:

<meta name=»robots» content=»noindex, nofollow»/>
Другой способ написания:
<meta name=»robots» content=»none»/> 

По такому же принципу, как в файле роботс. тхт, здесь можно указывать конкретного бота, которому запрещена индексация. Для этого вместо тега robots указывается имя бота, например:
<meta name=»yandex» content=»noindex, nofollow»/>

Заключение

В некоторых ситуациях запрет индексирования – необходимая мера, поэтому robots.txt обязательно должен присутствовать в корневой директории. Он позволяет скрыть служебные и временные страницы, закрыть неактуальный контент, который требует замены на свежий, закрыть ссылки, баннеры и всплывающие окна. При внесении значительных изменений и проведении любых технических работ на сайте рекомендуется на время запретить индексирование страниц. Важно понимать, что поисковые роботы воспринимают команды в robots.txt больше как рекомендации. Иногда они действуют в обход указанным правилам, чаще всего так поступают роботы Гугла.

Специалисты веб студии Moeseo грамотно выполнят любые задачи по оптимизации и технической настройке сайта. Поэтому заказать продвижение сайта у нас будет правильным и эффективным решением.

Автор: Начальник отдела Seo продвижения Русаков Николай

seo — Как удалить сайт из индекса Google после обновления robots.txt?

спросил

Изменено 2 года, 8 месяцев назад

Просмотрено 237 раз

Я отправил свой сайт в Google, но изначально у меня не было файла robots.txt. Несколько дней спустя я добавил файл robots.txt, запрещающий некоторые страницы, но эти страницы все еще находятся в индексе, например. когда я делаю запрос site:domain.com Я все еще вижу эти страницы. Как я могу заставить Google удалить те страницы, которые я только что добавил в robots.txt?

  • поисковая оптимизация
  • google
  • консоль поиска google

1

Вы можете немедленно и временно удалить URL-адрес из индекса с помощью инструмента удаления Google.

Чтобы навсегда исключить его из индекса, добавьте html-тег noindex или заголовок http.

НЕ блокировать страницу с robots.txt , так как это не предотвращает индексацию, а только предотвращает сканирование. Согласно гуглу:

Если ваша страница по-прежнему отображается в результатах, возможно, это связано с тем, что мы не сканировали ваш сайт с тех пор, как вы добавили тег. Вы можете запросить у Google повторное сканирование вашей страницы с помощью инструмента «Просмотреть как Google».

Другая причина может заключаться в том, что ваш файл robots.txt блокирует этот URL-адрес от поисковых роботов Google, поэтому мы не можем увидеть этот тег.

https://support.google.com/webmasters/answer/93710?hl=en

Правильный и единственный способ — изначально разрешить сканирование страниц (снова удалить страницы из robots.txt ). Установите метатег name="robots" content="noindex,follow" на затронутых страницах. Google снова просканирует страницы и удалит их из индекса через определенное время.

8

Вы также можете выяснить, есть ли какие-либо ссылки, указывающие на страницу, которую вы хотите исключить? Тогда вы можете попробовать загрузить обновлена ​​карта сайта

в вашей учетной записи Google для веб-мастеров. Я ожидаю, что весь процесс займет некоторое время, и быстрым обходным путем будет реализация перенаправления 301 для этой конкретной страницы. Надеюсь это поможет.

3

Зарегистрируйтесь или войдите в систему

Зарегистрируйтесь с помощью Google

Зарегистрироваться через Facebook

Зарегистрируйтесь, используя электронную почту и пароль

Опубликовать как гость

Электронная почта

Требуется, но не отображается

Опубликовать как гость

Электронная почта

Требуется, но не отображается

Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания, политикой конфиденциальности и политикой использования файлов cookie

Google дает сайтам больше контроля над индексированием с помощью нового тега robots

Новый тег robots, называемый indexifembedded , позволяет веб-сайтам указывать Google, какой контент индексировать в результатах поиска.

С помощью этого тега вы можете указать Google индексировать контент на странице только в том случае, если он встроен через iframe и аналогичные HTML-теги.

Тег indexifembedded переопределяет тег noindex.

Это означает, что вы можете использовать noindex, чтобы весь URL-адрес не попадал в результаты поиска, и применять тег indexifembedded, чтобы сделать определенный фрагмент контента индексируемым, когда он встроен в другую веб-страницу.

Google заявляет, что создал этот тег для решения проблемы, затрагивающей издателей СМИ:

«… хотя они могут хотеть, чтобы их контент индексировался, когда он встроен на сторонние страницы, они не обязательно хотят, чтобы их медиа-страницы индексировались сами по себе. ».

Когда использовать тег Indexifembedded

Этот новый тег robots не подходит для многих издателей, поскольку он предназначен для контента, который имеет отдельный URL-адрес для встраивания.

Например, издатель подкаста может иметь веб-страницы, посвященные каждому выпуску подкаста, каждая из которых имеет собственный URL-адрес.

Затем будут URL-адреса, указывающие непосредственно на медиа, которые другие сайты могут использовать для встраивания подкаста на одну из своих страниц.

Такой URL-адрес можно использовать при вставке эпизода подкаста в качестве источника ссылки, как я недавно сделал в статье о сканировании Googlebot.

Создатель подкаста может не захотеть, чтобы URL-адреса мультимедиа индексировались в результатах поиска. Раньше единственным способом не допустить их в поиск Google был тег noindex.

Однако тег noindex предотвращает встраивание содержимого в другие страницы во время индексации. Поэтому, если издатель хотел разрешить встраивание, он также был вынужден индексировать URL-адрес мультимедиа.

Теперь, с тегом indexifembedded, издатели имеют больше контроля над тем, что индексируется.

Тег indexifembedded можно использовать с тегом noindex, и он переопределит его, когда URL-адрес с noindex встраивается в другую страницу через iframe или аналогичный тег HTML.

Google предлагает следующий пример:

«Например, если podcast.host.example/playpage?podcast=12345 имеет теги noindex и indexifembedded, это означает, что Google может встроить контент, размещенный на этой странице, в recipe.site. .example/my-recipes.html во время индексации».

Связанный: Когда использовать Rel Canonical или Noindex …или оба

Как использовать тег Indexifembedded

Существует два способа использования этого нового тега robots.

Чтобы ваш контент индексировался только тогда, когда он встроен в другие страницы, добавьте тег indexifembedded в сочетании с тегом noindex.

См. пример того, как будет выглядеть код на изображении ниже:

Скриншот с сайта: developer.google.com/search/blog/, январь 2022 г.

Кроме того, вы можете указать тег в заголовке HTTP.

На изображении ниже показан пример того, как это должно выглядеть.

Снимок экрана с веб-сайта developer.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *