Как закрыть от индексации страницу: robots.txt, Google meta- – Как и зачем нужно удалять некоторые страницы из индекса

Как закрыть сайт от индексации — Офтоп на vc.ru

Существует несколько способов закрыть сайт от индексации.

Запрет в файле robots.txt

Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В файле должны находиться всего лишь две строчки:

Остальные правила должны быть удалены.

Этот метод самый простой для скрытия сайта от индексации.

С помощью мета-тега robots

Прописав в шаблоне страниц сайта в теге <head> следующее правило

<meta name="robots" content="noindex, nofollow"/>

<meta name="robots" content="none"/>

вы запретите его индексацию.

Как закрыть ссылки и тексты от поисковых систем — SEO на vc.ru

Встречаются такие ситуации, когда требуется закрыть контент от индексации. Это может быть:

  • неуникальный контент;
  • шаблонный текст, встречающийся на всех страницах сайта;
  • ссылки на сторонние ресурсы.

Ссылки (внешние и внутренние)

Закрывать от поисковых систем внешние ссылки необходимо, если вы не хотите, чтобы страница, имеющая ссылку, теряла свой вес.

Это может происходить следующим образом:

  • Удалением внешних ссылок. Рекомендуется убирать внешние ссылки на сторонние ресурсы.
  • Если удалить ссылку нет возможности, то необходимо скрыть ссылку от индексации посредством скрипта так, чтобы в исходном коде страницы не было <a href="" ...></a>, а блок выводился в виде: <div></div>. Далее при формировании страницы скриптом выводилось содержимое данного блока в виде ссылок и прочего. Сам скрипт требуется закрыть от индексации в файле robots.txt.
  • Добавлением атрибута rel="nofollow". Необходимо прописать атрибут rel="nofollow" для внешней ссылки (<a href="" rel="nofollow" target="_blank">текст ссылки</a>).

Помимо внешних ссылок, аналогичное рекомендуют проводить с внутренними ссылками вида добавить в корзину, вход, авторизация, фильтр, сбросить фильтр и т.д. (для всех элементов, которые сверстаны ссылками <a href>, но при этом не ведут на реальные страницы).

Как правильно закрыть сайт от индексирования в Google

Мы увеличиваем посещаемость и позиции в выдаче. Вы получаете продажи и платите только за реальный результат, только за целевые переходы из поисковых систем

Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подпишись на рассылку и получи книгу в подарок!

До сих пор есть люди, которые используют файл robots.txt, чтобы закрыть сайт от индексации в поисковых системах и убрать его из результатов поиска. Объясним, почему файла robots.txt для этих целей недостаточно и что нужно сделать, чтобы страница или домен не появлялись в выдаче.

Самый очевидный способ скрыть нежелательные страницы из поисковой выдачи – закрыть их от индексации с помощью файла robots.txt. Но результат отличается от того, который ждешь: сайты все равно отображаются в поиске. В этой статье Йост де Валк из Yoast объясняет, почему так происходит, и рассказывает, что нужно сделать, чтобы страница или сайт исчезли из выдачи.

Разница между индексированием и показом в результатах поиска Google

Прежде чем объяснить, почему запрет на индексирование сайта не мешает поисковику выводить его в выдаче, вспомним несколько терминов:

  • Индексирование – процесс скачивания сайта или страницы контента на сервер поисковой системы, вследствие которого сайт или страница добавляется в индекс.
  • Ранжирование/ отображение в поиске – отображение сайта среди результатов поиска.

Наиболее распространенное представление о попадании сайта/страницы в результаты поиска выглядит как двухэтапный процесс: индексирование => ранжирование. Но чтобы отображаться в поиске, сайт не обязательно должен индексироваться. Если есть внешняя ссылка на страницу или домен (линк с другого сайта или с индексируемых внутренних страниц), Google перейдет по этой ссылке. Если robots.txt на этом домене препятствует индексированию страницы поисковой системой, Гугл все равно будет выводить URL в выдаче. Он ориентируется на внешние источники, которые содержат ссылку и ее описание. Раньше источником мог быть DMOZ или директория Yahoo. Сегодня я вполне могу представить, что Google использует, например, ваш профиль в My Business или данные из других сайтов.

Если написанное выше кажется вам бессмысленным, посмотрите видео с объяснением Мэтта Каттса.

Адаптация видео:

Пользователи часто жалуются на то, что Google игнорирует запрет на индексирование страницы в robots.txt и все равно показывает ее в результатах выдачи. Чаще всего происходит следующее: когда некто отправляет роботу сигнал на запрет индексирования страницы, она появляется в поиске с необычным сниппетом – без текстового описания. Причина: краулеры не сканировали страницу. Они видели только упоминание URL. Именно потому что роботы видели ссылку, а не саму страницу, в выдаче пользователям предлагается сниппет без дескрипшна. Обратимся к примеру.

В какой-то момент California Department of Motor Vehicles, домен www.dmv.ca.gov, заблокировала все поисковые системы с помощью robots.txt. Но если пользователь ищет информацию по запросу California DMV, есть только один релевантный ответ, который поисковик должен предложить пользователю. Несмотря на robots.txt, который говорит роботу, что он не должен сканировать страницу, краулер видит, что многие сайты ссылаются на определенную страницу, используя анкоры с текстом California DMV. Роботы понимают, что эта страница – результат, наиболее релевантный запросу пользователя. Поэтому они показывают результат в выдаче даже без сканирования страницы. Желание предоставить пользователю результат, наиболее релевантный запросу, может быть единственной причиной, по который Google выводит в результатах поиска страницы, не сканированные краулерами.

Еще один пример – сайт Nissan. Долгое время Nissan использовал robots.txt для запрета индексирования всех страниц. Но мы обнаружили сайт и его описание в открытом каталоге DMOZ. Поэтому когда пользователи получали ссылку на сайт среди результатов, они видели такой же сниппет, как и у обычных страниц, которые были просканированы краулерами. Но этот сниппет был составлен не на основе результатов сканирования. Он был создан из информации DMOZ.

В итоге: Google может показать что-то, что считает полезным пользователю, без нарушения запрета на сканирование в robots.txt.

Если вы не хотите, чтобы страница отображалась в поиске, позвольте роботам просканировать страницу, а затем используйте атрибут noindex. Когда робот видит тег «noindex», он выбрасывает страницу изо всех поисковых результатов. Страница не появляется в поиске, даже если на нее ссылаются другие сайты.

Другой вариант – использовать инструмент удаления URL. Блокируйте сайт полностью в robots.txt, а после используйте инструмент удаления URL.

Что получается: закрывая сайт от сканирования, вы лишаете краулеров возможности узнать, что запретили отображение сайта в поисковой системе.

Поэтому:

Чтобы запретить появление сайта в результатах поиска, вам нужно позволить краулерам Google просканировать страницу.

Это может выглядеть противоречиво. Но только так вы сможете скрыть сайт в результатах поиска.

Как запретить отображение страницы в результатах поиска

С помощью добавления метатега robots

Первый вариант запрета показа страницы в Google – использование метатега robots. Вам нужно добавить этот тэг на свою страницу:

Проблема с тэгом в том, что его нужно будет добавить на каждую страницу.

Ирина Винниченко

Контент-маркетолог SEMANTICA


Есть еще одна проблема – с помощью метатега robots можно скрывать только html-документы. Это значит, что метатег нельзя применить для документов в формате pdf, doc, xml, а также для аудио и видео контента. Чтобы скрыть документы не в html, нужно использовать файл robots.txt. Что замыкает круг. Потому что эти документы могут появиться в выдаче.

Использовать X-Robots-Tag HTTP header

Добавлять метатег robots к каждой странице сайта сложно. Упрощает задачу X-Robots-Tag HTTP header. С его помощью можно управлять индексированием сайта и его показом в результатах поиска. Так, вы можете установить директиву noindex и nofollow. Noindex – запрет на отображение страницы и сохраненной копии в результатах поиска, nofollow – запрет на переход по ссылкам на этой странице.

Почему X-Robots-Tag HTTP header крут:

  • Закрывает от попадания в поиск все файлы – как html, так и pdf, doc, xml.
  • Не нужно обрабатывать каждую страницу, можно сразу скрыть из результатов поиска весь сайт.

Если ваш сайт на базе Apache, и mod_headers недоступны, в корневой файл .htaccess добавьте фрагмент кода:

Таким образом ваш сайт будет индексироваться. Но не появятся в результатах поиска.

Чтобы убрать сайт из поиска, не используйте robots.txt. Вместо этого используйте X-Robots-Tag или метатег robots.

Выжимка

  • robots.txt закрывает сайт от индексирования, но сайт все равно может появиться в результатах поиска.
  • Чтобы скрыть страницы или сайт из поиска, используйте метатег robots или X-Robots-Tag HTTP header.
  • Метатег robots нужно добавлять на каждую страницу, которую хотите скрыть, по отдельности. Его можно использовать только для html-документов.
  • X-Robots-Tag HTTP header позволяет скрыть из результатов поиска сразу весь сайт. Его можно использовать как для скрытия html-документов, так и файлов других форматов – pdf, doc, xml.
  • Не нужно запрещать сканирование страницы файлом robots.txt. Если сканирование будет запрещено, краулеры не увидят директивы относительно индексирования и отображения в поиске. Значит, они не выполнят директивы, и сайт появится в выдаче.

Оригинал статьи.

Какие страницы надо закрывать от индексации — Офтоп на vc.ru

Из-за особенностей CMS и ошибок, допущенных при разработке сайта, появляются страницы, которые необходимо скрывать от индексации:

  • С GET-параметрами (фильтрация, сортировка, поиск, сравнение товаров). Такие страницы не уникальны, на них дублируется контент и мета-теги, поэтому они являются некачественными для поисковых систем и их необходимо скрывать от индексации.
  • Пользовательские (личный кабинет, регистрация, авторизация, оформление заказа). Эти страницы бесполезны для продвижения, так как они никогда не станут источником поискового трафика.
  • Системные каталоги и файлы.
  • «Мусорные» страницы сайта.

Какие страницы закрывать от индексации не надо

  • Иногда на сайте появляются страницы-дубликаты. Например: ошибочное создание дублирующихся категорий, привязка товаров к нескольким категориям и их доступность по различным адресам или выставление дублированной статьи. В таких случаях закрывать от индексации страницы не надо. Сначала оцените каждую такую страницу: объем трафика, который она принесла, количество внешних ссылок на эту страницу. После анализа данных настройте 301 редиректы с малоэффективных страниц на эффективные, и удалите первые.
  • Страницы пагинации в каталоге товаров и прочих разделах, предварительно настроив автоформирование уникальных мета-тегов title, description и keywords.
  • Страницы смарт-фильтра. Умный фильтр позволит увеличить объем поискового трафика благодаря низкочастотным запросам. Главное, правильно настроить мета-теги, отдачу 404 ошибки для пустых страниц и карту сайта для полученных страниц смарт-фильтра.

Ждите новые заметки в блоге или ищите на нашем сайте.

Материал опубликован пользователем.
Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать

Отправить ответ

avatar
  Подписаться  
Уведомление о