Настройка индексирования. Какие страницы закрывать от поисковых роботов и как это лучше делать
Статья из блога АРТИЗАН-ТИМ.
Каким бы продуманным не был сайт, он всегда будет иметь страницы, нежелательные для индексации. Обработка таких документов поисковыми роботами снижает эффект SEO-оптимизации и может ухудшать позиции сайта в выдаче. В профессиональном лексиконе оптимизаторов за такими страницами закрепилось название «мусорные». На наш взгляд этот термин не совсем корректный, и вносит путаницу в понимание ситуации.
Мусорными страницами уместнее называть документы, не представляющие ценности ни для пользователей, ни для поисковых систем. Когда речь идет о таком контенте, нет смысла утруждаться с закрытием, поскольку его всегда легче просто удалить. Но часто ситуация не столь однозначна: страница может быть полезной с т.з. пользовательского опыта и в то же время нежелательной для индексации. Называть подобный документ «мусорным» — неправильно.
Такое бывает, например, когда разные по содержанию страницы создают для поисковиков иллюзию дублированного контента. Попав в индекс такой «псевдодубль» может привести к сложностям с ранжированием. Также некоторые страницы закрывают от индексации с целью рационализации краулингового бюджета. Количество документов, которые поисковики способны просканировать на сайте, ограниченно определенным лимитом. Чтобы ресурсы краулеров тратились исключительно на важный контент, и он быстрее попадал в индекс, устанавливают запрет на обход неприоритетных страниц.
Как закрыть страницы от индексации: три базовых способа
Добавление метатега Robots
Наличие атрибута noindex в html-коде документа сигнализирует поисковым системам, что страница не рекомендована к индексации, и ее необходимо изъять из результатов выдачи. В начале html-документа в блоке <head> прописывают метатег:
Эта директива воспринимается краулерами обеих систем — страница будет исключена из поиска как в Google, так и в «Яндексе» даже если на нее проставлены ссылки с других документов.
Варианты использования метатега Robots
Закрытие в robots.txt
Закрыть от индексации отдельные страницы или полностью весь сайт (когда это нужно — мы поговорим ниже) можно через служебный файл robots.txt. Прописав в нем одну из директив, поисковым системам будет задан рекомендуемый формат индексации сайта. Вот несколько основных примеров использования robots.txt
Запрет индексирования сайта всеми поисковыми системами:
User-agent: *
Disallow: /
Закрытие обхода для одного поисковика (в нашем случае «Яндекса»):
User-agent: Yandex
Disallow: /
Запрет индексации сайта всеми поисковыми системами, кроме одной:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
Закрытие от индексации конкретной страницы:
User-agent: *
Disallow: / #частичный или полный URL закрываемой страницы
Отдельно отметим, что закрытие страниц через метатег Robots и файл robots.txt — это лишь рекомендации для поисковых систем. Оба этих способа не дают стопроцентных гарантий, что указанные документы не будут отправлены в индекс.
Настройка HTTP-заголовка X-Robots-Tag
Указать поисковикам условия индексирования конкретных страниц можно через настройку HTTP-заголовка X-Robots-Tag для определенного URL на сервере вашего сайта.
Заголовок X-Robots-Tag запрещает индексирование страницы
Что убирать из индекса?
Рассмотрев три основных способа настройки индексации, теперь поговорим о том, что конкретно нужно закрывать, чтобы оптимизировать краулинг сайта.
Документы PDF, DOC, XLSНа многих сайтах помимо основного контента присутствуют файлы с расширением PDF, DOC, XLS. Как правило, это всевозможные договора, инструкции, прайс-листы и другие документы, представляющие потенциальную ценность для пользователя, но в то же время способные размывать релевантность страницы из-за попадания в индекс большого объема второстепенного контента. В некоторых случаях такой документ может ранжироваться лучше основной страницы, занимая в поиске более высокие позиции. Именно поэтому все объекты с расширением PDF, DOC, XLS целесообразно убирать из индекса. Удобнее всего это делать в robots.txt.
Страницы с версиями для печатиСтраницы с текстом, отформатированным под печать — еще один полезный пользовательский атрибут, который в то же время не всегда однозначно воспринимается поисковиками. Такие документы часто распознаются краулерами как дублированный контент, оказывая негативный эффект для продвижения. Он может выражаться во взаимном ослаблении позиций страниц и нежелательном перераспределении ссылочного веса с основного документа на второстепенный. Иногда поисковые алгоритмы считают такие дубли более релевантными, и вместо основной страницы в выдаче отображают версию для печати, поэтому их уместно закрывать от индексации.
Страницы пагинацииНужно ли закрывать от роботов страницы пагинации? Данный вопрос становится камнем преткновения для многих оптимизаторов в первую очередь из-за диаметрально противоположных мнений на этот счет. Постраничный вывод контента на страницах листинга однозначно нужен, поскольку это важный элемент внутренней оптимизации. Но в необработанном состоянии страницы пагинации могут восприниматься как дублированный контент со всеми вытекающими последствиями для ранжирования.
Первый подход к решению этой проблемы — настройка метатега Robots. С помощью noindex, follow из индекса исключают все страницы пагинации кроме первой, но не запрещают краулерам переходить по ссылкам внутри них. Второй вариант обработки не предусматривает закрытия страниц. Вместо этого настраивают атрибуты rel=”canonical”, rel=”prev” и rel=”next”. Опыт показывает, что оба этих подхода имеют право на жизнь, хотя в своей практике мы чаще используем первый вариант.
Страницы служебного пользованияТехнические страницы, предназначенные для административного использования, также целесообразно закрывать от индексации. Например, это может быть форма авторизации для входа в админку или другие служебные страницы. Удобнее всего это делать через директиву в robots.txt. Документы, к которым необходимо ограничить доступ, можно указывать списком, прописывая каждый с новой строки.
Директива в robots.txt на запрет индексации всеми поисковиками нескольких страниц
Формы и элементы для зарегистрированных пользователейРечь идет об элементах, которые ориентированы на уже существующих клиентов, но не представляют ценности для остальных пользователей. К ним относят: страницы регистрации, формы заявок, корзину, личный кабинет и т.д. Индексацию таких элементов целесообразно ограничить как минимум из соображений оптимизации краулингового бюджета. На сайтах электронной коммерции отдельное внимание уделяют закрытию страниц, содержащих персональные данные клиентов.
Закрытие сайта во время технических работСоздавая сайт с нуля или проводя его глобальную реорганизацию, например перенося на новую CMS, желательно разворачивать проект на тестовом сервере и закрывать его от сканирования всеми поисковыми системами в robots.txt. Это уменьшит риск попадания в индекс ненужных документов и другого тестового мусора, который в дальнейшем сможет навредить поисковому продвижению сайта.
Заключение
Настройка индексирования отдельных страниц — важный компонент поисковой оптимизации. Вне зависимости от технических особенностей каждый сайт имеет документы, нежелательные для попадания в индекс. Какой контент лучше скрывать от роботов и как это делать в каждом конкретном случае — мы подробно рассказали выше. Придерживаясь этих рекомендаций, вы оптимизируете ресурсы поисковых краулеров, обеспечите быстрые и эффективные обходы приоритетных страниц, и что самое важное — обезопаситесь от возможных проблем с ранжированием.
Читайте по теме:
Как оптимизировать страницы категорий онлайн-магазинов?
SEO-оптимизация главной страницы интернет-магазина. Подробное руководство
Запрет индексации сайта поисковыми системами. Самостоятельно проверяем и меняем файл robots.txt. Зачем закрывать сайт от индексации?
Зачем закрывать сайт от индексации? Проверяем и меняем файл robots.txt самостоятельно.
Ответ
Для закрытия всего сайта от индексации во всех поисковых системах необходимо в файле robots.txt прописать следующую директиву:
Disallow: /
Далее, подробнее разберемся в вопросе подробнее и ответим на другие вопросы:
- Процесс индексации что это?
- Зачем закрывать сайт от индексации?
- Инструкции по изменению файла robots.txt
- Проверка корректности закрытия сайта от индексации
- Альтернативные способы закрыть сайт от поисковых систем
Оглавление
Процесс индексации
Индексация сайта – это процесс добавления данных вашего ресурса в индексную базу поисковых систем. Ранее мы подробно разбирали вопрос индексации сайта в Яндекс и Google.
Именно в этой базе и происходит поиск информации в тот момент, когда вы вводите любой запрос в строку поиска:
Если сайта нет в индексной базе поисковой системе = тогда сайте нет и в поисковой выдаче. Его невозможно будет найти по поисковым запросам.
В каких случаях может потребоваться исключать сайт из баз поисковых систем?
Зачем закрывать сайт от индексации
Причин, по которым необходимо скрыть сайт от поисковых систем может быть множество. Мы не можем знать личных мотивов всех вебмастеров. Давайте выделим самые основные объективные причины, когда закрытие сайта от индексации оправданно.
Сайт еще не готов
Ваш сайт пока не готов для просмотра целевой аудиторией. Вы находитесь в стадии разработки (или доработки) ресурса. В таком случае его лучше закрыть от индексации. Тогда сырой и недоработанный ресурс не попадет в индексную базу и не испортит «карму» вашему сайту. Открывать сайт лучше после его полной готовности и наполненности контентом.
Сайт узкого содержания
Ресурс предназначен для личного пользования или для узкого круга посетителей. Он не должен быть проиндексирован поисковыми системами. Конечно, данные такого ресурса можно скрыть под паролем, но это не всегда необходимо. Часто, достаточно закрыть его от индексации и избавить от переходов из поисковых систем случайных пользователей.
Переезд сайта или аффилированный ресурс
Вы решили изменить главное зеркало сайта. Мы закрываем от индексации старый домен и открываем новый. При этом меняем главное зеркало сайта. Возможно у Вас несколько сайтов по одной теме, а продвигаете вы один, главный ресурс.
Стратегия продвижения
Возможно, Ваша стратегия предусматривает продвижение ряда доменов, например, в разных регионах или поисковых системах. В этом случае, может потребоваться закрытие какого-либо домена в какой-либо поисковой системе.
Другие мотивы
Закрываем сайт от индексации в robots.txt
Обращение к Вашему сайту поисковой системой начинается с прочтения содержимого файла robots.txt. Это служебный файл со специальными правилами для поисковых роботов.
Подробнее о директивах robots.txt:
Самый простой и быстрый способ это при первом обращении к вашему ресурсу со стороны поисковых систем (к файлу robots.txt) сообщить поисковой системе о том, что этот сайт закрыт от индексации. В зависимости от задач, сайт можно закрыть в одной или нескольких поисковых системах. Вот так:
Закрыть во всех системах | Закрыть только в Яндекс | Закрыть только в Google |
User-agent: * Disallow: / | User-agent: Yandex Disallow: / | User-agent: Googlebot Disallow: / |
Инструкция по изменению файла robots.txt
Мы не ставим целью дать подробную инструкцию по всем способам подключения к хостингу или серверу, укажем самый простой способ на наш взгляд.
Файл robots.txt всегда находится в корне Вашего сайта. Например, robots.txt сайта iqad.ru будет находится по адресу:
https://iqad.ru/robots.txt
Для подключения к сайту, мы должны в административной панели нашего хостинг провайдера получить FTP (специальный протокол передачи файлов по сети) доступ: <ЛОГИН> И <ПАРОЛЬ>.
Авторизуемся в панели управления вашим хостингом и\или сервером, находим раздел FTP и создаем ( получаем ) уникальную пару логин \ пароль.В описании раздела или в разделе помощь, необходимо найти и сохранить необходимую информацию для подключения по FTP к серверу, на котором размещены файлы Вашего сайта. Данные отражают информацию, которую нужно указать в FTP-клиенте:
- Сервер (Hostname) – IP-адрес сервера, на котором размещен Ваш аккаунт
- Логин (Username) – логин от FTP-аккаунта
- Пароль (Password) – пароль от FTP-аккаунта
- Порт (Port) – числовое значение, обычно 21
Далее, нам потребуется любой FTP-клиент, можно воспользоваться бесплатной программой filezilla (https://filezilla.ru/). Вводим данные в соответствующие поля и нажимаем подключиться.
FTP-клиент filezilla интуитивно прост и понятен: вводим cервер (host) + логин (имя пользователя) + пароль + порт и кнопка {быстрое соединение}. В поле справа находим файл robots.txt и изменяем его. Не забудьте сохранить изменения.После подключения прописываем необходимые директивы. См.
раздел:
Закрываем сайт от индексации в robots.txt
Проверка корректности закрытия сайта от индексации
После того, как вы внесли все необходимые коррективы в файл robots.txt необходимо убедится в том, что все сделано верно. Для этого открываем файл robots.txt на вашем сайте.
Инструменты iqadВ арсенале команды IQAD есть набор бесплатных инструментов для SEO-оптимизаторов. Вы можете воспользоваться бесплатным сервисом просмотра файла robots.txt:
Проверить индексацию
СамостоятельноОткрыть самостоятельно, файл находится корне Вашего сайта, по адресу:
www.site.ru/robots.txt
Где www.site.ru – адрес Вашего сайта.
Сервис Я.ВЕБМАСТЕРБесплатный сервис Я.ВЕБМАСТЕР – анализ robots.txt.
Бесплатный сервис ЯНДЕКС.ВЕБМАСТЕР проверит ваш robots.txt, покажет какими секциями Вашего файла пользуется поисковая система Яндекс:
Так же, в сервисе можно проверить запрещена ли та или иная страница вашего сайта к индексации:
Достаточно в специальное поле внести интересующие Вас страницы и ниже отобразится результат.Альтернативные способы закрыть сайт от поисковых систем
Помимо классического способа с использованием файла robots.txt можно прибегнуть и к другим, не стандартным, подходам. Однако у них есть ряд недостатков.
- Вы можете отдавать поисковым роботам отличный от 200 код ответа сервера. Но это не гарантирует 100% исключения сайта из индекса. Какое-то время робот может хранить копию Ваших страниц и отдавать именно их.
- С помощью специального meta тега: <meta name=”robots”>
<meta name=”robots” content=”noindex, nofollow”>
Но так как метатег размещается и его действие относиться только к 1 странице, то для полного закрытия сайта от индексации Вам придется разместить такой тег на каждой странице Вашего сайта.
Недостатком этого может быть несовершенство поисковых систем и проблемы с индексацией ресурса. Пока робот не переиндексирует весь сайт, а на это может потребоваться много времени, иногда несколько месяцев, часть страниц будет присутствовать в поиске.
- Использование технологий, усложняющих индексацию Вашего сайта. Вы можете спрятать контент Вашего сайта под AJAX или скриптами. Таким образом поисковая система не сможет увидеть контент сайта. При этом по названию сайта или по открытой части в индексе поисковиков может что-то хранится. Более того, уже завра новое обновление поисковых роботов может научится индексировать такой контент.
- Скрыть все данные Вашего сайта за регистрационной формой. При этом стартовая страница в любом случае будет доступна поисковым роботам.
Заключение
Самым простым способом закрыть сайт от индексации, во всех поисковых системах, необходимо в файле robots.txt прописать следующую директиву:
Disallow: /
«robots.txt» это служебный файл со специальными правилами для поисковых роботов.
Файл robots.txt всегда находится в корне Вашего сайта. Для изменения директив файла Вам потребуется любой FTP-клиент.
Помимо классического способа с использованием файла robots.txt можно прибегнуть и к другим, не стандартным, подходам. Однако у них есть ряд недостатков. Для проверки текущих директив Вашего сайта предлагаем воспользоваться бесплатным сервисом просмотра файла robots.txt:
Проверить индексацию
Запрет индексации в robots.txt | REG.RU
Чтобы убрать весь сайт или отдельные его разделы и страницы из поисковой выдачи Google, Яндекс и других поисковых систем, их нужно закрыть от индексации. Тогда контент не будет отображаться в результатах поиска. Рассмотрим, с помощью каких команд можно выполнить в файле robots.txt запрет индексации.
Зачем нужен запрет индексации сайта через robots.txt
Первое время после публикации сайта о нем знает только ограниченное число пользователей. Например, разработчики или клиенты, которым компания прислала ссылку на свой веб-ресурс. Чтобы сайт посещало больше людей, он должен попасть в базы поисковых систем.
Чтобы добавить новые сайты в базы, поисковые системы сканируют интернет с помощью специальных программ (поисковых роботов), которые анализируют содержимое веб-страниц. Этот процесс называется индексацией.
После того как впервые пройдет индексация, страницы сайта начнут отображаться в поисковой выдаче. Пользователи увидят их в процессе поиска информации в Яндекс и Google — самых популярных поисковых системах в рунете. Например, по запросу «заказать хостинг» в Google пользователи увидят ресурсы, которые содержат соответствующую информацию:
Однако не все страницы сайта должны попадать в поисковую выдачу. Есть контент, который интересен пользователям: статьи, страницы услуг, товары. А есть служебная информация: временные файлы, документация к ПО и т. п. Если полезная информация в выдаче соседствует с технической информацией или неактуальным контентом — это затрудняет поиск нужных страниц и негативно сказывается на позиции сайта. Чтобы «лишние» страницы не отображались в поисковых системах, их нужно закрывать от индексации.
Кроме отдельных страниц и разделов, веб-разработчикам иногда требуется убрать весь ресурс из поисковой выдачи. Например, если на нем идут технические работы или вносятся глобальные правки по дизайну и структуре. Если не скрыть на время все страницы из поисковых систем, они могут проиндексироваться с ошибками, что отрицательно повлияет на позиции сайта в выдаче.
Для того чтобы частично или полностью убрать контент из поиска, достаточно сообщить поисковым роботам, что страницы не нужно индексировать. Для этого необходимо отключить индексацию в служебном файле robots.txt. Файл robots.txt — это текстовый документ, который создан для «общения» с поисковыми роботами. В нем прописываются инструкции о том, какие страницы сайта нельзя посещать и анализировать, а какие — можно.
Прежде чем начать индексацию, роботы обращаются к robots.txt на сайте. Если он есть — следуют указаниям из него, а если файл отсутствует — индексируют все страницы без исключений. Рассмотрим, каким образом можно сообщить поисковым роботам о запрете посещения и индексации страниц сайта. За это отвечает директива (команда) Disallow.
Как запретить индексацию сайта
О том, где найти файл robots.txt, как его создать и редактировать, мы подробно рассказали в статье. Если кратко — файл можно найти в корневой папке. А если он отсутствует, сохранить на компьютере пустой текстовый файл под названием robots.txt и загрузить его на хостинг. Или воспользоваться плагином Yoast SEO, если сайт создан на движке WordPress.
Чтобы запретить индексацию всего сайта:
-
1.
Откройте файл robots.txt.
-
2.
Добавьте в начало нужные строки.
- Чтобы закрыть сайт во всех поисковых системах (действует для всех поисковых роботов):
User-agent: * Disallow: /
- Чтобы запретить индексацию в конкретной поисковой системе (например, в Яндекс):
User-agent: Yandex Disallow: /
- Чтобы закрыть от индексации для всех поисковиков, кроме одного (например, Google)
User-agent: * Disallow: / User agent: Googlebot Allow: /
-
3.
Сохраните изменения в robots.txt.
Готово. Ресурс пропадет из поисковой выдачи выбранных ПС.
Запрет индексации папки
Гораздо чаще, чем закрывать от индексации весь веб-ресурс, веб-разработчикам требуется скрывать отдельные папки и разделы.
Чтобы запретить поисковым роботам просматривать конкретный раздел:
-
1.
Откройте robots.txt.
-
2.
Укажите поисковых роботов, на которых будет распространяться правило. Например:
- Все поисковые системы:
— Запрет только для Яндекса:
-
3.
Задайте правило Disallow с названием папки/раздела, который хотите запретить:
Где вместо catalog — укажите нужную папку.
-
4.
Сохраните изменения.
Готово. Вы закрыли от индексации нужный каталог. Если требуется запретить несколько папок, последовательно пропишите для каждой директиву Disallow.
Как закрыть служебную папку wp-admin в плагине Yoast SEOКак закрыть страницу от индексации в robots.txt
Если нужно закрыть от индексации конкретную страницу (например, с устаревшими акциями или неактуальными контактами компании):
-
1.
Откройте файл robots.txt на хостинге или используйте плагин Yoast SEO, если сайт на WordPress.
-
2.
Укажите, для каких поисковых роботов действует правило.
-
3.
Задайте директиву Disallow и относительную ссылку (то есть адрес страницы без домена и префиксов) той страницы, которую нужно скрыть. Например:
User-agent: * Disallow: /catalog/page.html
Где вместо catalog — введите название папки, в которой содержится файл, а вместо page.html — относительный адрес страницы.
-
4.
Сохраните изменения.
Готово. Теперь указанный файл не будет индексироваться и отображаться в результатах поиска.
Помогла ли вам статья? 4
раза уже
помогла
Как Закрыть Сайт от Индексации Поисковых Машин в WordPress
ВведениеНеобычная тема, правда? Когда вы только начинаете свой блог, все чего вы хотите, это трафик на ваш сайт и появление страниц вашего сайта в Google. Тогда зачем кому-то пытаться закрыть сайт от индексации поисковых машин?
Для чего может понадобится закрыть сайт для индексации поисковых машин?
К примеру, вы только начали создание сайта и начинаете вносить изменения на нем напрямую. На этом этапе ваш сайт и контент на нем не такой, который вы хотели бы показывать другим. Следовательно, вы захотите закрыть сайт от индексации Google до тех пор, пока сайт не будет полностью готов для посетителей.
Вы могли подумать, что только начали работу над сайтом и не предоставили необходимые ссылки для работы поисковых машин, однако, вы ошибаетесь. Поисковые системы работают не только по ссылкам, которые вы предоставляете для индексации, они также работают на основе контента вашего сайта. Но не беспокойтесь, закрыть ваш сайт от индексации очень легко.
Так как же это сделать? Есть несколько советов для достижения этой цели. Ознакомьтесь с данным руководством, чтобы узнать, как закрыть сайт от индексации на WordPress.
Шаг 1 — Закрытие сайта от индексации поисковых систем в WordPressСамый легкий способ для закрытия сайта от индексации, это предотвращение его сканирования:
Метод 1 — Как закрыть сайт от индексации при помощи функций на сайте WordPressУдалить WordPress сайт из поисковых систем довольно легко, все что вам нужно сделать, это использовать встроенную функцию WordPress для предотвращения сканирования сайта:
- Войдите в вашу панель управления администратора, нажмите Настройки и выберите Чтение.
- Здесь вы найдете опцию под названием Видимость для поисковых систем. Поставьте галочку напротив Попросить поисковые системы не индексировать сайт. После ее включения, WordPress отредактирует файл robots.txt с новыми правилами предотвращающими сканирование и индексацию вашего сайта.
- Нажмите кнопку Сохранить изменения для применения изменений.
Если вы предпочитаете делать все вручную, вы можете добиться аналогичного результата отредактировав данный файл:
- Используйте Файловый Менеджер или FTP-клиент для доступа к файлам вашего сайта.
- Найдите файл robots.txt. Он должен быть расположен в той же папке, что и сам WordPress (обычно в папке public_html), если вы не можете найти его, создайте пустой файл.
- Введите следующий синтаксис, чтобы закрыть сайт от индексации поисковых систем:
User-agent: * Disallow: /
Код сверху используется для предотвращения одновременно и сканирования, и индексации вашего сайта. Данный код в файле robots.txt является сигналом для поисковых систем о запрете сканирования сайта.
Шаг 2 — Защита вашего сайта WordPress паролемПоисковые системы и поисковые роботы не имеют доступа к файлам защищенных паролем. Защитить свои файлы паролем можно следующими методами:
Метод 1 — Защита паролем вашего сайта с помощью контрольной панели вашего хостингаЕсли вы являетесь клиентом Hostinger, функция защиты паролем может быть легко включена с помощью инструмента под названием Защита Папок Паролем:
- Войдите в контрольную панель Hostinger и нажмите иконку Защита Папок Паролем.
- В левой части выберите каталоги, которые хотите защитить. В нашем случае WordPress установлен в public_html.
- После выбора каталога, введите имя пользователя и пароль в правой панели и нажмите кнопку Защитить.
Если вы используете cPanel, процесс довольно схож:
- Войдите в вашу учетную запись cPanel и нажмите Конфиденциальность каталога.
- Выберите папку в которой установлен WordPress. Обычно это public_html.
- Затем выберите опцию Защитить этот каталог паролем. Далее введите имя каталога, который хотите защитить. Нажмите кнопку Сохранить. Используя форму, создайте учетную запись пользователя для доступа к защищенным каталогам. После завершения нажмите кнопку Сохранить.
Вы также можете установить плагины для достижения такого же результата. Существуют различные плагины, которые могут вам в этом помочь. Среди них можно назвать: Password Protected Plugin, WordFence и множество других. Выберите самый свежий плагин и установите его, как только он будет установлен, перейдите в настройки плагина и установите пароль для сайта. Когда ваш сайт станет защищен паролем, поисковые системы не смогут получить к нему доступ и следовательно проиндексировать его.
Шаг 3 — Удаление уже индексированных страниц из GoogleДаже если ваш сайт уже был проиндексирован, вы все равно можете попытаться удалить его из Google следуя данным шагам:
- Настройте Google Search Console на вашем сайте.
- Войдите в Search Console, выберите только что добавленный сайт и нажмите на Индекс Google → Удалить URL-адреса.
- В новом окне выберите Временно скрыть, далее впишите адрес страницы и нажмите Продолжить.
Google временно удалит URL из результатов поиска. Убедитесь в том, что выполнили действия из Шага 1 и закрыли сайт WordPress от повторной индексации Google.
ЗаключениеКакая бы ни была у вас причина для контроля поисковых систем, закончив данное руководство вы узнали, как закрыть сайт от индексации поисковыми системами. Несмотря на то, что некоторые из способов не приносят 100% гарантии, они непременно послужат цели.
Как закрыть контент от индексации — пошаговое руководство
Иногда возникают такие ситуации, когда нужно Закрыть от индексации часть контента. Пример такой ситуации мы рассматривали здесь.
Также, иногда нужно:
- Скрыть от поиска техническую информацию
- Закрыть от индекса не уникальный контент
- Скрыть сквозной,повторяющийся внутри сайта, контент
- Закрыть мусорные страницы, которые нужны пользователям, но для робота выглядят как дубль
Постараемся в данной статье максимально подробно расписать инструменты при помощи которых можно закрывать контент от индексации.
Закрываем от индексации домен/поддомен:
Для того, чтобы закрыть от индексации домен, можно использовать:
1. Robots.txt
В котором прописываем такие строки.
User-agent: *
Disallow: /
При помощи данной манипуляции мы закрываем сайт от индексации всеми поисковыми системами.
При необходимости Закрыть от индексации конкретной поисковой системой, можно добавить аналогичный код, но с указанием Юзерагента.
User-agent: yandex
Disallow: /
Иногда, же бывает нужно наоборот открыть для индексации только какой-то конкретной ПС. В таком случае нужно составить файл Robots.txt в таком виде:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /
Таким образом мы позволяем индексировать сайт только однайо ПС. Однако минусом есть то, что при использовании такого метода, все-таки 100% гарантии не индексации нет. Однако, попадание закрытого таким образом сайта в индекс, носит скорее характер исключения.
Для того, чтобы проверить корректность вашего файла Robots.txt можно воспользоваться данным инструментом просто перейдите по этой ссылке http://webmaster.yandex.ru/robots.xml.
Статья в тему: Robots.txt — инструкция для SEO
2. Добавление Мета-тега Robots
Также можно закрыть домен от индексации при помощи Добавления к Код каждой страницы Тега:
META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»
Куда писать META-тег “Robots”
Как и любой META-тег он должен быть помещен в область HEAD HTML страницы:
Данный метод работает лучше чем Предыдущий, темболее его легче использовать точечно нежели Вариант с Роботсом. Хотя применение его ко всему сайту также не составит особого труда.
3. Закрытие сайта при помощи .htaccess
Для Того, чтобы открыть доступ к сайту только по паролю, нужно добавить в файл .htaccess, добавляем такой код:
После этого доступ к сайту будет возможен только после ввода пароля.
Защита от Индексации при таком методе является стопроцентной, однако есть нюанс, со сложностью просканить сайт на наличие ошибок. Не все парсеры могут проходить через процедуру Логина.
Закрываем от индексации часть текста
Очень часто случается такая ситуация, что необходимо закрыть от индексации Определенные части контента:
- меню
- текст
- часть кода.
- ссылку
Скажу сразу, что распространенный в свое время метод при помощи тега <noindex> не работает.
<noindex>Тут мог находится любой контент, который нужно было закрыть</noindex>
Однако существует альтернативный метод закрытия от индексации, который очень похож по своему принципу, а именно метод закрытия от индексации при помощи Javascript.
Закрытие контента от индексации при помощи Javacascript
При использовании данного метода текст, блок, код, ссылка или любой другой контент кодируется в Javascript, а далее Данный скрипт закрывается от индексации при помощи Robots.txt
Такой Метод можно использовать для того, чтобы скрыть например Меню от индексации, для лучшего контроля над распределением ссылочного веса. К примеру есть вот такое меню, в котором множество ссылок на разные категории. В данном примере это — порядка 700 ссылок, если не закрыть которые можно получить большую кашу при распределении веса.
Данный метод гугл не очень то одобряет, так-как он всегда говорил, что нужно отдавать одинаковый контент роботам и пользователям. И даже рассылал письма в средине прошлого года о том, что нужно открыть для индексации CSS и JS файлы.
Подробнее об этом можно почитать тут.
Однако в данный момент это один из самых действенных методов по борьбе с индексацией нежелательного контента.
Точно также можно скрывать обычный текст, исходящие ссылки, картинки, видео материалы, счетчики, коды. И все то, что вы не хотите показывать Роботам, или что является не уникальным.
Как закрыть от индексации конкретную страницу:
Для того, чтобы закрыть от индекса конкретную страницу чаще всего используются такие методы:
- Роботс txt
- Мета robots noindex
В случае первого варианта закрытия страницы в данный файл нужно добавить такой текст:
User-agent: ag
Disallow: http://site.com/page
Таким образом данная страница не будет индексироваться с большой долей вероятности. Однако использование данного метода для точечной борьбы со страницами, которые мы не хотим отдавать на индексацию не есть оптимальным.
Так, для закрытия одной страницы от индекса лучше воспользоваться тегом
META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»
Для этого просто нужно добавить в область HEAD HTML страницы. Данный метод позволяет не перегружать файл robots.txt лишними строчками.
Ведь если Вам нужно будет закрыть от индекса не 1 страницу, а к примеру 100 или 200 , то нужно будет добавить 200 строк в этот файл. Но это в том случае, если все эти страницы не имеют общего параметра по которому их можно идентифицировать. Если же такой параметр есть, то их можно закрыть следующим образом.
Закрытие от индексации Раздела по параметру в URL
Для этого можно использовать 2 метода:
Рассмотрим 1 вариант
К примеру, у нас на сайте есть раздел, в котором находится неуникальная информация или Та информация, которую мы не хотим отдавать на индексацию и вся эта информация находится в 1 папке или 1 разделе сайта.
Тогда для закрытия данной ветки достаточно добавить в Robots.txt такие строки:
Если закрываем папку, то:
Disallow: /папка/
Если закрываем раздел, то:
Disallow: /Раздел/*
Также можно закрыть определенное расшерение файла:
User-agent: *
Disallow: /*.js
Данный метод достаточно прост в использовании, однако как всегда не гарантирует 100% неиндексации.
Потому лучше в добавок делать еще закрытие при помощи
META NAME=»ROBOTS» CONTENT=»NOINDEX”
Который должен быть добавлен в секцию Хед на каждой странице, которую нужно закрыть от индекса.
Точно также можно закрывать от индекса любые параметры Ваших УРЛ, например:
?sort
?price
?”любой повторяющийся параметр”
Однозначно самым простым вариантом является закрытие от индексации при помощи Роботс.тхт, однако, как показывает практика — это не всегда действенный метод.
Методы, с которыми нужно работать осторожно:
Также существует достаточно грубый метод Закрытия чего — либо от роботов, а именно запрет на уровне сервера на доступ робота к конкретному контенту.
1. Блокируем все запросы от нежелательных User Agents
Это правило позволяет заблокировать нежелательные User Agent, которые могут быть потенциально опасными или просто перегружать сервер ненужными запросами.
В данному случае плохим ботом можно указать Любую поисковую машину, парсер либо что либо еще.
Подобные техники используются например для скрытия от робота Ахрефса ссылки с сайта, который был создан/сломан, чтобы конкуренты сеошники не увидели истинных источников ссылочной массы сайта.
Однако это метод стоит использовать если вы точно знаете, что хотите сделать и здраво оцениваете последствия от этих действий.
Использование HTTP-заголовка X-Robots-Tag
Заголовок X-Robots-Tag, выступает в роли элемента HTTP-заголовка для определенного URL. Любая директива, которая может использоваться в метатеге robots, применима также и к X-Robots-Tag.
В X-Robots-Tag перед директивами можно указать название агента пользователя. Пример HTTP-заголовка X-Robots-Tag, который запрещает показ страницы в результатах поиска различных систем:
В заключение
Ситуации, когда необходимо закрыть контент от индексации случаются довольно часто, иногда нужно почистить индекс, иногда нужно скрыть какой-то нежелательный материал, иногда нужно взломать чужой сайт и в роботсе указать disalow all, чтобы выбросить сайт зеркало из индекса.
Основные и самые действенные методы мы рассмотрели, как же их применять — дело вашей фантазии и целей, которые вы преследуете.
Хорошие статьи в продолжение:
— Стоит ли открывать рубрики для индексации, если в разных рубриках выводятся одни и те же посты?
— Как открывать страницы поиска в интернет магазине — руководство
А что вы думаете по этому поводу? Давайте обсудим в комментариях!)
Оцените статью
Загрузка…Запрет индексации через robots.txt — Seonity
Запрет индексации через robots.txt – это один из важных инструментов SEO-продвижения. Он нужен для запрета индексирования роботами поисковых систем технических страниц, конфиденциальных данных и любых страниц и файлов которым не место в индексе. Поисковые системы судят о сайте на основе тех данных, которые попали в базу. Если туда попали «рыбные» тексты, страницы с недоделанным функционалом или ошибками, то весь сайт может получить понижение позиций как плохой, ненадежный. Переиндексация может занять длительное время, так что лучше не допускать попадания в базу ненужных страниц вообще.
Общая информация о файле robots.txt
Файл robots.txt – это документ, который содержит подробные указания для поисковых роботов об индексации сайта. К нему предъявляются следующие требования:
robots.txt должен находиться в корне сайта. Отсутствие файла и контроля за индексацией приводят к индексированию закрытых данных и дублей страниц.
В нем должны быть указаны запреты на индексацию служебных страниц и страниц, содержащих личные и коммерческие данные, ссылка на файл sitemap.xml, основное зеркало сайта.
Кириллица не используется. Все кириллические записи должны быть преобразованы в Punycode.
Параметр User-Agent используется в тех случаях, когда нужно запретить или разрешить индексацию только для определенного робота или поисковой системы (например, закрыть все, кроме картинок).
Закрывает от индексации в robots.txt команда Disallow, открывает команда Allow. Команда Allow имеет более высокий приоритет, чем Disallow.
Как через robots.txt закрыть весь сайт от индексации
Запрет индексации всего сайта через robots.txt обычно применяется во время разработки или редизайна сайта.
Чтобы закрыть сайт от индексации всеми поисковыми системами, необходимо сделать запись:
User-agent: *
Disallow: /
Чтобы в robots.txt закрыть сайт от индексации поисковой системой, к примеру, Яндекс, то запись будет иметь следующий вид:
User-agent: Yandex
Disallow: /
Как закрыть отдельные страницы, директории и файлы
В robots.txt можно закрыть от индексации или открыть для поисковой системы отдельные файлы и директории (к примеру, если вы добавляете товары в определенный раздел каталога и не хотите пока, чтобы туда заходили люди). Также эта команда нужна для того чтобы убрать из индекса разнообразные служебные страницы, страницы с конфиденциальной информацией, дубликаты страниц, логи, статистику и др.
В этом случае команда будет выглядеть следующим образом:
User-agent: *
Disallow: /folder/ #закрываем папку
Аllow: /folder/file.php #открываем отдельный файл в закрытой папке
Disallow: *.jpg #закрываем картинки с расширением .jpg
Как закрыть страницу от индексации через мета-тег?
Файл robots.txt содержит в себе рекомендации для поисковых систем, поэтому поисковик может их не выполнять. Наибольшим приоритетом считается использование мета-тега robots. Запись выглядит следующим образом:
<head>
<meta name=»robots» content=»noindex»/>
# Или:
<meta name=»robots» content=»none»/>
</head>
Вместо «robots» можно использовать имя конкретного поискового робота (альтернатива User-Agent):
Поддержание гигиены сайта и своевременное закрытие ненужных страниц – это очень важно, поэтому не стоит полностью игнорировать ни мета-теги, ни robots.txt!<meta name=»googlebot» content=»noindex»/>
<meta name=»yandex» content=»none»/>
Все о файле «robots.txt» по-русски — как составить robots.txt
Файл robots.txt
Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Если вы – вебмастер, вы должны знать назначение и синтаксис robots.txt.
Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, указывать на правильное «зеркалирование» домена, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д.
Создание robots.txt
Файл с указанным расширением – простой текстовый документ. Он создается с помощью обычного блокнота, программ Notepad или Sublime, а также любого другого редактора текстов. Важно, что в его названии должен быть нижний регистр букв – robots.txt.
Также существует ограничение по количеству символов и, соответственно, размеру. Например, в Google максимальный вес установлен как 500 кб, а у Yandex – 32 кб. В случае их превышения корректность работы может быть нарушена.
Создается документ в кодировке UTF-8, и его действие распространяется на протоколы HTTP, HTTPS, FTP.
При написании содержимого файла запрещается использование кириллицы. Если есть необходимость применения кириллических доменов, необходимо прибегать к помощи Punycode. Кодировка адресов отдельных страниц должна происходить в соответствии с кодировкой структуры сайта, которая была применена.
После того как файл создан, его следует запустить в корневой каталог. При этом используется FTP-клиент, проверяется возможность доступа по ссылке https://site.com./robots.txt и полнота отображения данных.
Важно помнить, что для каждого поддомена сайта оформляется свой файл с ограничениями.
Описание robots.txt
Чтобы правильно написать robots.txt, предлагаем вам изучить разделы этого сайта. Здесь собрана самая полезная информация о синтаксисе robots.txt, о формате robots.txt, примеры использования, а также описание основных поисковых роботов Рунета.
- Как работать с robots.txt — узнайте, что вы можете сделать, чтобы управлять роботами, которые посещают ваш веб-сайт.
- Роботы Рунета — разделы по роботам поисковых систем, популярных на просторах Рунета.
- Частые ошибки в robots.txt — список наиболее частых ошибок, допускаемых при написании файла robots.txt.
- ЧаВо по веб-роботам — часто задаваемые вопросы о роботах от пользователей, авторов и разработчиков.
- Ссылки по теме — аналог оригинального раздела «WWW Robots Related Sites», но дополненый и расширенный, в основном по русскоязычной тематике.
Где размещать файл robots.txt
Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.
На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.
Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.
Как видите, файл robots.txt нужно класть исключительно в корень сайта.
Что писать в файл robots.txt
В файл robots.txt обычно пишут нечто вроде:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере запрещена индексация трех директорий.
Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.
Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*» не поддерживаются.
Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».
Закрыть от индексации только несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Запретить к индексации все файлы кроме одного
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:
User-agent: *
Disallow: /docs/
Либо вы можете запретить все запрещенные к индексации файлы:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html
Инфографика
Проверка
Оценить правильность созданного документа robots.txt можно с помощью специальных проверочных ресурсов:
- Анализ robots.txt. – при работе с Yandex.
- robots.txt Tester – для Google.
Важно помнить, что неправильно созданный или прописанный документ может являться угрозой для посещаемости и ранжирования сайта.
О сайте
Этот сайт — некоммерческий проект. Значительная часть материалов — это переводы www.robotstxt.org, другая часть — оригинальные статьи. Мы не хотим ограничиваться только robots.txt, поэтому в некоторых статьях описаны альтернативные методы «ограничения» роботов.
Правильный способ предотвращения индексации вашего сайта • Yoast
Йост де ВалкЙост де Валк — основатель и директор по продуктам Yoast. Он интернет-предприниматель, который незадолго до основания Yoast инвестировал и консультировал несколько стартапов. Его основная специализация — разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.
Мы говорили это давным-давно, но мы повторим: нас удивляет, что до сих пор есть люди, использующие только роботов .txt , чтобы предотвратить индексацию своего сайта в Google или Bing. В результате их сайт все равно появляется в поисковых системах. Вы знаете, почему это нас удивляет? Потому что robots.txt на самом деле не выполняет последнего, хотя и предотвращает индексацию вашего сайта. Позвольте мне объяснить, как это работает, в этом посте.
Чтобы узнать больше о robots.txt, прочтите robots.txt: полное руководство. Или найдите лучшие методы работы с robots.txt в WordPress.
Есть разница между индексированием и включением в Google
Прежде чем мы продолжим объяснять вещи, нам нужно сначала рассмотреть некоторые термины:
- Индексирование / индексирование
Процесс загрузки сайта или содержимого страницы на сервер поисковой системы с добавлением его в свой «индекс».” - Рейтинг / Листинг / Отображение
Отображение сайта на страницах результатов поиска (также известных как SERP).
Итак, хотя наиболее распространенный процесс идет от индексации к листингу, сайт не обязательно должен индексироваться , чтобы быть внесенным в список. Если ссылка указывает на страницу, домен или другое место, Google перейдет по этой ссылке. Если файл robots.txt в этом домене препятствует индексации этой страницы поисковой системой, он все равно будет показывать URL в результатах, если он может быть получен из других переменных, на которые, возможно, стоит обратить внимание.
Раньше это мог быть DMOZ или каталог Yahoo, но я могу представить, что Google использует, например, данные о вашем бизнесе в наши дни или старые данные из этих проектов. Больше сайтов резюмируют ваш сайт, верно.
Теперь, если приведенное выше объяснение не имеет смысла, взгляните на это видеообъяснение бывшего сотрудника Google Мэтта Каттса из 2009 г .:
Если у вас есть причины для предотвращения индексации вашего веб-сайта, добавление этого запроса на конкретную страницу, которую вы хотите заблокировать, как говорит Мэтт, по-прежнему является правильным способом.
Но вам нужно сообщить Google об этом метатеге robots. Итак, если вы хотите эффективно скрыть страницы от поисковых систем, вам нужно их, чтобы проиндексировал этих страниц. Хотя это может показаться противоречивым. Это можно сделать двумя способами.
Предотвратить листинг вашей страницы, добавив метатег роботов
Первый способ предотвратить размещение вашей страницы в списке — использовать метатеги robots. У нас есть подробное руководство по метатегам роботов, которое более обширно, но в основном оно сводится к добавлению этого тега на вашу страницу:
Если вы используете Yoast SEO, это очень просто! Самостоятельно добавлять код не нужно.Узнайте, как добавить тег noindex с помощью Yoast SEO здесь.
Проблема с таким тегом в том, что его нужно добавлять на каждую страницу.
Управление метатегами роботов упрощено в Yoast SEO Чтобы упростить процесс добавления метатега robots на каждую страницу вашего сайта, поисковые системы разработали HTTP-заголовок X-Robots-Tag. Это позволяет вам указать HTTP-заголовок с именем X-Robots-Tag
и установить значение так же, как и значение мета-тегов robots.Самое замечательное в этом то, что вы можете сделать это для всего сайта. Если ваш сайт работает на Apache и включен mod_headers (обычно это так), вы можете добавить следующую строку в свой файл .htaccess :
Заголовочный набор X-Robots-Tag "noindex, nofollow"
И это приведет к тому, что весь сайт может быть проиндексирован . Но никогда не будет отображаться в результатах поиска.
Итак, избавьтесь от этого файла robots.txt с помощью Disallow: /
в it.Используйте вместо этого X-Robots-Tag или этот метатег robots!
Подробнее: Полное руководство по мета-тегу robots »
Как запретить поисковым системам сканировать сайт WordPress
Недавно один из наших пользователей спросил нас, как они могут остановить сканирование и индексирование сайта WordPress поисковыми системами? Существует множество сценариев, когда вы хотите, чтобы поисковые системы не сканировали ваш веб-сайт или не отображали его в результатах поиска. В этой статье мы покажем вам, как запретить поисковым системам сканировать сайт WordPress.
Почему и кто хотел бы остановить поисковые системы
Для большинства веб-сайтов поисковые системы являются крупнейшим источником трафика. Вы можете спросить, а зачем кому-то блокировать поисковые системы?
Поначалу многие люди не знают, как создать локальную среду разработки или промежуточный сайт. Если вы разрабатываете свой веб-сайт на общедоступном доменном имени, вы, скорее всего, не захотите, чтобы Google индексировал вашу страницу в режиме разработки или обслуживания.
Есть также много людей, которые используют WordPress для создания частных блогов, и они не хотят, чтобы эти блоги индексировались в результатах поиска, потому что они частные.
Также некоторые люди используют WordPress для управления проектами или в интранете, и вы не хотите, чтобы ваши внутренние документы были общедоступными.
Во всех вышеперечисленных ситуациях вы, вероятно, не хотите, чтобы поисковые системы индексировали ваш сайт.
Распространенное заблуждение состоит в том, что если у меня нет ссылок, указывающих на мой домен, поисковые системы, вероятно, никогда не найдут мой сайт.Это не совсем так.
Есть много способов, которыми поисковые системы могут найти веб-сайт, на который есть ссылки в другом месте. Например:
- Ваше доменное имя могло ранее принадлежать кому-то другому, и теперь у него все еще есть ссылки, указывающие на ваш сайт.
- Некоторые результаты поиска по домену могут быть проиндексированы с вашей ссылкой на них.
- Существуют буквально тысячи страниц со списком доменных имен, ваш сайт может появиться на одном из них.
В сети происходит много всего, и большинство из них не находится под вашим контролем.Однако ваш веб-сайт по-прежнему находится под вашим контролем, и вы можете указать поисковым системам не индексировать ваш веб-сайт и не следить за ним.
Видеоуроки
Подписаться на WPBeginner
Если вам не нравится видео или вам нужны дополнительные инструкции, продолжайте читать.
Блокировка поисковых систем от сканирования и индексирования вашего сайта WordPress
WordPress имеет встроенную функцию, которая позволяет вам указать поисковым системам не индексировать ваш сайт.Все, что вам нужно сделать, это зайти в «Настройки » »Читать и установить флажок рядом с опцией« Видимость в поисковых системах ».
Если этот флажок установлен, WordPress добавляет эту строку в заголовок вашего веб-сайта:
WordPress также изменяет файл robots.txt вашего сайта и добавляет в него следующие строки:
Пользовательский агент: * Запретить: /
Эти строки просят роботов (поисковых роботов) не индексировать ваши страницы.Однако поисковые системы могут принять или проигнорировать этот запрос. Несмотря на то, что большинство поисковых систем уважают это, некоторые страницы или случайные изображения с вашего сайта могут быть проиндексированы.
Как убедиться, что ваш сайт не отображается в результатах поиска?
Настройки видимости WordPress по умолчанию запрещают поисковым системам индексировать ваш сайт. Однако поисковые системы могут по-прежнему сканировать и индексировать страницу, файл или изображение с вашего веб-сайта.
Единственный способ убедиться, что поисковые системы вообще не индексируют и не сканируют ваш сайт, — это защитить паролем весь ваш сайт WordPress на уровне сервера.
Это означает, что когда кто-то пытается получить доступ к вашему веб-сайту, его просят предоставить имя пользователя и пароль еще до того, как они достигнут WordPress. Сюда также входят поисковые системы. При неудачном входе в систему им показывается ошибка 401, и боты отворачиваются. Вот как защитить паролем весь сайт WordPress.
Метод 1. Защита всего сайта паролем с помощью cPanel
Если ваш хостинг-провайдер WordPress предлагает доступ к cPanel для управления вашей учетной записью хостинга, то вы можете защитить весь свой сайт с помощью cPanel.Все, что вам нужно сделать, это войти в свою панель управления cPanel и затем щелкнуть значок «Защита паролем каталогов» в разделе «Безопасность».
Далее вам нужно будет выбрать папку, в которую вы установили WordPress. Обычно это папка public_html.
Если у вас есть несколько сайтов WordPress, установленных в каталоге public_html, вам нужно щелкнуть значок папки, чтобы просмотреть и выбрать папку для веб-сайта, который вы хотите защитить паролем.
На следующем экране вам нужно ввести имя защищенного каталога и нажать кнопку «Сохранить».
Ваша информация будет сохранена, и cPanel перезагрузит страницу. После этого нужно добавить авторизованного пользователя, введя логин и пароль.
Вот и все, вы успешно добавили защиту паролем на свой сайт WordPress.
Теперь, когда пользователь или поисковая система посещает ваш сайт, им будет предложено ввести имя пользователя и пароль, которые вы создали ранее, для просмотра сайта.
Метод 2: Защита WordPress паролем с помощью подключаемого модуля
Если вы используете управляемый хостинг WordPress, иногда у вас нет доступа к cPanel.
В этом случае у вас есть возможность использовать различные плагины WordPress для защиты вашего сайта паролем. Ниже представлены два самых популярных решения:
- SeedProd — это ближайший плагин №1 для режима обслуживания WordPress, используемый на более чем 800 000 веб-сайтов.Он поставляется с полным контролем доступа и функциями разрешений, которые вы можете использовать, чтобы скрыть свой веб-сайт от всех, включая поисковые системы. У нас есть пошаговое руководство для SeedProd.
- Защищено паролем — это очень простой способ защитить паролем ваш сайт WordPress с помощью одного пароля (создание пользователя не требуется). Ознакомьтесь с нашим пошаговым руководством о том, как защитить паролем сайт WordPress.
Мы надеемся, что эта статья помогла вам остановить сканирование или индексирование вашего сайта WordPress поисковыми системами.Вы также можете ознакомиться с нашим окончательным пошаговым руководством по безопасности WordPress для начинающих.
Если вам понравилась эта статья, то подпишитесь на наш канал YouTube для видеоуроков по WordPress. Вы также можете найти нас в Twitter и Facebook.
Запретить Google индексировать ваш сайт / Майкл Ли
Пока я разрабатываю веб-сайт клиента, в корне его веб-сайта есть простая страница, которая скоро появится. Я решил также настроить поддомен, чтобы я мог использовать его в качестве среды разработки, а также отправить его в качестве ссылки клиенту, чтобы они могли видеть подробное представление о ходе работы и фактически взаимодействовать с веб-сайтом.
Одна проблема с этим заключается в том, что хотя я хочу, чтобы корневой домен со следующей страницей был проиндексирован Google, я не хотел, чтобы субдомен индексировался, потому что в какой-то момент, когда сайт будет готов, я, вероятно, удалю поддомен.
noindex
метод Согласно Google, включение метатега со значением содержимого noindex
и значением имени robots
приведет к тому, что робот Googlebot полностью исключит страницу из результатов поиска Google при следующем сканировании.
Так выглядит метатег noindex
в заголовке вашей веб-страницы.
Ваш крутой сайт
Метатег должен быть включен на каждую страницу, которую робот Googlebot не должен индексировать. Если вы хотите полностью заблокировать бота, а не сообщать, какие отдельные страницы не индексировать, вам нужно использовать метод robots.txt
.
метод robots.txt
Другой метод — заблокировать индексирование вашего сайта роботами-роботами поисковых систем. Для этого вы создадите файл robots.txt
и поместите его в корень домена. Этот метод также предполагает, что у вас есть доступ для загрузки файлов на ваш сервер.
Содержимое robots.txt будет:
Агент пользователя: *
Запретить: /
Указывает всем сканерам не сканировать весь домен. Так, например, если у меня есть поддомен dev.example-url.com
, и я хочу заблокировать только поддомен dev
, я хочу разместить файл robots.txt
в корне поддомена.
http://dev.example-url.com/robots.txt
Мне нужны оба?
Нет, вам нужен только один метод, но помните, что с тегом noindex
вам нужно будет добавить его на каждую страницу, которую вы не хотите индексировать, а файл robots.txt
проинструктирует поисковый робот не индексировать весь поддомен.
Что это значит и как его использовать
Если вы исследовали серверную часть WordPress, то, возможно, заметили настройку, которая гласит: «Отказать поисковым системам от индексации этого сайта», и задались вопросом, что это означает.
Или, может быть, вы ищете способ скрыть свой сайт от нежелательных посетителей и задаетесь вопросом, достаточно ли этого маленького флажка, чтобы ваш контент оставался конфиденциальным.
Что означает эта опция? Что именно он делает с вашим сайтом? И почему вам не следует полагаться на него, даже если вы пытаетесь скрыть свой контент?
Вот ответы и несколько других методов деиндексации вашего сайта и блокировки доступа к определенным страницам.
Что означает «препятствовать поисковым системам индексировать этот сайт»?
Вы когда-нибудь задумывались, как поисковые системы индексируют ваш сайт и оценивают его SEO? Они делают это с помощью автоматизированной программы, называемой пауком, также известной как робот или краулер. Пауки «ползают» по сети, посещая веб-сайты и регистрируя весь ваш контент.
Google использует их, чтобы решать, как ранжировать и размещать ваш веб-сайт в результатах поиска, извлекать рекламные сообщения из ваших статей для страницы результатов поиска и вставлять ваши изображения в изображения Google.
Когда вы отметите «Не разрешать поисковым системам индексировать этот сайт», WordPress изменяет ваш файл robots.txt (файл, который дает паукам инструкции по сканированию вашего сайта). Он также может добавить метатег в заголовок вашего сайта, который сообщает Google и другим поисковым системам не индексировать какой-либо контент на всем вашем сайте.
Ключевое слово здесь — «отговорить»: поисковые системы не обязаны выполнять этот запрос, особенно поисковые системы, которые не используют стандартных роботов .txt синтаксис, который делает Google.
Поисковые роботыпо-прежнему смогут найти ваш сайт, но правильно настроенные сканеры прочитают ваш robots.txt, и уйдут, не индексируя контент и не показывая его в результатах поиска.
Раньше эта опция в WordPress не мешала Google показывать ваш веб-сайт в результатах поиска, просто индексируя его содержание. Вы по-прежнему можете видеть, что ваши страницы отображаются в результатах поиска с ошибкой типа «Информация об этой странице недоступна» или «Описание этого результата недоступно из-за роботов сайта.текст.»
Пока Google не индексировал страницу, они также не скрывали ее полностью. Эта аномалия привела к тому, что люди могли посещать страницы, которые им не предназначались. Благодаря WordPress 5.3 он теперь работает правильно, блокируя как индексацию, так и листинг сайта.
Вы можете себе представить, как это разрушит ваше SEO, если вы включите его случайно. Крайне важно использовать эту опцию только в том случае, если вы действительно не хотите, чтобы кто-либо видел ваш контент — и даже в этом случае это может быть не единственная мера, которую вы хотите предпринять.
Почему вы не хотите индексировать свой сайт
Веб-сайты созданы для того, чтобы их видели люди. Вы хотите, чтобы пользователи читали ваши статьи, покупали ваши продукты, потребляли ваш контент — зачем вам намеренно пытаться блокировать поисковые системы?
Есть несколько причин, по которым вы можете захотеть скрыть часть или весь свой сайт.
- Ваш сайт находится в разработке и не готов к публикации.
- Вы используете WordPress в качестве системы управления контентом, но хотите сохранить конфиденциальность указанного контента.
- Вы пытаетесь скрыть конфиденциальную информацию.
- Вы хотите, чтобы ваш сайт был доступен только небольшому количеству людей по ссылке или только через приглашения, а не через общедоступные страницы поиска.
- Вы хотите разместить некоторый контент за платным доступом или другими воротами, например статьи, эксклюзивные для информационных бюллетеней.
- Вы хотите отрезать трафик к старым, устаревшим статьям.
- Вы хотите предотвратить получение штрафов SEO на тестовых страницах или дублировании контента.
Для некоторых из них есть более эффективные решения — использование надлежащего автономного сервера разработки, установка приватности ваших статей или размещение их под паролем — но есть законные причины, по которым вы можете захотеть деиндексировать часть или весь свой сайт.
Как проверить, не отпугивает ли ваш сайт поисковые системы
Хотя у вас могут быть законные причины для деиндексации вашего сайта, для вас может быть ужасным шоком узнать, что вы включили эту настройку без всякого намерения или оставили ее включенной случайно. Если вы получаете нулевой трафик и подозреваете, что ваш сайт не индексируется, вот как это подтвердить.
Один из простых способов — установить флажок Краткий обзор , расположенный на главном экране панели администратора. Просто войдите в свой сервер и установите флажок.Если вы видите сообщение «Поисковые системы не одобряют», значит, вы активировали эту настройку.
«Краткий обзор» на панели управления WordPress.
Еще более надежный способ — проверить файл robots.txt . Вы можете легко проверить это в браузере, даже не заходя на свой сайт.
Чтобы проверить robots.txt и , все, что вам нужно сделать, это добавить /robots.txt
в конец URL-адреса вашего сайта. Например: https://kinsta.com/robots.txt
Если вы видите Disallow: /
, значит, весь ваш сайт заблокирован от индексации.
«Запретить» в robots.txt.
Если вы видите Disallow:
, за которым следует путь URL-адреса, например Disallow: / wp-admin /
, это означает, что любой URL-адрес с путем / wp-admin /
заблокирован. Такая структура является нормальной для некоторых страниц, но если, например, она блокирует / blog /
, на котором есть страницы, которые вы хотите проиндексировать, это может вызвать проблемы!
Теперь, когда WordPress использует метатеги вместо robots.txt для деиндексации вашего сайта, вам также следует проверить заголовок на наличие изменений.
Войдите в свой сервер и перейдите в Внешний вид > Редактор тем . Найдите заголовок темы (header.php) и найдите следующий код:
noindex, nofollow в header.php.
Вы также можете проверить functions.php на наличие тега noindex
, поскольку с помощью этого файла можно удаленно вставить код в заголовок.
Если вы найдете этот код в своих файлах темы, значит, ваш сайт не индексируется Google.Но вместо того, чтобы удалять его вручную, давайте сначала попробуем отключить исходную настройку.
Как препятствовать индексации поисковыми системами в WordPress
Если вы хотите пропустить лишние шаги и сразу перейти к исходным настройкам, вот как активировать или деактивировать опцию «Отказать поисковым системам» в WordPress.
Войдите в свою панель управления WordPress и перейдите к Settings > Reading . Найдите вариант Видимость в поисковых системах с флажком «Не рекомендовать поисковым системам индексировать этот сайт.”
Флажок видимости поисковой системы.
Если вы обнаружите, что он уже включен и хотите, чтобы ваш сайт был проиндексирован, снимите флажок. Если вы собираетесь запретить индексацию своего сайта, проверьте это (и запишите где-нибудь заметку, напоминающую вам отключить ее позже!).
Теперь нажмите Сохранить изменения, , и все готово. Переиндексация вашего сайта или его удаление из результатов поиска может занять некоторое время.
Если ваш сайт все еще деиндексирован, вы также можете удалить код noindex
из файла заголовка или вручную отредактировать robots.txt , чтобы убрать флаг «Disallow».
Итак, это достаточно просто, но по каким причинам вам следует избегать этого варианта или, по крайней мере, не полностью полагаться на него?
Недостатки использования опции «Оттолкнуть поисковые системы»
Вроде просто — поставьте галочку, и никто не сможет увидеть ваш сайт. Разве этого не достаточно? Почему вам не следует использовать эту опцию самостоятельно?
Когда вы включаете этот параметр или любой другой, подобный ему, все, что он делает, это добавляет тег в ваш заголовок или в файл robots.txt . Как показывают более старые версии WordPress, которые по-прежнему позволяют отображать ваш сайт в результатах поиска, небольшой сбой или другая ошибка может привести к тому, что люди увидят ваши предположительно скрытые страницы.
Кроме того, поисковые системы должны выполнить запрос о запрете сканирования вашего сайта. Основные поисковые системы, такие как Google и Bing, обычно используют, но не все поисковые системы используют один и тот же синтаксис robots.txt , и не все пауки, сканирующие Интернет, рассылаются поисковыми системами.
Например, одной службой, использующей поисковые роботы, является Wayback Machine. А если ваш контент проиндексирован такой службой, он навсегда останется в Интернете.
Машина обратного пути.
Вы можете думать, что только потому, что на вашем новом сайте нет ссылок, он защищен от пауков, но это неправда. Существование на общем сервере, отправка электронного письма со ссылкой на ваш веб-сайт или даже посещение вашего сайта в браузере (особенно в Chrome) может открыть ваш сайт для сканирования.
Подпишитесь на информационный бюллетень
Хотите узнать, как мы увеличили посещаемость более чем на 1000%?
Присоединяйтесь к 20 000+ других, которые получают нашу еженедельную рассылку с инсайдерскими советами по WordPress!
Подпишитесь сейчасЕсли вы хотите скрыть контент, не рекомендуется добавлять параметр и надеяться, что он поможет.
И давайте проясним: если контент, который вы деиндексируете, носит конфиденциальный или личный характер, вам ни в коем случае не следует полагаться на robots.txt или метатег, чтобы скрыть его.
И последнее, но не менее важное: эта опция полностью скроет ваш сайт от поисковых систем, в то время как во многих случаях вам нужно деиндексировать только определенные страницы.
Итак, что вы должны делать вместо этого метода или вместе с ним?
Другие способы предотвращения индексации поисковыми системами
Хотя вариант, предоставляемый WordPress, обычно выполняет свою работу, в определенных ситуациях часто лучше использовать другие методы сокрытия контента. Даже сам Google говорит, что не используйте роботов.txt, чтобы скрыть страницы.
Пока у вашего сайта есть доменное имя и он находится на общедоступном сервере, невозможно гарантировать, что ваш контент не будет виден или проиндексирован поисковыми роботами, если вы не удалите его или не скроете за паролем или требованиями входа в систему.
Тем не менее, какие лучшие способы скрыть ваш сайт или определенные страницы на нем?
Блокировать поисковые системы с помощью .htaccess
Хотя его реализация функционально такая же, как при простом использовании опции «Отказать поисковым системам», вы можете захотеть использовать вручную.htaccess , чтобы заблокировать индексацию вашего сайта.
Вам нужно будет использовать программу FTP / SFTP для доступа к вашему сайту и открыть файл .htaccess, обычно расположенный в корневой папке (первая папка, которую вы видите при открытии сайта) или в public_html . Добавьте этот код в файл и сохраните:
Заголовочный набор X-Robots-Tag "noindex, nofollow"
Примечание. Этот метод работает только для серверов Apache. Серверы NGINX, например, работающие на Kinsta, должны будут добавить этот код в .conf , который можно найти в / etc / nginx / (вы можете найти здесь пример реализации метатега):
add_header X-Robots-Tag "noindex, nofollow";
Защита секретных страниц паролем
Если есть определенные статьи или страницы, которые поисковые системы не должны индексировать, лучший способ скрыть их — защитить свой сайт паролем. Таким образом, только вы и желаемые пользователи сможете видеть этот контент.
К счастью, эта функция встроена в WordPress, поэтому устанавливать какие-либо плагины не нужно.Просто перейдите на страниц сообщений и нажмите на ту, которую хотите скрыть. Отредактируйте свою страницу и найдите меню Статус и видимость > Видимость справа.
Если вы не используете Gutenberg, процесс будет аналогичным. Вы можете найти такое же меню в поле Publish .
Измените Visibility на Password Protected и введите пароль, затем сохраните — и теперь ваш контент скрыт от широкой публики.
Установка защиты сообщения паролем.
Что делать, если вы хотите защитить паролем весь свой сайт? Требовать пароль для каждой страницы непрактично.
Пользователям Kinsta повезло: вы можете включить защиту паролем на Сайтах > Инструменты , требуя как имя пользователя, так и пароль.
В противном случае вы можете использовать плагин ограничения содержимого (например, защищенный паролем). Пожалуйста, установите и активируйте его, затем перейдите к Настройки > Защищено паролем и включите Статус защищен паролем .Это дает вам более тонкий контроль, даже позволяя вам занести в белый список определенные IP-адреса.
Этот плагин не обновлялся более 11 месяцев на момент написания этой статьи. Он может больше не поддерживаться или поддерживаться и может иметь проблемы совместимости с последними версиями WordPress.
Установка защиты сообщения паролем.
Установить плагин WordPress
Когда функциональности WordPress по умолчанию недостаточно, хороший плагин часто может решить ваши проблемы.
Например, если вы хотите деиндексировать определенные страницы, а не весь сайт, у Yoast есть эта опция.
В Yoast SEO вы можете открыть страницу, которую хотите скрыть, и найти опцию на вкладке Advanced : Разрешить поисковым системам показывать это сообщение в результатах поиска? Измените его на Нет , и страница будет скрыта.
Настройки Yoast SEO
Следует отметить, что оба они полагаются на те же методы, что и параметр WordPress по умолчанию, чтобы препятствовать индексации поисковыми системами, и имеют те же недостатки.Некоторые поисковые системы могут не удовлетворить ваш запрос. Вам нужно будет использовать другие методы, если вы действительно хотите полностью скрыть это содержание.
Еще одно решение — заплатить доступ к вашему контенту или скрыть его за обязательным логином. Плагины Simple Membership или Ultimate Member могут помочь вам настроить бесплатный или платный контент для членства.
ПлагинSimple Membership.
Используйте промежуточный сайт для тестирования
При работе над тестовыми проектами или незавершенными веб-сайтами лучше всего скрывать их — использовать промежуточный или разрабатываемый сайт.Эти веб-сайты являются частными, часто размещаются на локальном компьютере, доступ к которым не имеет никто, кроме вас и других лиц, которым вы разрешили.
Многие веб-хосты предоставят вам простые в развертывании промежуточные сайты и позволят вам разместить их на общедоступном сервере, когда вы будете готовы. Kinsta предлагает промежуточный сайт для всех планов в один клик.
Вы можете получить доступ к своим промежуточным сайтам в MyKinsta, перейдя в Сайты > Информация и щелкнув раскрывающееся меню Изменить среду . Нажмите Промежуточная среда , а затем Создать промежуточную среду .Через несколько минут ваш сервер разработки будет готов к тестированию.
Если у вас нет доступа к простому способу создания промежуточного сайта, плагин WP STAGING может помочь вам продублировать вашу установку и переместить ее в папку для легкого доступа.
Использование консоли поиска Google для временного скрытия веб-сайтов
Google Search Console — это служба, которая позволяет вам заявлять права собственности на свои веб-сайты. Это дает возможность временно заблокировать Google от индексации определенных страниц.
У этого метода есть несколько проблем: он предназначен только для Google (поэтому такие сайты, как Bing, не пострадают), и его срок действия составляет всего 6 месяцев.
Но если вам нужен быстрый и простой способ временно удалить свой контент из результатов поиска Google, это способ сделать это.
Если вы еще этого не сделали, вам нужно добавить свой сайт в Google Search Console. После этого откройте Removals и выберите Temporary Removals > New Request . Затем нажмите Удалить только этот URL и укажите ссылку на страницу, которую вы хотите скрыть.
Это еще более надежный способ блокировки контента, но опять же, он работает исключительно для Google и длится всего 6 месяцев.
Сводка
Есть много причин, по которым вы можете захотеть скрыть контент на своем сайте, но использование опции «Отказать поисковым системам от индексации этого сайта» — не лучший способ убедиться, что такой контент не виден.
Если вы не хотите скрыть весь свой веб-сайт от Интернета, вам никогда не следует выбирать эту опцию, так как это может нанести огромный ущерб вашему SEO, если оно случайно переключится.
И даже если вы действительно хотите скрыть свой сайт, этот вариант по умолчанию — ненадежный метод. Он должен сочетаться с защитой паролем или другими блокировками, особенно если вы имеете дело с конфиденциальным контентом.
Используете ли вы какие-либо другие методы, чтобы скрыть свой сайт или его части? Дайте нам знать в комментариях.
Экономьте время, деньги и повышайте производительность сайта с помощью:
- Мгновенная помощь от экспертов по хостингу WordPress, 24/7.
- Интеграция Cloudflare Enterprise.
- Глобальный охват аудитории с 28 центрами обработки данных по всему миру.
- Оптимизация с помощью нашего встроенного мониторинга производительности приложений.
Все это и многое другое в одном плане без долгосрочных контрактов, поддержки миграции и 30-дневной гарантии возврата денег. Ознакомьтесь с нашими планами или поговорите с отделом продаж, чтобы найти план, который подходит именно вам.
Вот что происходит, когда вы случайно деиндексируете свой сайт в Google
Взгляды автора полностью принадлежат ему (за исключением маловероятного случая гипноза) и могут не всегда отражать взгляды Moz.
Приводит ли чтение этого заголовка к приступу мини-паники?
Пройдя в точности так, как следует из названия, я могу гарантировать, что ваше беспокойство полностью оправдано.
Если вы хотите пережить вместе со мной мой кошмар — возможно, как катарсис в равной степени и исследование SEO — мы пройдемся по событиям в хронологическом порядке.
Вы готовы?
4 августа 2019 г.
Было воскресное утро. Я пил кофе и возился с нашими инструментами SEO, как обычно, ни черта не ожидал.Тогда… БАМ!
Что. Файл. Ад?
Как специалисты по оптимизации, мы все привыкли видеть естественные колебания в рейтинге. Колебания, а не исчезновения.
Шаг 1: Отказ
Я сразу же вспоминаю одно: это ошибка. Итак, я перешел к другим инструментам, чтобы убедиться, теряет ли Ahrefs рассудок.
Google Analytics также показал соответствующее падение трафика, подтверждая, что что-то определенно произошло. Поэтому, как оптимизатор, я, естественно, предполагал худшее…
Шаг 2: Паника алгоритма
Обновление алгоритма.Пожалуйста, не позволяйте этому быть обновлением алгоритма.
Я запрыгнул в инструмент Barracuda Panguin Tool, чтобы проверить, совпадает ли наша проблема с подтвержденным обновлением.
Нет обновлений. Уф.
Шаг 3: Диагностика
Никто никогда не думает ясно, когда задействован мозг рептилий. Вы паникуете, думаете нерационально и принимаете неверные решения. Без холода.
Наконец-то я собрался с духом, чтобы ясно подумать о том, что произошло: совершенно необычно, чтобы рейтинг ключевых слов полностью исчез.Это должно быть техническое.
Должна быть индексация.
Быстрый поиск в Google страниц, потерявших рейтинг по ключевым словам, подтвердил, что эти страницы фактически исчезли. Search Console сообщила то же самое:
Обратите внимание на предупреждение внизу:
Нет: в метатеге robots обнаружено «noindex»
Итак, мы кое-что получили. Затем пришло время подтвердить этот вывод в исходном коде.
Наши страницы были помечены для деиндексации. Но сколько страниц было деиндексировано на данный момент?
Шаг 4: Исследование повреждений
Все. Отправив несколько бешеных заметок нашему разработчику, он подтвердил, что спринт, развернутый в четверг вечером (1 августа 2019 г.), почти за три дня до этого, случайно разместил код на каждой странице.
Но был ли деиндексирован весь сайт?
Это маловероятно, потому что для этого Google пришлось бы сканировать каждую страницу сайта в течение трех дней, чтобы найти разметку «noindex». Search Console в этом отношении не поможет, поскольку его данные всегда будут отставать и могут никогда не принять изменения, пока они не будут исправлены.
Даже сейчас, оглядываясь назад, мы видим, что Search Console обнаружила максимум 249 затронутых страниц из более 8000 проиндексированных. Что невозможно, учитывая, что наши поисковые запросы сократились на треть за всю неделю после того, как инцидент был устранен.
Примечание: Я никогда не буду уверен, сколько страниц было полностью деиндексировано в Google, но я точно знаю, что КАЖДАЯ страница имела разметку noindex, и я смутно помню, как гуглил «site: brafton.com» и видно, что проиндексирована примерно одна восьмая наших страниц.Конечно, хотелось бы иметь скриншот. Извините.
Шаг 1. Устранение проблемы
Как только проблема была обнаружена, наш разработчик откатил обновление и запустил сайт, как это было до разметки «noindex». Затем возникла проблема переиндексации нашего контента.
Шаг 2. Выполните повторное сканирование сайта как можно скорее
Я удалил старую карту сайта, построил новую и повторно загрузил в Search Console. Я также захватил большинство наших основных целевых страниц продуктов и вручную запросил повторное индексирование (которое, как я считаю, не дает никаких результатов с момента последнего обновления SC).
Шаг 3: Подождите
На этом этапе мы ничего не могли сделать, кроме как ждать. Было так много вопросов:
- Будут ли страницы ранжироваться по тем же ключевым словам, что и раньше?
- Будут ли они занимать одинаковые позиции?
- Будет ли Google каким-либо образом «наказывать» страницы за кратковременное исчезновение?
Только время покажет.
8 августа 2019 г. (одна неделя) — снижение присутствия в поиске на 33%
При оценке ущерба я собираюсь использовать дату, когда код ошибки был полностью развернут и заполнен на действующих страницах (2 августа) как нулевой уровень.Таким образом, первое измерение будет выполнено в течение семи дней, со 2 по 8 августа.
Search Console, вероятно, даст мне лучшее представление о том, насколько сильно пострадали наши поисковые запросы.
Мы потеряли около 33,2% поискового трафика. Ой.
К счастью, это будет пиковый уровень ущерба, который мы испытали за все время испытания.
15 августа 2019 г. (две недели) — падение трафика на 23%
В этот период я следил за двумя вещами: поисковым трафиком и проиндексированными страницами.Несмотря на повторную отправку моей карты сайта и ручную загрузку страниц в Search Console, многие страницы все еще не индексировались, даже основные целевые страницы. Это станет темой на протяжении всей временной шкалы.
В результате того, что у нас оставались неиндексированные страницы, наш трафик все еще страдал.
Через две недели после инцидента мы все еще были на 8% ниже, а наши приносящие доход конверсии упали вместе с трафиком (несмотря на рост показателей конверсии).
22 августа 2019 г. (три недели) — падение трафика на 13%
Наши страницы все еще медленно индексировались.Уж больно медленно, пока я смотрел, как мои коммерческие цели падают через пол.
По крайней мере, было ясно, что наше присутствие в поиске восстанавливается. А вот , как восстанавливается , меня особенно интересовал.
Были ли повторно проиндексированы все страницы, но с уменьшенным присутствием в поиске?
Была ли переиндексирована только часть страниц с полностью восстановленным присутствием в поиске?
Чтобы ответить на этот вопрос, я рассмотрел страницы, которые были деиндексированы и повторно проиндексированы по отдельности.Вот пример одной из этих страниц:
Вот пример страницы, которая была деиндексирована на гораздо более короткий период времени:
В каждом случае, который я мог найти, каждая страница была полностью восстановлена до исходного состояния поиска. . Таким образом, вопрос не в том, восстановятся ли страницы или нет, вопрос в том, когда страницы будут повторно проиндексированы.
Кстати, в Search Console появилась новая функция, в которой она будет «проверять» страницы с ошибками. Я начал этот процесс 26 августа.После этого SC медленно повторно просматривал (я полагаю) эти страницы в количестве примерно 10 страниц в неделю. Это даже быстрее, чем обычное сканирование по расписанию? Эти инструменты в СЦ вообще хоть что-то делают?
Что я знал наверняка, так это то, что по прошествии трех недель был деиндексирован ряд страниц, в том числе коммерческие целевые страницы, на которые я рассчитывал привлечь трафик. Подробнее об этом позже.
29 августа 2019 г. (четыре недели) — падение трафика на 9%
В этот момент я очень расстраивался, потому что оставалось всего около 150 страниц, которые нужно было переиндексировать, и независимо от того, сколько раз я проверял и запросил новую индексацию в Search Console, это не сработает.
Эти страницы можно было полностью проиндексировать (по данным проверки URL-адреса SC), но они не были просканированы. В результате почти через месяц мы все еще были на 9% ниже базового уровня.
Одна конкретная страница просто отказалась переиндексировать. Это была страница продукта с высокой коммерческой ценностью, и я рассчитывал на конверсию.
В своих попытках принудительно переиндексировать я пробовал:
- Проверка URL и запрос индексации (15 раз в месяц).
- Обновление даты публикации с последующим запросом индексации.
- Обновление содержимого и даты публикации, затем запрос индексации.
- Повторная отправка карты сайта в SC.
Ничего не заработало. Эта страница не будет повторно индексироваться. Та же история и с более чем сотней других менее значимых с коммерческой точки зрения URL-адресов.
Примечание: Эта страница не будет повторно проиндексирована до 1 октября, через два полных месяца после деиндексации.
Кстати, вот как выглядел наш общий прогресс в восстановлении через четыре недели:
5 сентября 2019 г. (пять недель) — 10.Падение трафика на 4%
Большое плато. К этому моменту мы переиндексировали все наши страницы, за исключением примерно 150, предположительно «проверенных».
Их не было. И их тоже не перекраивали.
Казалось, что мы, скорее всего, полностью выздоровеем, но время было в руках Google, и я ничего не мог сделать, чтобы повлиять на это.
12 сентября 2019 г. (шесть недель) — прирост трафика на 5,3%
Прошло около шести недель, прежде чем мы полностью восстановили наш трафик.
Но по правде говоря, мы еще не полностью восстановили наш трафик, так как некоторый контент работал с перебоями и чрезмерно компенсировал количество страниц, которые еще не были проиндексированы. Примечательно, что страница нашего продукта не будет индексироваться еще ~ 2,5 недели.
В итоге, наши поисковые запросы восстановились через шесть недель. Но наш контент был полностью переиндексирован только через восемь с лишним недель после устранения проблемы.
Заключение
Для начала определенно не деиндексируйте свой сайт случайно, в эксперименте или по любой другой причине.Это ужалит. По моим оценкам, мы удалили около 12% всего органического трафика, что в равной степени привело к снижению коммерческих конверсий.
Что мы узнали ??
После повторной индексации страниц они были полностью восстановлены с точки зрения видимости при поиске. Самая большая проблема заключалась в их повторной индексации.
Некоторые основные вопросы, на которые мы ответили с помощью этого случайного эксперимента:
Выздоровели?
Да, мы полностью восстановились, и все URL-адреса, похоже, обеспечивают одинаковую видимость в поиске.
Сколько времени это заняло?
Видимость поиска вернулась к исходному уровню через шесть недель. Все страницы повторно индексируются примерно через восемь-девять недель.
Как запретить Google индексировать ваш сайт WordPress
Сама идея этого поста может показаться сумасшедшей. В конце концов, разве вам не нужно , чтобы поисковых систем нашли ваш сайт? Вот почему вы оптимизируете его для поиска и создаете карту сайта в формате XML, чтобы повысить свои шансы на ранжирование в поиске.
Тем не менее, есть ряд причин, по которым вы можете запретить Google индексировать ваш сайт WordPress:
- Совершенно новые установки WordPress : Маловероятно, что совершенно пустой и неоптимизированный сайт будет просканирован и проиндексирован поисковыми системами через секунду после того, как вы установили WordPress.Однако вы все равно не захотите рисковать, что кто-то наткнется на ваш неполный рабочий домен, пока он еще не завершен.
- Сайты разработки : Сайты разработчиков, сайты тестирования, промежуточные сайты — вы настраиваете их так, чтобы члены группы или клиенты могли тестировать новый (или измененный) сайт в режиме реального времени. Очевидно, вы не хотите, чтобы кто-то еще наткнулся на сайт, который явно не готов к публикации в мире.
- Частные сайты : Если вы создали что-то вроде интрасети компании или частного блога (или просто имеете определенные страницы, которые не хотите видеть другие), у вас также может быть веская причина запретить Google индексировать ваши Сайт WordPress.
- Несущественные страницы : Вероятно, не имеет большого значения, если кто-то наткнется на вашу страницу «Спасибо» или другую несущественную страницу, которую не стоит индексировать, но знайте, что есть способы заблокировать их как хорошо.
Итак, если вы решили, что хотите, чтобы поисковые системы не индексировали ваш сайт, как вы дадите им знать, чтобы они держались подальше? Вот шесть вариантов, которые стоит рассмотреть в зависимости от вашей конечной цели.
Предотвращение индексации вашего сайта WordPress в Google
Запретить Google индексировать ваш сайт WordPress — относительно простой процесс.Однако перед тем, как выбрать один из вариантов ниже, убедитесь, что вы знаете, какие страницы или сообщения (если не весь сайт) вы хотите заблокировать. Вы также захотите выяснить, были ли эти страницы уже проиндексированы, поскольку для этого потребуется совершенно другое действие.
Вот ваши варианты:
Вариант 1. Используйте настройки WordPress
Это самый простой из вариантов для реализации, и, вероятно, вы видели его в своих путешествиях по WordPress.
Чтобы заблокировать весь сайт из поиска, войдите в WordPress и найдите меню «Настройки».Затем выберите Чтение .
Найдите параметр Site Visibility , и вы увидите следующее:
Настройки WordPress — ЧтениеЭто, по сути, добавляет тег «noindex» к тегу заголовка вашего сайта:
Однако, как отмечает WordPress, поисковые системы все равно могут захотеть зайти и проиндексировать ваш сайт. Вот почему вам также следует рассмотреть вариант №2.
Вариант 2. Защита корневого каталога паролем
Эта опция перенесет вас из WordPress в панель управления вашим сайтом.Вот как это сделать:
Войдите в свою учетную запись веб-хостинга и откройте панель управления. Вы должны увидеть что-то под названием «Пароль каталога» или «Каталоги, защищенные паролем».
Вы попадете на страницу со всеми каталогами на вашем сайте. Щелкните корневой каталог («/»).
Этот последний шаг даст вам возможность заблокировать корень вашего веб-сайта, по сути заблокировав доступ Google (а также всех остальных) к вашему сайту.
Вы также можете предоставить доступ определенным людям — например, членам вашей команды, которым необходимо войти на сайт во время его работы — через эту страницу.
Вариант 3. Используйте файл robots.txt
Теперь, если вы предпочитаете не блокировать весь сайт для поиска, а вместо этого хотите ограничить его определенными частями своего сайта, вы можете перейти непосредственно в файл robots.txt, чтобы применить блокировку.
Вот команда для ввода:
Агент пользователя: * Disallow: / [slug] /
Не забудьте обновить слаг, указав путь к целевому URL, который вы хотите заблокировать.
Вариант 4. Используйте подключаемый модуль для блокировки всего сайта
Плагин, защищенный паролем, будет делать то же самое, что и вариант №2, если вам неудобно блокировать доступ к корневому каталогу через панель управления.Однако обратите внимание, что эта защита паролем только блокирует доступ людей к вашим страницам. Этот плагин не помешает никому (включая Google) получить ссылки на ваши изображения или другие загруженные файлы.
Вариант 5. Использование подключаемого модуля для блокировки определенных страниц
Большинство плагинов SEO позволяют пользователям исключать определенные страницы и сообщения из индексации. Если вы используете плагин SmartCrawl, вы также можете исключить больше, включая настраиваемые типы сообщений, категории, теги, изображения, таблицы стилей и многое другое.
Вариант 6. Удалить из поиска после индексирования
Хорошо, допустим, ваш сайт был слишком рано проиндексирован по ошибке или , поэтому вы хотите удалить старую и устаревшую страницу, чтобы она больше не отображалась в результатах поиска. Приведенные выше параметры не дадут вам возможности удалить эту уже проиндексированную страницу из поиска; вы можете только заблокировать индексацию в будущем.
Для этого варианта вам потребуется использовать консоль поиска Google или соответствующие инструменты консоли поиска для других поисковых систем, направляющих трафик на ваш сайт.
Для Google вам нужно сделать следующее:
- Зайдите в Search Console и найдите свой сайт.
- Щелкните Google Index и выберите опцию «Удалить URL-адреса».
- Нажмите «Временно скрыть» и введите URL-адрес вашего сайта или URL-адрес конкретной страницы или сообщения, которое вы хотите удалить из поиска. Убедитесь, что вы ввели правильный URL, так как это эффективно удалит ваш сайт из поиска на 90 дней.
Обратите внимание на предупреждение Google, а также обратите внимание на их шаги по постоянной блокировке сайта или страницы из поиска (как уже упоминалось выше).
Завершение
Как видите, заблокировать Google от индексации вашего сайта довольно просто, а это значит, что так же легко отменить процесс (если вы не выберете вариант №6). Тем не менее, пожалуйста, , сделайте не забудьте отменить процесс, если это только временная блокировка!
Очевидно, что что-то будет казаться «неуместным», если ваш недавно завершенный сайт заработает и появится нулевой трафик, но до этого момента не должно дойти. Если блокировка поиска становится частью вашего процесса разработки, не забудьте добавить шаг для ее удаления.
Бесплатное видео Почему 100 НЕ является идеальным показателем скорости загрузки страницы в Google (* 5 минут просмотра) Узнайте, как использовать Google PageSpeed Insights, чтобы ставить реалистичные цели, повышать скорость сайта и почему стремиться к 100 баллам — НЕПРАВИЛЬНАЯ цель.
Теги:Почему вы хотите деиндексировать страницу?
Автор Обрей Улики
Вы когда-нибудь задумывались, как быстро появляются результаты поиска при вводе ключевого слова или фразы в Google? В одну минуту вы набираете «рестораны рядом со мной», а в следующую вы просматриваете миллионы похожих результатов.Вопреки распространенному мнению, поисковые системы на самом деле не сканируют Интернет при получении этих результатов — они ищут в Интернете свой индекс .
Индекс Google — это список ранее просканированных веб-страниц. Другими словами, когда веб-страница «проиндексирована», она может появиться в результатах поиска. Если страница не проиндексирована, она не будет отображаться независимо от того, что введено в Google.
Вы можете подумать: «Зачем мне вообще скрывать страницы от поисковых систем? Я хочу, чтобы люди находили мой веб-сайт любым возможным способом — чем больше страниц, тем лучше! » Но так бывает не всегда.В некоторых ситуациях лучше всего защитить страницы веб-сайта от сканирования поисковыми системами. Если на вашем веб-сайте есть один из следующих примеров, рассмотрите возможность деиндексации:
- Устаревшее содержимое : Возможно, у вас есть сообщения в блоге нескольких лет назад, которые не совсем соответствуют сегодняшним новостям, но вы не хотите удалять их со своего веб-сайта, потому что планируете обновить их в какой-то момент. . Держите их сейчас скрытыми от поисковых систем, но проиндексируйте их позже.
- Дублированное содержание: Алгоритм Google наказывает веб-сайты за дублированное содержание.У вас есть один контент, который предлагается посетителям в разных формах? Убедитесь, что поисковым системам доступен только один формат. Если у вас действительно есть дублирующийся контент на вашем сайте, добавьте канонические теги, чтобы избежать штрафных санкций. Канонические теги сообщают поисковым системам, какие страницы наиболее важны. Таким образом, если у вас есть две страницы с одинаковым содержанием, поисковые системы распознают страницу с каноническим тегом при выдаче результатов поиска.
- Страниц практически без содержания: Допустим, покупатель делает покупки на вашем веб-сайте и находит идеальный товар.Он заполняет форму и после отправки заказа попадает на страницу подтверждения, на которой написано: «Спасибо за покупку!» Поскольку на этой странице очень мало контента, Google и другие поисковые системы не найдут ее очень полезной. В этом случае вам нужно заблокировать индексацию.
- Контент с закрытым доступом: Этот тип контента становится доступным для пользователя после того, как он заполнит форму или передаст какой-либо тип информации. Например, предположим, вы нашли интересующую вас электронную книгу, но вам нужно ввести свое имя и адрес электронной почты, чтобы загрузить ее.Это закрытый контент. После отправки формы вы, скорее всего, будете перенаправлены на страницу с благодарностью, где сможете скачать свое предложение. Важно деиндексировать страницы с закрытым содержанием, чтобы люди не могли попасть на страницу благодарности до того, как вы получите их информацию.
Это лишь несколько случаев, когда деиндексирование веб-страницы может быть хорошим решением. Теперь вы задаетесь вопросом: «Как мне это сделать?» Есть много способов запретить поисковым системам индексировать страницы вашего сайта.Мы рассмотрим, как деиндексировать страницы в HubSpot и WordPress, используя несколько распространенных методов: robots.txt, теги noindex и карты сайта.
Во-первых, давайте кратко рассмотрим каждый метод.
Robots.txtЭто файл, который веб-сайты используют для связи с поисковыми системами и другими роботами. Сканеры читают файл, чтобы узнать, какие страницы они должны и не должны индексировать. Вы просто вводите «Disallow», затем двоеточие и пробел, а затем вводите относительный URL-адрес.
Disallow: / relative-URL /
.Вот пример веб-сайта с 18 страницами, которые заблокированы от индексации:
Тег «NoIndex»Тег «noindex» — это еще один метод, который можно использовать, если вы хотите заблокировать поисковую систему от индексации вашей веб-страницы. Этот тег представляет собой строку кода, которую можно добавить в HTML-код страницы веб-сайта — для правильной работы ее необходимо скопировать в раздел заголовка. Строку кода можно найти ниже:
Карты сайтаКарта сайта — это список всех страниц (или URL-адресов), на которые пользователь может перейти на веб-сайте.Поисковые системы также используют карты сайта при индексировании страниц веб-сайтов. Вы можете отправить свою карту сайта в Google через Search Console, выбрав «Оптимизация», а затем «Карты сайта». Вот пример:
Имейте в виду, что наличие карты сайта не означает, что все страницы будут проиндексированы. Если алгоритм Google определяет содержание определенной страницы как низкое качество, он не будет отображать эту страницу в результатах поиска.
Теперь, когда вы понимаете, какие методы можно использовать для деиндексации страниц, давайте перейдем к делу.Далее мы покажем вам, как деиндексировать страницы с помощью платформ HubSpot и WordPress.
HubSpot Robots.txtЧтобы настроить файл robots.txt в HubSpot, перейдите к значку шестеренки (Настройки) в правом верхнем углу. В левом меню выберите Marketing > Web Pages . Прокрутите вниз и настройте способ доступа поисковых систем к опубликованным страницам с помощью функции «запретить».Настроенные здесь настройки будут применяться ко всем опубликованным страницам.
Метатег «NoIndex»Скопируйте строку кода и войдите в свою учетную запись HubSpot Marketing. Перейдите на страницу, которую вы хотите заблокировать для поисковых систем ( Marketing > Website > Landing Pages (или Web Pages )> Edit > Settings > Advanced Options > Additional code snippets > Заголовок HTML. Вставьте строку кода, как показано ниже.
Карта сайтаВсе карты сайта HubSpot можно найти, добавив /sitemap.xml в конец домена. Например: https://www.smartbugmedia.com/sitemap.xml. Чтобы обновить страницы, перечисленные в карте сайта, щелкните значок шестеренки на главной панели навигации. Затем вы можете перейти к Домены и URL-адреса и выбрать Sitemap. Чтобы удалить страницу из карты сайта, просто наведите на нее курсор и нажмите Удалить .
WordPress Robots.txtЕсли веб-сайт размещен на WordPress, автоматически создается файл robots.txt. Чтобы найти свой файл, добавьте /robots.txt в конец URL-адреса. Хотя этот файл легко найти, поскольку он создается по умолчанию, вы не можете его редактировать. Если вы не хотите использовать файл по умолчанию, вам нужно будет создать файл на сервере.
Создание файла на сервере позволит вам редактировать файл robots.txt файл. Самый простой способ сделать это — использовать плагин Yoast SEO. Сначала включите расширенные функции, перейдя к SEO > Dashboard > Features > Страницы дополнительных настроек > Включено . Затем перейдите к SEO > Инструменты > Редактор файлов . Затем вы можете создать и отредактировать файл robots.txt.
Что делать, если я не использую плагин SEO?Хорошие новости! Тебе не повезло.Вы по-прежнему можете создать файл robots.txt и связать его со своим веб-сайтом через протокол защищенной передачи файлов (FTP). Для этого в текстовом редакторе создайте пустой файл и назовите его robots.txt .
Рекомендуемый текстовый редактор для пользователей Windows: Notepad ++
Рекомендуемый текстовый редактор для пользователей Mac: скобки
В вашем файле используйте две команды: user-agent и disallow.
Затем вы подключите свой веб-сайт WordPress к FTP и загрузите файл robots.txt в корневую папку. Не забудьте проверить свой файл с помощью консоли поиска Google ( Crawl > robots.txt Tester ).
Мета-тег «NoIndex» / карта сайтаПо умолчанию индексируются все записи и страницы WordPress. Другой способ заблокировать страницу от поисковых систем — добавить метатег «noindex» через плагин Yoast SEO. Скопируйте строку кода и войдите в свою учетную запись WordPress. Перейдите к статье или сообщению, которое вы хотите деиндексировать.В плагине Yoast SEO щелкните значок шестеренки (если вы его не видите, включите функции, перейдя к SEO > Панель мониторинга > Функции > На ). Затем вы можете создать метатег «noindex» под Meta robots advanced .
Используйте тот же путь, если хотите удалить страницу из файла Sitemap. Меньше Разрешить поисковым системам показывать это сообщение в результатах поиска? выберите вариант из раскрывающегося списка без .
Если вы не используете Yoast SEO, рассмотрите возможность загрузки еще одного плагина WordPress noindex для упрощения внедрения тегов.
В путьТеперь, когда вы знаете, почему вы хотите деиндексировать страницу и как это сделать на своей платформе, пора приступить. Создайте список всех ваших устаревших страниц, дублированного контента и посторонних страниц. Выделите время, чтобы обновить файл robots.txt, добавить метатег noindex или удалить страницы из карты сайта.Это беспроигрышный вариант для вас, ваших клиентов и поисковых систем.
unsplash-logoДжон МатычукОб авторе
Обрей Улики является старшим директором по входящему маркетингу в SmartBug Media. После знакомства с HubSpot в 2014 году она начала внедрять входящую методологию как для клиентов B2B, так и для клиентов B2C.