Как запретить индексацию сайта: robots.txt, Google meta-

Содержание

Как закрыть сайт от индексации в robots.txt

Время прочтения: 4 минуты

О чем статья?

  • Каким страницам и сайтам не нужно индексирование
  • Когда нужно скрыть весь сайт, а когда — только часть его
  • Как выбирать теги, закрывающие индексацию

Кому полезна эта статья?
  • Контент-редакторам
  • Администраторам сайтов
  • Владельцам сайтов

Итак, в то время как все ресурсы мира гонятся за вниманием поисковых роботов ради вхождения в ТОП, вы решили скрыться от индексирования. На самом деле для этого может быть масса объективных причин. Например, сайт в разработке или проводится редизайн интерфейса.


Когда закрывать сайт целиком, а когда — его отдельные части? 

Маленькие сайты-визитки обычно не требуют сокрытия отдельных страниц. Если ресурс имеет большое количество служебной информации, делайте закрытый портал или закрывайте страницы и целые разделы. 

Желательно запрещать индексацию так называемых мусорных страниц. Это старые новости, события и мероприятия в календаре. Если у вас интернет-магазин, проверьте, чтобы в поиске не оказались устаревшие акции, скидки и информация о товарах, снятых с продажи. На информационных сайтах закрывайте статьи с устаревшей информацией. Иначе ресурс будет восприниматься неактуальным. Чтобы не закрывать статьи и материалы, регулярно обновляйте данные в них.

Лучше скрыть также всплывающие окна и баннеры, скрипты, размещенные на сайте файлы, особенно если последние много весят. Это уменьшит время индексации в целом, что положительно воспринимается поиском, и снизит нагрузку на сервер.


Как узнать, закрыт ресурс или нет? 

Чтобы точно знать, идет ли индексация robots txt, сначала проверьте: возможно, закрытие сайта или отдельных страниц уже осуществлено? В этом помогут сервисы поисковиков Яндекс.Вебмастер и Google Search Console. Они покажут, какие url вашего сайта индексируются. Если сайт не добавлен в сервисы поисковиков, можно использовать бесплатный инструмент «Определение возраста документа в Яндексе» от Пиксел Тулс.

Закрываем сайт и его части: пошаговая инструкция.

  • Для начала найдите в корневой папке сайта файл robots.txt. Для этого используйте поиск.
  • Если ничего не нашли — создайте в Блокноте или другом текстовом редакторе документ с названием robots расширением .txt. Позже его надо будет загрузить в корневую папку сайта.
  • Теперь в этом файле HTML-тегами детально распишите, куда заходить роботу, а куда не стоит.

Как полностью закрыть сайт в роботс? 

Приведем пример закрытия сайта для основных роботов. Все вместе они обозначаются значком *.


Файл robots.txt позволяет закрывать папки на сайте, файлы, скрипты, utm-метки. Их можно скрыть полностью или выборочно. При этом также указывайте запрет для индексации всем роботам или тем из них, кто ищет картинки, видео и т.п. Например, указание Яндексу не засылать к вам поиск картинок будет выглядеть как


Здесь YandexImages — название робота Яндекса, который ищет изображения. Полные списки роботов можно посмотреть в справке поисковых систем. 

Как закрыть отдельные разделы/страницы или типы контента? 

Выше мы показали, как запрещать основным или вспомогательным роботам заходить на сайт. Можно сделать немного по-другому: не искать имена роботов, отвечающих за поиск картинок, а запретить всем роботам искать на сайте определенный тип контента. В этом случае в директиве Disallow: / указываете либо тип файлов по модели *.расширениефайлов, либо относительный адрес страницы или раздела.


Прячем ненужные ссылки 

Иногда скрыть от индексирования нужно ссылку на странице. Для этого у вас есть два варианта.

  • В HTML-коде самой этой страницы укажите метатег robots с директивой nofollow. Тогда поисковые роботы не будут переходить по ссылкам на странице, но на них может вести другой материал вашего или сторонних сайтов.
  • В саму ссылку добавьте атрибут rel="nofollow".

Данный атрибут рекомендует роботу не принимать ссылку во внимание. В этом случае запрет индексации работает и тогда, когда поисковая система находит ссылку не через страницу, где переход закрыт в HTML-коде.

Как закрыть сайт через мета-теги 

Альтернативой файлу robots.txt являются теги, закрывающие индексации сайта или видов контента. Это мета-тег robots. Прописывайте его в исходный код сайта в файле index.html и размещайте в контейнере <head>. 

Существуют два варианта записи мета-тега.


Указывайте, для каких краулеров сайт закрыт от индексации. Если для всех, напишите robots. Если для одного робота, укажите его название: Googlebot, Яндекс.

Поле “content” из 1 варианта может иметь следующие значения: 

  • none — индексация запрещена, включая noindex и nofollow;
  • noindex — запрещена индексация содержимого;
  • nofollow — запрещена индексация ссылок;
  • follow — разрешена индексация ссылок;
  • index — разрешена индексация;
  • all — разрешена индексация содержимого и ссылок.

Таким образом, можно запретить индексацию содержимого сайта независимо от файла robots.txt при помощи content=”noindex, follow”. Или разрешить ее частично: например, вы хотите не индексировать текст, а ссылки — пожалуйста. Используйте для разных случаев сочетания значений.  

Если закрыть сайт от индексации через мета-теги, создавать robots.txt отдельно не нужно.

Какие встречаются ошибки 

Логические ошибки означают, что правила противоречат друг другу. Выявляйте логические ошибки через проверку файла robots.txt в панелях инструментах Яндекс.Вебмастер и Google, прежде чем загрузить его на сайт..

Синтаксические — неправильно записаны правила в файле. 



Выводы 

  • Запрет на индексирование — весьма полезная возможность. Убирая служебные, повторяющиеся и устаревшие блоки на страницах, вы повысите уникальность контента и экспертность сайта. 
  • Для проверки того, какие страницы индексируются, проще всего использовать службы поисковиков, но можно воспользоваться сторонними сервисами. 
  • Вы можете использовать 2 варианта: закрытие страницы через файл robots.txt или же мета-тег robots в файле index.html. Оба файла находятся в корневом каталоге. 
  • Закрывая служебную информацию, устаревающие данные, скрипты, сессии и utm-метки, для каждого запрета создавайте отдельное правило в файле robots.txt или отдельный мета-тег. 
  • Разнообразие настроек позволяет точно отобрать и закрыть те части контента, которые, будучи в поиске, не ведут к конверсии, и при этом не могут быть удалены с сайта. 

Материал подготовила Светлана Сирвида-Льорентэ.

Как закрыть сайт или его страницы от индексации: подробная инструкция

Что нужно закрывать от индексации

Важно, чтобы в поисковой выдаче были исключительно целевые страницы, соответствующие запросам пользователей. Поэтому от индексации в обязательном порядке нужно закрывать:

1. Бесполезные для посетителей страницы или контент, который не нужно индексировать. В зависимости от CMS, это могут быть:

  • страницы административной части сайта;
  • страницы с личной информацией пользователей, например, аккаунты в блогах и на форумах;
  • дубли страниц;
  • формы регистрации, заказа, страница корзины;
  • страницы с неактуальной информацией;
  • версии страниц для печати;
  • RSS-лента;
  • медиа-контент;
  • страницы поиска и т.д.

2. Страницы с нерелевантным контентом на сайте, который находится в процессе разработки.

3. Страницы с информацией, предназначенной для определенного круга лиц, например, корпоративные ресурсы для взаимодействий между сотрудниками одной компании.

4. Сайты-аффилиаты.

Если вы закроете эти страницы, процесс индексации других, наиболее важных для продвижения страниц сайта ускорится.

    Способы закрытия сайта от индексации

    Закрыть сайт или страницы сайта от поисковых краулеров можно следующими способами:

    1. С помощью файла robots.txt и специальных директив.
    2. Добавив метатеги в HTML-код отдельной страницы.
    3. С помощью специального кода, который нужно добавить в файл .htaccess.
    4. Воспользовавшись специальными плагинами (если сайт сделан на популярной CMS).

    Далее рассмотрим каждый из этих способов.

    С помощью robots.txt

    Robots.txt — текстовый файл, который поисковые краулеры посещают в первую очередь. Здесь для них прописываются указания — так называемые директивы.

    Этот файл должен соответствовать следующим требованиям:

    • название файла прописано в нижнем регистре;
    • он имеет формат .txt;
    • его размер не превышает 500 КБ;
    • находится в корне сайте;
    • файл доступен по адресу URL сайта/robots.txt, а при его запросе сервер отправляет в ответ код 200 ОК.

    В robots.txt прописываются такие директивы:

    • User-agent. Показывает, для каких именно роботов предназначены директивы.
    • Disallow. Указывает роботу на то, что некоторое действие (например, индексация) запрещено.
    • Allow. Напротив, разрешает совершать действие.
    • Sitemap. Указывает на прямой URL-адрес карты сайта.
    • Clean-param. Помогает роботу Яндекса правильно определять страницу для индексации.
    Имейте в виду: поскольку информация в файле robots.txt — это скорее указания или рекомендации, нежели строгие правила, некоторые системы могут их игнорировать. В таком случае в индекс попадут все страницы вашего сайта.
    Полный запрет сайта на индексацию в robots.txt

    Вы можете запретить индексировать сайт как всем роботам поисковой системы, так и отдельно взятым. Например, чтобы закрыть весь сайт от робота Яндекса, который сканирует изображения, нужно прописать в файле следующее:

    User-agent: YandexImages 
    Disallow: /  

    Чтобы закрыть для всех роботов:

    User-agent: * 
    Disallow: / 

    Чтобы закрыть для всех, кроме указанного:

    User-agent: * 
    Disallow: / 
    User-agent: Yandex 
    Allow: / 

    В данном случае, как видите, индексация доступна для роботов Яндекса.

    Запрет на индексацию отдельных страниц и разделов сайта

    Для запрета на индексацию одной страницы достаточно прописать ее URL-адрес (домен не указывается) в директиве файла:

    User-agent: *
    Disallow: /registration.html

    Чтобы закрыть раздел или категорию:

    User-agent: *
    Disallow: /category/  

    Чтобы закрыть все, кроме указанной категории:

    User-agent: *
    Disallow: /
    Allow: /category

    Чтобы закрыть все категории, кроме указанной подкатегории:

    User-agent: *
    Disallow: /uslugi
    Allow: /uslugi/main 

    В качестве подкатегории здесь выступает "main".

    Запрет на индексацию прочих данных

    Чтобы скрыть директории, в файле нужно указать:

    User-agent: *
    Disallow: /portfolio/ 

    Чтобы скрыть всю директорию, за исключением указанного файла:

    User-agent: *
    Disallow: /portfolio/
    Allow: avatar.png 

    Чтобы скрыть UTM-метки:

    User-agent: *
    Disallow: *utm= 

    Чтобы скрыть скриптовые файлы, нужно указать следующее:

      User-agent: *  
      Disallow: /scripts/*.ajax
    

    По такому же принципу скрываются файлы определенного формата:

    User-agent: *
    Disallow: /*.png

    Вместо .png подставьте любой другой формат.

    Через HTML-код

    Запретить индексировать страницу можно также с помощью метатегов в блоке <head> в HTML-коде.

    Атрибут "content" здесь может содержать следующие значения:

    • index. Разрешено индексировать все содержимое страницы;
    • noindex. Весь контент страницы, кроме ссылок, закрыт от индексации;
    • follow. Разрешено индексировать ссылки;
    • nofollow. Разрешено сканировать контент, но ссылки при этом закрыты от индексации;
    • all. Все содержимое страницы подлежит индексации.

    Открывать и закрывать страницу и ее контент можно для краулеров определенной ПС. Для этого в атрибуте "name" нужно указать название робота:

    • yandex — обозначает роботов Яндекса:
    • googlebot — аналогично для Google.
    Помимо прочего, существует метатег Meta Refresh. Как правило, Google не индексирует страницы, в коде которых он прописан. Однако использовать его именно с этой целью не рекомендуется.

    Так выглядит фрагмент кода, запрещающий индексировать страницу:

    <html>
        <head>
            <meta name="robots" content="noindex, nofollow" />
        </head>
        <body>...</body>
    </html>

    Чтобы запретить индексировать страницу краулерам Google, нужно ввести:

    <meta name="googlebot" content="noindex, nofollow"/>

    Чтобы сделать то же самое в Яндексе:

    <meta name="yandex" content="none"/>

    На уровне сервера

    В некоторых случаях поисковики игнорируют запреты и продолжают индексировать все данные.Yandex" search_bot

    На WordPress

    В процессе создания сайта на готовой CMS нужно закрывать его от индексации. Здесь мы разберем, как сделать это в популярной CMS WordPress.

    Закрываем весь сайт

    Закрыть весь сайт от краулеров можно в панели администратора: «Настройки» => «Чтение». Выберите пункт «Попросить поисковые системы не индексировать сайт». Далее система сама отредактирует файл robots.txt нужным образом.


    Закрытие сайта от индексации через панель администратора в WordPress

    Закрываем отдельные страницы с помощью плагина Yoast SEO

    Чтобы закрыть от индексации как весь сайт, так и его отдельные страницы или файлы, установите плагин Yoast SEO.

    Для запрета на индексацию вам нужно:

    • Открыть страницу для редактирования и пролистать ее вниз до окна плагина.
    • Настроить режим индексации на вкладке «Дополнительно».


    Закрытие от индексации с помощью плагина Yoast SEO


    Настройка режима индексации

    Запретить индексацию сайта на WordPress можно также через файл robots.txt. Отметим, что в этом случае требуется особый подход к редактированию данного файла, так как необходимо закрыть различные служебные элементы: страницы рассылок, панели администратора, шаблоны и т.д. Если этого не сделать, в поисковой выдаче могут появиться нежелательные материалы, что негативно скажется на ранжировании всего сайта.

    Как узнать, закрыт ли сайт от индексации

    Есть несколько способов, которыми вы можете воспользоваться, чтобы проверить, закрыт ли ваш сайт или его отдельная страница от индексации или нет. Ниже рассмотрим самые простые и удобные из них.

    В Яндекс.Вебмастере

    Для проверки вам нужно пройти верификацию в Яндексе, зайти в Вебмастер, в правом верхнем углу найти кнопку «Инструменты», нажать и выбрать «Проверка ответа сервера».


    Проверка возможности индексации страницы в Яндекс.Вебмастере

    В специальное поле на открывшейся странице вставляем URL интересующей страницы. Если страница закрыта от индексации, то появится соответствующее уведомление.


    Так выглядит уведомление о запрете на индексацию страницы

    Таким образом можно проверить корректность работы файла robots.txt или плагина для CMS.

    В Google Search Console

    Зайдите в Google Search Console, выберите «Проверка URL» и вставьте адрес вашего сайта или отдельной страницы.


    Проверка возможности индексации в Google Search Console

    С помощью поискового оператора

    Введите в поисковую строку следующее: site:https:// + URL интересующего сайта/страницы. В результатах вы увидите количество проиндексированных страниц и так поймете, индексируется ли сайт поисковой системой или нет.


    Проверка индексации сайта в Яндексе с помощью специального оператора


    Проверка индексации отдельной страницы

    С помощью такого же оператора проверить индексацию можно и в Google.

    С помощью плагинов для браузера

    Мы рекомендуем использовать RDS Bar. Он позволяет увидеть множество SEO-показателей сайта, в том числе статус индексации страницы в основных поисковых системах.


    Плагин RDS Bar

    Итак, теперь вы знаете, когда сайт или его отдельные страницы/элементы нужно закрывать от индексации, как именно это можно сделать и как проводить проверку, и можете смело применять новые знания на практике.

    Как полностью скрыть сайт от индексации?

    Про то, как закрыть от индексации отдельную страницу и для чего это нужно мы уже писали. Но могут возникнуть случаи, когда от индексации надо закрыть весь сайт или зеркало, что проблематичнее. Существует несколько способов. О них мы сегодня и расскажем.

    Существует несколько способов закрыть сайт от индексации.

    Запрет в файле robots.txt

    Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В  файле должны находиться всего лишь две строчки:

    User-agent: *
    Disallow: /

    Остальные правила должны быть удалены.

    Этот метод самый простой для скрытия сайта от индексации.

    С помощью мета-тега robots

    Прописав в шаблоне страниц сайта следующее правило <meta name="robots" content="noindex, nofollow"/> или <meta name="robots" content="none"/> в теге <head>, вы запретите его индексацию.

    Как закрыть зеркало сайта от индексации

    Зеркало — точная копия сайта, доступная по другому домену. Т.е. два разных домена настроены на одну и ту же папку с сайтом. Цели создания зеркал могут быть разные, но в любом случае мы получаем полную копию сайта, которую рекомендуется закрыть от индексации.

    Сделать это стандартными способами невозможно, т.к. по адресам domen1.ru/robots.txt и domen2.ru/robots.txt открывается один и тот же файл robots.txt с одинаковым содержанием. В таком случае необходимо провести специальные настройки на сервере, которые позволят одному из доменов отдавать запрещающий robots.txt.

    #104

    Февраль'19 1248 21

    #94

    Декабрь'18 3146 28

    #60

    Февраль'18 3809 19

    Как запретить индексацию сайта с техническим адресом в облаке Webasyst — Webasyst

    Проблема

    Вы создали временный сайт в облаке Webasyst на техническом домене ***.webasyst.cloud и позже создали новый сайт на собственном домене mydomain.ru, но сайт на техническом домене успел попасть в индексы поисковых систем.

    Задача

    Убрать временный сайт на техническом домене из результатов поиска.

    Решение

    Способ 1. Запретить индексацию сайта с техническим доменом

    В приложении «Сайт» выберите сайт с техническим доменом и откройте раздел «Настройки сайта».

    В поле «robots.txt» удалите всё содержимое и добавьте

    
    User-agent: *
    Disallow: /

    Эти команды «скажут» поисковым системам, что этот сайт не нужно индексировать. Со временем сайт с техническим доменом пропадёт из результатов поиска — это может занять от нескольких недель до нескольких месяцев.

    Настройте перенаправление со страниц старого сайта на новый сайт

    Пока старые ссылки на сайт с техническим адресом не будут удалены из результатов поиска, настройте перенаправление, чтобы пользователи поисковых систем сразу попадали на новый сайт.

    Способ 2. Удалить сайт с техническим доменом

    Проверьте в приложении «Сайт»: у вас должно быть настроено несколько сайтов: с техническим адресом и с вашим зарегистрированным доменом. Список сайтов есть в верхнем левом углу на страницах приложения «Сайт».

    Выберите сайт с техническим доменом и откройте раздел «Страницы»: перенесли ли вы все нужные страницы с этого временного сайта на рабочий сайт с зарегистрированным доменом.

    Если полезных страниц на временном сайте не осталось, убедитесь, что слева вверху выбран сайт с техническим доменом, затем перейдите в раздел «Настройки сайта» и выберите «Удалить сайт». Будет удален только выбранный сайт: его настройки, структура и страницы. Все остальные настроенные сайты продолжат работать без изменений.

    При использовании этого способа не получится настроить перенаправление с адресов временного сайта на новый сайт в разделе «Структура» и добавить правило запрета индексации в поле «robots.txt».

    Какие страницы сайта следует закрывать от индексации поисковых систем

    Индексирование сайта – это процесс, с помощью которого поисковые системы, подобные Google и Yandex, анализируют страницы веб-ресурса и вносят их в свою базу данных. Индексация выполняется специальным ботом, который заносит всю необходимую информацию о сайте в систему – веб-страницы, картинки, видеофайлы, текстовый контент и прочее. Корректное индексирование сайта помогает потенциальным клиентам легко найти нужный сайт в поисковой выдаче, поэтому важно знать обо всех тонкостях данного процесса.

    В сегодняшней статье я рассмотрю, как правильно настроить индексацию, какие страницы нужно открывать для роботов, а какие нет.

    Почему важно ограничивать индексацию страниц

    Заинтересованность в индексации есть не только у собственника веб-ресурса, но и у поисковой системы – ей необходимо предоставить релевантную и, главное, ценную информацию для пользователя. Чтобы удовлетворить обе стороны, требуется проиндексировать только те страницы, которые будут интересны и целевой аудитории, и поисковику.

    Прежде чем переходить к списку ненужных страниц для индексации, давайте рассмотрим причины, из-за которых стоит запрещать их выдачу. Вот некоторые из них:

    1. Уникальность контента – важно, чтобы вся информация, передаваемая поисковой системе, была неповторима. При соблюдении данного критерия выдача может заметно вырасти. В противном случае поисковик будет сначала искать первоисточник – только он сможет получить доверие.
    2. Краулинговый бюджет – лимит, выделяемый сайту на сканирование. Другими словами, это количество страниц, которое выделяется каждому ресурсу для индексации. Такое число обычно определяется для каждого сайта индивидуально. Для лучшей выдачи рекомендуется избавиться от ненужных страниц.

    В краулинговый бюджет входят: взломанные страницы, файлы CSS и JS, дубли, цепочки редиректов, страницы со спамом и прочее.

    Что нужно скрывать от поисковиков

    В первую очередь стоит ограничить индексирование всего сайта, который еще находится на стадии разработки. Именно так можно уберечь базу данных поисковых систем от некорректной информации. Если ваш веб-ресурс давно функционирует, но вы не знаете, какой контент стоит исключить из поисковой выдачи, то рекомендуем ознакомиться с нижеуказанными инструкциями.

    PDF и прочие документы

    Часто на сайтах выкладываются различные документы, относящиеся к контенту определенной страницы (такие файлы могут содержать и важную информацию, например, политику конфиденциальности).

    Рекомендуется отслеживать поисковую выдачу: если заголовки PDF-файлов отображаются выше в рейтинге, чем страницы со схожим запросом, то их лучше скрыть, чтобы открыть доступ к наиболее релевантной информации. Отключить индексацию PDF и других документов вы можете в файле robots.txt.

    Разрабатываемые страницы

    Стоит всегда избегать индексации разрабатываемых страниц, чтобы рейтинг сайта не снизился. Используйте только те страницы, которые оптимизированы и наполнены уникальным контентом. Настроить их отображение можно в файле robots.txt.

    Копии сайта

    Если вам потребовалось создать копию веб-ресурса, то в этом случае также необходимо все правильно настроить. В первую очередь укажите корректное зеркало с помощью 301 редиректа. Это позволит оставить прежний рейтинг у исходного сайта: поисковая система будет понимать, где оригинал, а где копия. Если же вы решитесь использовать копию как оригинал, то делать это не рекомендуется, так как возраст сайта будет обнулен, а вместе с ним и вся репутация.

    Веб-страницы для печати

    Иногда контент сайта требует уникальных функций, которые могут быть полезны для клиентов. Одной из таких является «Печать», позволяющая распечатать необходимые страницы на принтере. Создание такой версии страницы выполняется через дублирование, поэтому поисковые роботы могут с легкостью установить копию как приоритетную. Чтобы правильно оптимизировать такой контент, необходимо отключить индексацию веб-страниц для печати. Сделать это можно с использованием AJAX, метатегом <meta name="robots" content="noindex, follow"/> либо в файле robots.txt.

    Формы и прочие элементы сайта

    Большинство сайтов сейчас невозможно представить без таких элементов, как личный кабинет, корзина пользователя, форма обратной связи или регистрации. Несомненно, это важная часть структуры веб-ресурса, но в то же время она совсем бесполезна для поисковых запросов. Подобные типы страниц необходимо скрывать от любых поисковиков.

    Страницы служебного пользования

    Формы авторизации в панель управления и другие страницы, используемые администратором сайта, не несут никакой важной информации для обычного пользователя. Поэтому все служебные страницы следует исключить из индексации.

    Личные данные пользователя

    Вся персональная информация должна быть надежно защищена – позаботиться о ее исключении из поисковой выдачи нужно незамедлительно. Это относится к данным о платежах, контактам и прочей информации, идентифицирующей конкретного пользователя.

    Страницы с результатами поиска по сайту

    Как и в случае со страницами, содержащими личные данные пользователей, индексация такого контента не нужна: веб-страницы результатов полезны для клиента, но не для поисковых систем, так как содержат неуникальное содержание.

    Сортировочные страницы

    Контент на таких веб-страницах обычно дублируется, хоть и частично. Однако индексация таких страниц посчитается поисковыми системами как дублирование. Чтобы снизить риск возникновения таких проблем, рекомендуется отказаться от подобного контента в поисковой выдаче.

    Пагинация на сайте

    Пагинация – без нее сложно представить существование любого крупного веб-сайта. Чтобы понять ее назначение, приведу небольшой пример: до появления типичных книг использовались свитки, на которых прописывался текст. Прочитать его можно было путем развертывания (что не очень удобно). На таком длинном холсте сложно найти нужную информацию, нежели в обычной книге. Без использования пагинации отыскать подходящий раздел или товар также проблематично.

    Пагинация позволяет разделить большой массив данных на отдельные страницы для удобства использования. Отключать индексирование для такого типа контента нежелательно, требуется только настроить атрибуты rel="canonical", rel="prev" и rel="next". Для Google нужно указать, какие параметры разбивают страницы – сделать это можно в Google Search Console в разделе «Параметры URL».

    Помимо всего вышесказанного, рекомендуется закрывать такие типы страниц, как лендинги для контекстной рекламы, страницы с результатами поиска по сайту и поиск по сайту в целом, страницы с UTM-метками.

    Какие страницы нужно индексировать

    Ограничение страниц для поисковых систем зачастую становится проблемой – владельцы сайтов начинают с этим затягивать или случайно перекрывают важный контент. Чтобы избежать таких ошибок, рекомендуем ознакомиться с нижеуказанным списком страниц, которые нужно оставлять во время настройки индексации сайта.

    1. В некоторых случаях могут появляться страницы-дубликаты. Часто это связано со случайным созданием дублирующих категорий, привязкой товаров к нескольким категориям и их доступность по различным ссылкам. Для такого контента не нужно сразу же бежать и отключать индексацию: сначала проанализируйте каждую страницу и посмотрите, какой объем трафика был получен. И только после этого настройте 301 редиректы с непопулярных страниц на популярные, затем удалите те, которые совсем не эффективны.
    2. Страницы смарт-фильтра – благодаря им можно увеличить трафик за счет низкочастотных запросов. Важно, чтобы были правильно настроены мета-теги, 404 ошибки для пустых веб-страниц и карта сайта.

    Соблюдение индексации таких страниц может значительно улучшить поисковую выдачу, если ранее оптимизация не проводилась.

    Как закрыть страницы от индексации

    Мы детально рассмотрели список всех страниц, которые следует закрывать от поисковых роботов, но о том, как это сделать, прошлись лишь вскользь – давайте это исправлять. Выполнить это можно несколькими способами: с помощью файла robots.txt, добавления специальных метатегов, кода, сервисов для вебмастеров, а также с использованием дополнительных плагинов. Рассмотрим каждый метод более детально.

    Способ 1: Файл robots.txt

    Данный текстовый документ – это файл, который первым делом посещают поисковики. Он предоставляет им информацию о том, какие страницы и файлы на сайте можно обрабатывать, а какие нет. Его основная функция – сократить количество запросов к сайту и снизить на него нагрузку. Он должен удовлетворять следующим критериям:

    • наименование прописано в нижнем регистре;
    • формат указан как .txt;
    • размер не должен превышать 500 Кб;
    • местоположение – корень сайта;
    • находится по адресу URL/robots.txt, при запросе сервер отправляет в ответ код 200.

    Прежде чем переходить к редактированию файла, рекомендую обратить внимание на ограничивающие факторы.

    • Директивы robots.txt поддерживаются не всеми поисковыми системами. Большинство поисковых роботов следуют тому, что написано в данном файле, но не всегда придерживаются правил. Чтобы полностью скрыть информацию от поисковиков, рекомендуется воспользоваться другими способами.
    • Синтаксис может интерпретироваться по-разному в зависимости от поисковой системы. Потребуется узнать о синтаксисе в правилах конкретного поисковика.
    • Запрещенные страницы в файле могут быть проиндексированы при наличии ссылок из прочих источников. По большей части это относится к Google – несмотря на блокировку указанных страниц, он все равно может найти их на других сайтах и добавить в выдачу. Отсюда вытекает то, что запреты в robots.txt не исключают появление URL и другой информации, например, ссылок. Решить это можно защитой файлов на сервере при помощи пароля либо директивы noindex в метатеге.

    Файл robots.txt включает в себя такие параметры, как:

    • User-agent – создает указание конкретному роботу.
    • Disallow – дает рекомендацию, какую именно информацию не стоит сканировать.
    • Allow – аналогичен предыдущему параметру, но в обратную сторону.
    • Sitemap – позволяет указать расположение карты сайта sitemap.xml. Поисковый робот может узнать о наличии карты и начать ее индексировать.
    • Clean-param – позволяет убрать из индекса страницы с динамическими параметрами. Подобные страницы могут отдавать одинаковое содержимое, имея различные URL-страницы.
    • Crawl-delay – снижает нагрузку на сервер в том случае, если посещаемость поисковых ботов слишком велика. Обычно используется на сайтах с большим количеством страниц.

    Теперь давайте рассмотрим, как можно отключить индексацию определенных страниц или всего сайта. Все пути в примерах – условные. 

    Пропишите, чтобы исключить индексацию сайта для всех роботов:

    
    User-agent: *
    
    Disallow: /

    Закрывает все поисковики, кроме одного:

    
    User-agent: *
    
    Disallow: /
    
    User-agent: Google
    
    Allow: /

    Запрет на индексацию одной страницы:

    
    User-agent: *
    
    Disallow: /page.html

    Закрыть раздел:

    
    User-agent: *
    
    Disallow: /category

    Все разделы, кроме одного:

    
    User-agent: *
    
    Disallow: /
    
    Allow: /category

    Все директории, кроме нужной поддиректории:

    
    User-agent: *
    
    Disallow: /direct
    
    Allow: /direct/subdirect

    Скрыть директорию, кроме указанного файла:

    
    User-agent: *
    
    Disallow: /category
    
    Allow: photo.png

    Заблокировать UTM-метки:

    
    User-agent: *
    
    Disallow: *utm=

    Заблокировать скрипты:

    
    User-agent: * 
    
    Disallow: /scripts/*.js

    Я рассмотрел один из главных файлов, просматриваемых поисковыми роботами. Он использует лишь рекомендации, и не все правила могут быть корректно восприняты.

    Способ 2: HTML-код

    Отключение индексации можно осуществить также с помощью метатегов в блоке <head>. Обратите внимание на атрибут «content», он позволяет:

    • активировать индексацию всей страницы;
    • деактивировать индексацию всей страницы, кроме ссылок;
    • разрешить индексацию ссылок;
    • индексировать страницу, но запрещать ссылки;
    • полностью индексировать веб-страницу.

    Чтобы указать поискового робота, необходимо изменить атрибут «name», где устанавливается значение yandex для Яндекса и googlebot – для Гугла.

    Пример запрета индексации всей страницы и ссылок для Google:

    
    <html>
    
        <head>
    
            <meta name="googlebot" content="noindex, nofollow" />
    
        </head>
    
        <body>...</body>
    
    </html>

    Также существует метатег под названием Meta Refresh. Он предотвращает индексацию в Гугле, однако использовать его не рекомендуется.

    Способ 3: На стороне сервера

    Если поисковые системы игнорируют запрет на индексацию, можно ограничить возможность посещения ботов-поисковиков на сервере.Yandex" search_bot

    Способ 4: Для WordPress

    На CMS запретить индексирование всего сайта или страницы гораздо проще. Рассмотрим, как это можно сделать.

    Как скрыть весь сайт

    Открываем административную панель WordPress и переходим в раздел «Настройки» через левое меню. Затем перемещаемся в «Чтение» – там находим пункт «Попросить поисковые системы не индексировать сайт» и отмечаем его галочкой.

    В завершение кликаем по кнопке «Сохранить изменения» – после этого система автоматически отредактирует файл robots.txt.

    Как скрыть отдельную страницу

    Для этого необходимо установить плагин Yoast SEO. После этого открыть страницу для редактирования и промотать в самый низ – там во вкладке «Дополнительно» указать значение «Нет».

    Способ 5: Сервисы для вебмастеров

    В Google Search Console мы можем убрать определенную страницу из поисковика. Для этого достаточно перейти в раздел «Индекс Google» и удалить выбранный URL.

    Процедура запрета на индексацию выбранной страницы может занять некоторое время. Аналогичные действия можно совершить в Яндекс.Вебмастере. 

    На этом статья подходит к концу. Надеюсь, что она была полезной. Теперь вы знаете, что такое индексация сайта и как ее правильно настроить. Удачи!

    Как запретить индексацию страницы с помощью robots.txt?

    От автора: У вас на сайте есть страницы, которые вы бы не хотели показывать поисковым системам? Из этой статье вы узнаете подробно о том, как запретить индексацию страницы в robots.txt, правильно ли это и как вообще правильно закрывать доступ к страницам.

    Итак, вам нужно не допустить индексацию каких-то определенных страниц. Проще всего это будет сделать в самом файле robots.txt, добавив в него необходимые строчки. Хочу отметить, что адреса папок мы прописывали относительно, url-адреса конкретных страниц указывать таким же образом, а можно прописать абсолютный путь.

    Допустим, на моем блоге есть пару страниц: контакты, обо мне и мои услуги. Я бы не хотел, чтобы они индексировались. Соответственно, пишем:

    User-agent: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/

    User-agent: *

    Disallow: /kontakty/

    Disallow: /about/

    Disallow: /uslugi/

    Практический курс по верстке адаптивного сайта с нуля!

    Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

    Узнать подробнее

    Естественно, указываем настоящие url-адреса. Если же вам необходимо не индексировать страничку //blog.ru/about-me, то в robots.txt нужно прописать так:

    Другой вариант

    Отлично, но это не единственный способ закрыть роботу доступ к определенным страничкам. Второй – это разместить в html-коде специальный мета-тег. Естественно, разместить только в тех записях, которые нужно закрыть. Выглядит он так:

    <meta name = "robots" content = "noindex,nofollow">

    <meta name = "robots" content = "noindex,nofollow">

    Тег должен быть помещен в контейнер head в html-документе для корректной работы. Как видите, у него два параметры. Name указывается как робот и определяет, что эти указания предназначены для поисковых роботов.

    Параметр же content обязательно должен иметь два значения, которые вписываются через запятую. Первое – запрет или разрешение на индексацию текстовой информации на странице, второе – указание насчет того, индексировать ли ссылки на странице.

    Таким образом, если вы хотите, чтобы странице вообще не индексировалась, укажите значения noindex, nofollow, то есть не индексировать текст и запретить переход по ссылкам, если они имеются. Есть такое правило, что если текста на странице нет, то она проиндексирована не будет. То есть если весь текст закрыт в noindex, то индексироваться нечему, поэтому ничего и не будет попадать в индекс.

    Кроме этого есть такие значения:

    noindex, follow – запрет на индексацию текста, но разрешение на переход по ссылкам;

    index, nofollow – можно использовать, когда контент должен быть взят в индекс, но все ссылки в нем должны быть закрыты.

    index, follow – значение по умолчанию. Все разрешается.

    Запрещается использовать более двух значений. Например:

    <meta name = "robots" content = "noindex,nofollow, follow">

    <meta name = "robots" content = "noindex,nofollow, follow">

    И любые другие. В этом случае мы видим противоречие.

    Итог

    Наиболее удобным способом закрытия страницы для поискового робота я вижу использование мета-тега. В таком случае вам не нужно будет постоянно, сотни раз редактировать файл robots.txt, чтобы открыть или закрыть очередной url, а это решение принимается непосредственно при создании новых страниц.

    Практический курс по верстке адаптивного сайта с нуля!

    Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

    Узнать подробнее

    Хотите узнать, что необходимо для создания сайта?

    Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

    Смотреть

    Как правильно закрыть сайт от индексации Google и Яндекс

    Добро пожаловать на вебсайт Sitexpert (далее - "Вебсайт"). Выражения «мы», «нам», «наше», и Sitexpert относятся к Sitexpert и его собственникам. Выражение «Вы» относится к пользователю, который использует Вебсайт для получения информации о рейтинге своего сайта в Интернете. 

    Используя этот Вебсайт в любой форме Вы подтверждаете, что обязуетесь соблюдать данные Правила. Если Вы не принимаете данные Правила - не используйте Вебсайт. Мы  оставляем за собой право в любое время, на наше усмотрение, менять или дополнять Правила без предварительного предупреждения, а Ваше последующее использование Вебсайта означает Ваше принятие Правил.

    Данный Вебсайт позволяет Вам получить информацию о том на каком месте находится Ваш сайт в той или иной поисковой системе по тем запросам, которые Вы укажите. 

     

    1. Использование Вебсайта

    1.1. Используя данный Вебсайт, Вы подтверждаете что:

    1.2. Вы достигли 18-летнего возраста.

    1.3. У вас есть юридические  полномочия давать и принимать правовые обязательства.

    1.4. Вы будете использовать этот Вебсайт согласно Правил.

    1.5. Пользователь Вебсайта, размещая на Вебсайте информацию, добровольно предоставляет нам, а также третьим лицам, которые имеют доступ к этому Вебсайту, свое безусловное согласие на обработку своих персональных данных (которые содержатся в информации, собранной и/или размещаемой на Вебсайте и/или отправляемой другим Пользователям Вебайта).

    1.6. Вы соглашаетесь с тем, что мы имеем право присылать на указанный Вами при регистрации  e-mail и/или мобильный телефон информационные сообщения в т.ч. и рекламного характера.

    1.7. Вы соглашаетесь с тем, что мы предоставляем данные услуги на безоплатной основе и в любое время без Вашего согласия можем установить оплату.

    1.8. Вы соглашаетесь с тем, что мы неограничены во времени по обработке и предоставлению отчета по Вашему запросу.

    1.9. Вы соглашаетесь с тем, что данные полученные  по Вашему запросу могут быть неточными в связи с сбоями в работе поисковых систем на которых тестировался Ваш сайт.

     

    2. Отказ от гарантий

    Вы понимаете, следующее (за исключением случаев, которые запрещены законом):

    2.1. Использование вами вебсайта и/или услуг осуществляется исключительно на ваш риск. Сайт и услуги предоставляются на условиях "как есть" и "как доступно". Мы отрицаем любого вида гарантии, включая, но не ограничиваясь, гарантиями товарности, пригодности для конкретной цели и неиспользования.

    2.2. Мы не даем никаких гарантий, что:

    a) вебсайт или услуги будут соответствовать вашим требованиям;

    b) вебсайт или услуги будут предоставляться непрерывно, своевременно, безопасно, или без ошибок;

    c) результаты, которые могут быть получены посредством использования вебсайта или услуг, будут точными и надежными;

    d) качество любых продуктов, служб, информации или других материалов, полученных вами через вебсайт или услуги, будет соответствовать вашим ожиданиям, и

    e) ошибки в программном обеспечении будут исправлены, или, что любая часть сайта будет без вирусов, червей, троянских коней и.т.д. ;

    f) любой материал, загруженный или иным образом полученный посредством использования вебсайта или обслуживания, осуществляется на ваше собственное усмотрение и, что только вы будете нести ответственность за любой ущерб, нанесенный вашему компьютеру, или утерю данных в результате загрузки любых таких пользований;

    g) никакая консультация или информация, письменная или устная, полученная вами от нас не предусматривает никаких гарантий, прямо не указанных в правилах.

    3. Ограничение ответственности

    3.1. Вы понимаете и согласны с тем, что sitexpert, ее должностные лица, директора, сотрудники, агенты, юристы, спонсоры, рекламодатели, филиалы, правопреемники ("мы"), не являются ответственными за любые штрафные убытки, включая, но не ограничиваясь, убытками от потери прибыли, репутации, использования данных и других нематериальных убытков, в результате:

    a) использования или невозможности использования вебсайта;
    b) несанкционированного доступа или изменения ваших сообщений или данных;
    c) заявлений любого третьего лица на вебсайте или услугах;
    d) любых других вопросов, относящихся к вебсайту.

    3.2. Если вы недовольны вебсайтом или нормами правил или у вас возникают еще какие-либо споры или разногласия с sitexpert, то вашим единственным и исключительным правом правовой защиты будет прекращение использование вебсайта.

    4. Общая информация

    4.1. Настоящие Правила являются соглашением между Вами и собственниками Sitexpert и регламентирует использование Вами Вебсайта, заменяя собой любые предыдущие соглашения между Вами и Sitexpert. На вас также могут распространяться дополнительные положения и условия, которые могут применяться при использовании сопутствующих услуг, содержания третьей стороны или программного обеспечения других производителей. Данные правила, а также  взаимоотношения между вами и Sitexpert регулируются законодательством Украины. Вы и Sitexpert соглашаетесь подчиняться личной и исключительной юрисдикции судов, расположенных по месту нахождения ответчика, если иное не предусмотрено законодательством Украины. Вы признаете, что Sitexpert вправе принимать правовые меры против Вас, если ваши действия нарушают данные Правила или идут в ущерб Sitexpert.

    4.2. Вы подтверждаете, что Вы прочитали, поняли и соглашаетесь с данными Правилами.

    5. Нарушения

    Пожалуйста, сообщайте о любых нарушениях настоящих Правил нашей службе поддержки или по электронной почте.

    Как запретить Google индексировать определенные веб-страницы

    25 апреля 2019 г. | Автор: Tinny

    При поисковой оптимизации типичная цель состоит в том, чтобы как можно больше страниц вашего веб-сайта проиндексировали и просканировали поисковыми системами, такими как Google.

    Распространенное заблуждение состоит в том, что это может улучшить рейтинг SEO. Однако так бывает не всегда. Часто необходимо сознательно запретить поисковым системам индексировать определенные страницы вашего сайта для повышения SEO.Одно исследование показало, что органический поисковый трафик увеличился на 22% после удаления повторяющихся веб-страниц, в то время как Moz сообщил об увеличении органического поискового трафика на 13,7% после удаления малоценных страниц.

    веб-страниц, которые не нужно индексировать

    Как уже упоминалось, не все страницы вашего веб-сайта должны индексироваться поисковыми системами. Как правило, они включают, но не ограничиваются, следующее:

    • Целевые страницы для рекламы
    • Страницы благодарности
    • Конфиденциальность и страницы политики
    • Страницы администратора
    • Дубликаты страниц (напр.g., аналогичный контент размещен на нескольких веб-сайтах, принадлежащих одной компании)
    • Малоценные страницы (например, устаревший контент, созданный много лет назад, но что-то достаточно ценное, чтобы его нельзя было удалить с вашего сайта)

    Перед деиндексированием важно провести тщательный аудит содержания вашего веб-сайта, чтобы у вас был систематический подход к определению, какие страницы включать, а какие исключать.

    Как запретить Google индексировать определенные веб-страницы

    Есть четыре способа деиндексировать веб-страницы из поисковых систем: метатег «noindex», X-Robots-Tag, robots.txt и через Инструменты Google для веб-мастеров.

    1. Использование метатега noindex

    Самый эффективный и простой инструмент для предотвращения индексации Google определенных веб-страниц - это метатег «noindex». По сути, это директива, которая сообщает сканерам поисковых систем, что не должен индексировать веб-страницу, и, следовательно, не будет отображаться в результатах поиска.

    Как добавить метатег «noindex»:

    Все, что вам нужно сделать, это вставить следующий тег в раздел разметки HTML страницы:

    В зависимости от вашей системы управления контентом (CMS) вставка этого метатега должна быть довольно простой.Для таких CMS, как WordPress, которые не позволяют пользователям получать доступ к исходному коду, используйте плагин, например Yoast SEO. Здесь следует отметить, что вам нужно сделать это для каждой страницы, которую вы хотите деиндексировать.

    Кроме того, если вы хотите, чтобы поисковые системы деиндексировали вашу веб-страницу, а , а не , следуйте ссылкам на этой странице (например, в случае страниц с благодарностью, где вы не хотите, чтобы поисковые системы индексировали ссылку на ваше предложение ) используйте «noindex» с метатегом «nofollow»:

    2.Использование HTTP-заголовка X-Robots-Tag

    В качестве альтернативы вы можете использовать X-Robots-Tag, который вы добавляете в заголовок HTTP-ответа заданного URL-адреса. По сути, он имеет тот же эффект, что и тег «noindex», но с дополнительными опциями для определения условий для различных поисковых систем. Для получения дополнительной информации см. Руководство Google здесь.

    Как добавить X-Robots-Tag:

    В зависимости от используемого веб-браузера может быть довольно сложно найти и отредактировать заголовок ответа HTTP.Для Google Chrome вы можете использовать инструменты разработчика, такие как ModHeader или Modify Header Value. Вот примеры X-Robots-Tag для определенных функций:

    X-Robots-Tag: noindex

    • Чтобы установить разные правила деиндексации для разных поисковых систем:

    X-Robots-Tag: googlebot: nofollow

    X-Robots-Tag: otherbot: noindex, nofollow

    3. Использование файла robots.txt

    Файл robots.txt в основном используется для управления трафиком сканеров поисковых систем от перегрузки вашего веб-сайта запросами.Однако следует отметить, что этот тип файлов не предназначен для сокрытия веб-страниц от Google; скорее, он используется для предотвращения появления изображений, видео и других файлов мультимедиа в результатах поиска.

    Как использовать файл robots.txt, чтобы скрыть медиафайлы от Google:

    Использование robots.txt довольно технически. По сути, вам нужно использовать текстовый редактор для создания стандартного текстового файла ASCII или UTF-8, а затем добавить этот файл в корневую папку вашего веб-сайта. Чтобы узнать больше о том, как создать файл robots.txt, ознакомьтесь с руководством Google здесь. Google также создал отдельные руководства для скрытия определенных медиафайлов от появления в результатах поиска:

    4. Использование инструментов Google для веб-мастеров

    Вы также можете временно заблокировать страницы из результатов поиска Google с помощью инструмента удаления URL-адресов Google для веб-мастеров. Обратите внимание, что это применимо только к Google; у других поисковых систем есть свои собственные инструменты. Также важно учитывать, что это удаление носит временный характер. Чтобы безвозвратно удалить веб-страницы из результатов поиска, ознакомьтесь с инструкциями Google здесь.

    Как использовать инструменты Google Remove URL для временного исключения страниц:

    Процедура довольно проста. Откройте инструмент удаления URL-адресов и выберите принадлежащий вам ресурс в Search Console. Выберите Временно скрыть и введите URL-адрес страницы. После этого выберите Очистить URL-адрес из кеша и временно удалить из поиска . Это скрывает страницу из результатов поиска Google на 90 дней, а также очищает кешированную копию страницы и фрагменты из индекса Google.Для получения дополнительной информации ознакомьтесь с руководством Google здесь.

    Завершение

    Для получения вашего запроса на деиндексирование в Google может потребоваться время. Часто требуется несколько недель, чтобы изменения вступили в силу. Если вы заметили, что ваша страница все еще отображается в результатах поиска Google, скорее всего, это связано с тем, что Google не сканировал ваш сайт с момента вашего запроса. Вы можете запросить у Google повторное сканирование вашей страницы с помощью инструмента "Просмотреть как Google".

    Если вы хотите узнать больше или вам нужна помощь в решении каких-либо проблем с поисковой оптимизацией, у Ilfusion есть необходимые знания и опыт, чтобы помочь вам.Позвоните нам по телефону 888-420-5115 или отправьте нам электронное письмо на [адрес электронной почты защищен].

    Теги: сканирование, поиск google, google +, индекс, метатеги, поисковые системы, SEO

    Категория: SEO

    Как запретить поисковым системам индексировать страницу

    Недавно я помог клиенту удалить старое видео YouTube со своего канала. Они не собирались делать его общедоступным и не осознавали этого, пока сами не искали в Google.

    Хотя это не сразу деиндексирует страницу от Google, это заставило меня задуматься о причинах, по которым кто-то может захотеть запретить поисковым системам индексировать страницу до того, как будет нанесен какой-либо ущерб.

    3 причины заблокировать Google от индексации страницы

    Хотя есть очень мало серьезных причин, по которым вы можете захотеть узнать, как запретить Google индексировать страницу, вот некоторые из маркетинговых причин для этого.

    1. Улучшение отслеживания и атрибуции целей

    Для многих веб-мастеров и маркетологов цели заполнения форм отслеживаются посещениями страницы с благодарностью.Чтобы ваша страница с благодарностью не получала случайный органический трафик, вы захотите узнать, как запретить Google полностью проиндексировать эту страницу.

    Если у вас есть целевой целевой трафик на вашей странице в дополнение к пользователям, заполнившим ваши формы, ваши цели и коэффициент конверсии не будут точными.

    2. Сократите количество страниц, не имеющих ценности для пользователя

    Хотя это слишком упрощенная модель, вы можете почти представить, что ваш сайт имеет определенную ценность для SEO.

    Для сайта с 10 страницами каждая страница получает примерно 1/10 SEO-ценности.Если владелец сайта научился проводить исследование ключевых слов и оптимизировал все свои страницы, все эти страницы будут эффективны и эффективны для генерирования органического трафика.

    И наоборот, изобразите сайт со 100 страницами. Есть четыре страницы, которые на самом деле рассказывают об услугах компании, а остальные 96 страниц представляют собой «сообщения в блогах», которые на самом деле являются просто тем, что владелец сбрасывает информацию на свой сайт. Эти страницы не удовлетворяют известные потребности аудитории и не оптимизированы для каких-либо релевантных групп ключевых слов.

    В нашей упрощенной модели ценность SEO невелика. Каждая из четырех страниц служб получает 1/100 совокупной SEO-ценности сайта, что делает их очень слабыми, даже несмотря на то, что они относительно оптимизированы. Остальные 96 страниц получают 96/100 стоимости, но это тупиковые пути, которые несут в себе ловушку и растрачивают рейтинговый потенциал вашего сайта.

    Изучение того, как запретить поисковым системам индексировать страницу (или 96), - отличный способ не допустить слишком низкого распространения SEO-ценности вашего сайта.Вы можете скрыть большую часть своего веб-сайта от поисковых систем, чтобы Google знал только о полезных и релевантных страницах, которые заслуживают того, чтобы их нашли.

    3. Избегайте проблем с дублированием контента

    Публикация страницы, идентичной или почти идентичной другой странице в Интернете, может привести к принятию некоторых ненужных решений для Google.

    Какая страница является оригинальной? Даже если одна из страниц была опубликована первой, является ли дублирующая страница, которая следовала за более авторитетным источником? Если на вашем веб-сайте есть обе страницы, какую из них вы хотели бы включить в результаты поиска Google? Результат может не всегда нравиться.

    Чтобы избежать проблем с дублированием контента, вы можете попытаться запретить ботам сканировать определенные страницы вашего сайта.

    Как запретить Google индексировать страницу

    Самый простой и наиболее распространенный метод предотвращения индексации страницы поисковыми системами - это включить метатег noindex.

    Включите тег Noindex

    Метатег noindex используется между тегами HTML на веб-странице, чтобы предотвратить включение этой страницы роботами поисковых систем в свой индекс.Это по-прежнему позволяет сканерам читать ваши страницы, но предполагает, что они не включают его копию для показа в результатах поиска.

    Тег noindex, предотвращающий индексирование страницы поисковыми системами, выглядит следующим образом:

      

    Если вас беспокоит только то, что Google не может проиндексировать страницу, вы можете используйте следующий код:

      

    Если вы используете WordPress в качестве CMS (что я настоятельно рекомендую), то вы можете использовать плагин Yoast SEO (который Тоже очень рекомендую).С помощью пары щелчков мыши вы можете добавить тег noindex на любую страницу, которую захотите.

    В бэкэнде любой страницы прокрутите вниз до поля Yoast SEO. Затем щелкните значок шестеренки и измените раскрывающееся поле с надписью «Разрешить поисковым системам показывать это сообщение в результатах поиска?» сказать «Нет»

    Это не директива, поэтому поисковая система может игнорировать ваш метатег noindex. Для более надежной техники вы можете использовать файл robots.txt.

    Запретить использование ботов в ваших роботах.txt

    Если вы хотите быть уверены, что такие роботы, как Googlebot и Bingbot, вообще не могут сканировать ваши страницы, вы можете добавить директивы в свой файл robots.txt.

    Robots.txt - это файл, находящийся в корне сервера Apache, который может вообще запретить некоторым ботам попадать на ваши страницы. Важно отметить, что некоторым ботам можно дать указание игнорировать ваш файл robots.txt, поэтому вы можете заблокировать только этих «хороших» ботов с помощью этой техники.

    Давайте использовать страницу на вашем сайте https: // www.mysite.com/example-page/, например. Чтобы запретить всем ботам доступ к этой странице, вы должны использовать следующий код в своем robots.txt:

     User-agent: *
    Disallow: / example-page / 

    Обратите внимание, что вам не нужно использовать полный URL, только URI, который идет после вашего доменного имени. Если вы хотите только заблокировать сканирование страницы роботом Googlebot, вы можете использовать следующий код:

     User-agent: Googlebot
    Disallow: / example-page / 

    Запретить роботам сканировать ваш сайт с помощью.htaccess

    Я лично не знаю ни одного клиента, которому когда-либо понадобилось бы это использовать, но вы можете использовать файл .htaccess, чтобы заблокировать сканирование вашего сайта любым пользовательским агентом.

    Это способ полностью запретить Google сканирование вашего сайта, который не может быть проигнорирован даже «плохими» ботами. Предостережение заключается в том, что это более широкое решение, менее ориентированное на конкретную страницу. Управление целевым отказом в доступе к нескольким страницам внутри вашего файла .htaccess было бы кошмаром.

    Код для блокировки только робота Google будет выглядеть так:

     RewriteEngine On
    RewriteCond% {HTTP_USER_AGENT} Googlebot [NC]
    RewriteRule.. * (Googlebot | Bingbot | Baiduspider). * $ [NC]
    RewriteRule. * - [F, L] 

    Иногда необходимо научиться предотвращать индексацию одной из ваших страниц поисковой системой, и это не очень сложно, в зависимости от того, как вы это решите.

    Если вам нужна дополнительная помощь с поисковой оптимизацией вашего бизнес-сайта, ознакомьтесь с контрольным списком запуска веб-сайта моей компании, MARION.


    Блокировать страницы или сообщения блога от индексации поисковыми системами

    Есть несколько способов запретить поисковым системам индексировать определенные страницы вашего сайта.Рекомендуется тщательно изучить каждый из этих методов, прежде чем вносить какие-либо изменения, чтобы гарантировать, что только нужные страницы заблокированы для поисковых систем.

    Обратите внимание: : эти инструкции заблокируют индексирование URL страницы для поиска. Узнайте, как настроить URL-адрес файла в инструменте файлов, чтобы заблокировать его от поисковых систем.

    Файл Robots.txt

    Ваш файл robots.txt - это файл на вашем веб-сайте, который сканеры поисковых систем читают, чтобы узнать, какие страницы они должны и не должны индексировать.Узнайте, как настроить файл robots.txt в HubSpot.

    Google и другие поисковые системы не могут задним числом удалять страницы из результатов после реализации метода файла robots.txt. Хотя это говорит ботам не сканировать страницу, поисковые системы все равно могут индексировать ваш контент (например, если на вашу страницу есть входящие ссылки с других веб-сайтов). Если ваша страница уже проиндексирована и вы хотите удалить ее из поисковых систем задним числом, рекомендуется вместо этого использовать метод метатега «Без индекса».

    Мета-тег «Без индекса»

    Обратите внимание: : , если вы решите использовать метод метатега «Без индекса», имейте в виду, что его не следует комбинировать с методом файла robots.txt. Поисковым системам необходимо начать сканирование страницы, чтобы увидеть метатег «Без индекса», а файл robots.txt полностью предотвращает сканирование.

    Мета-тег "без индекса" - это строка кода, введенная в раздел заголовка HTML-кода страницы, который сообщает поисковым системам не индексировать страницу.

    • Щелкните имя определенной страницы или сообщения в блоге.
    • В редакторе содержимого щелкните вкладку Параметры .
    • Щелкните Дополнительные параметры .
    • В разделе Head HTML скопируйте и вставьте следующий код:
      

    Консоль поиска Google

    Если у вас есть учетная запись Google Search Console , вы можете отправить URL-адрес для удаления из результатов поиска Google.Обратите внимание, что это будет применяться только к результатам поиска Google.

    Если вы хотите заблокировать файлы в файловом менеджере HubSpot (например, документ PDF) от индексации поисковыми системами, вы должны выбрать подключенный субдомен для файла (ов) и использовать URL-адрес файла для блокировки веб-сканеров.

    Как HubSpot обрабатывает запросы от пользовательского агента

    Если вы устанавливаете строку пользовательского агента для проверки сканирования вашего веб-сайта и видите сообщение об отказе в доступе, это ожидаемое поведение. Google все еще сканирует и индексирует ваш сайт.

    Причина, по которой вы видите это сообщение, заключается в том, что HubSpot разрешает запросы от пользовательского агента googlebot только с IP-адресов, принадлежащих Google. Чтобы защитить сайты, размещенные на HubSpot, от злоумышленников или спуферов, запросы с других IP-адресов будут отклонены. HubSpot делает это и для других сканеров поисковых систем, таких как BingBot, MSNBot и Baiduspider.

    SEO Целевые страницы Блог Настройки учетной записи Страницы веб-сайта

    Отключить индексацию поисковой системой | Webflow University

    В этом видео используется старый интерфейс.Скоро выйдет обновленная версия!

    Вы можете указать поисковым системам, какие страницы сканировать, а какие нет на вашем сайте, написав файл robots.txt. Вы можете запретить сканирование страниц, папок, всего вашего сайта. Или просто отключите индексацию своего поддомена webflow.io. Это полезно, чтобы скрыть такие страницы, как ваша страница 404, от индексации и включения в результаты поиска.

    В этом уроке

    Отключение индексации поддоменов Webflow

    Вы можете запретить Google и другим поисковым системам индексировать веб-поток.io, просто отключив индексацию в настройках вашего проекта.

    1. Перейдите в Настройки проекта → SEO → Индексирование
    2. Установите Отключить индексирование поддоменов на «Да»
    3. Сохраните изменения и опубликуйте свой сайт

    Будет опубликован уникальный файл robots.txt только на поддомене сообщает поисковым системам игнорировать домен.

    Создание файла robots.txt

    Файл robots.txt обычно используется для перечисления URL-адресов на сайте, которые вы не хотите, чтобы поисковые системы сканировали.Вы также можете включить карту сайта своего сайта в файл robots.txt, чтобы сообщить сканерам поисковых систем, какой контент они должны сканировать.

    Как и карта сайта, файл robots.txt находится в каталоге верхнего уровня вашего домена. Webflow сгенерирует файл /robots.txt для вашего сайта, как только вы заполните его в настройках своего проекта.

    1. Перейдите в Настройки проекта → SEO → Индексирование
    2. Добавьте нужные правила robots.txt (см. Ниже)
    3. Сохраните изменения и опубликуйте свой сайт
    Создайте роботов .txt для своего сайта, добавив правила для роботов, сохранив изменения и опубликовав свой сайт.

    Правила Robots.txt

    Вы можете использовать любое из этих правил для заполнения файла robots.txt.

    • User-agent: * означает, что этот раздел применим ко всем роботам.
    • Disallow: запрещает роботу посещать сайт, страницу или папку.
    Чтобы скрыть весь сайт

    User-agent: *
    Disallow: /

    Чтобы скрыть отдельные страницы

    User-agent: *
    Disallow: / page-name

    Чтобы скрыть всю папку страниц

    User-agent: *
    Disallow: / folder-name /

    Чтобы включить карту сайта

    Sitemap: https: // your-site.com / sitemap.xml

    Полезные ресурсы

    Ознакомьтесь с другими полезными правилами robots.txt

    Должен знать
    • Содержимое вашего сайта может быть проиндексировано, даже если оно не сканировалось. Это происходит, когда поисковая система знает о вашем контенте либо потому, что он был опубликован ранее, либо есть ссылка на этот контент в другом контенте в Интернете. Чтобы страница не проиндексировалась, не добавляйте ее в robots.txt. Вместо этого используйте метакод noindex.
    • Кто угодно может получить доступ к robots вашего сайта.txt, чтобы они могли идентифицировать ваш личный контент и получить к нему доступ.
    Лучшие практики

    Если вы не хотите, чтобы кто-либо мог найти определенную страницу или URL-адрес на вашем сайте, не используйте файл robots.txt, чтобы запретить сканирование URL-адреса. Вместо этого используйте любой из следующих вариантов:

    Попробуйте Webflow - это бесплатно

    В этом видео используется старый интерфейс. Скоро выйдет обновленная версия!

    Как отговорить поисковые системы от индексирования сайтов WordPress

    Владельцы сайтов сделают все, чтобы их сайты были проиндексированы.Однако вы можете не захотеть, чтобы поисковые системы сканировали ваш сайт, если он все еще находится в разработке. В таком случае рекомендуется отговорить поисковые системы от индексации вашего сайта. Оставайтесь с нами, если хотите узнать больше по этой теме!

    Почему вы хотите, чтобы поисковые системы не индексировали ваш сайт?

    Бывают случаи, когда люди хотят отговорить поисковые системы от индексации своих сайтов:

    • Незавершенные веб-сайты - на данном этапе ошибок и испытаний лучше не делать свой веб-сайт доступным для общественности.
    • Веб-сайты с ограниченным доступом - если вы планируете иметь веб-сайт, доступный только по приглашению, вы не хотите, чтобы он отображался в результатах поиска.
    • Тестовые учетные записи - владельцы сайтов создают дубликаты сайта для тестирования и пробных целей. Поскольку эти сайты не предназначены для широкой публики, не позволяйте поисковым системам индексировать их.

    Так как же заблокировать индексирование вашего сайта поисковыми системами? Что ж, взгляните на несколько вариантов ниже и попробуйте сами.

    1.Отговаривание поисковых систем от индексирования сайтов WordPress

    Самый простой способ запретить поисковым системам индексировать ваш веб-сайт - запретить им сканировать его. Для этого вам необходимо отредактировать файл robots.txt каталога вашего веб-сайта. Вот несколько способов добиться этого:

    Использование встроенной функции WordPress

    Редактировать файл robots.txt WordPress довольно просто, так как вам нужно только использовать встроенную функцию WordPress. Вот как:

    1. Войдите в админку WordPress и перейдите в раздел Настройки -> Чтение .
    2. Прокрутите вниз и найдите вариант видимости в поисковых системах.
    3. Отметьте вариант с надписью Запретить поисковым системам индексировать этот сайт.
    4. Сохранить изменения, и все! WordPress автоматически отредактирует файл robots.txt за вас.

    Редактирование файла robots.txt вручную

    Если вы предпочитаете ручной вариант, вы можете использовать File Manager или FTP-клиент для редактирования файла robots.txt файл.

    В этой статье мы покажем вам, как это сделать с помощью файлового менеджера hPanel:

    1. Войдите в hPanel и найдите File Manager в области Files .
    2. Перейдите в папку корневого каталога WordPress (в большинстве случаев это public_html) и найдите файл robots.txt . Если вы не можете его найти, создайте новый пустой файл.
    3. Щелкните файл правой кнопкой мыши и выберите Изменить .
    4. Введите следующий синтаксис:
        Агент пользователя: *
      Disallow: /  

    Приведенный выше код не позволит поисковым системам проиндексировать весь ваш сайт .Если вы хотите применить правило запрета к определенной странице, напишите подкаталог и заголовок страницы. Например: Disallow / blog / food-review-2019.

    Синтаксис в файлах robots.txt чувствителен к регистру, поэтому будьте осторожны при редактировании.

    2. Защита паролем вашего веб-сайта WordPress

    Поисковые системы и сканеры не имеют доступа к файлам, защищенным паролем. Вот несколько методов защиты паролем вашего сайта WordPress:

    Использование панели управления хостингом

    Если вы являетесь клиентом Hostinger, вы можете защитить свой веб-сайт паролем с помощью инструмента hPanel Password Protect Directories tool:

    1. Получите доступ к hPanel и перейдите в каталог Защита паролем .
    2. Введите корневой каталог в первое поле.
    3. После выбора каталога введите свое имя пользователя и пароль и щелкните Protect .

    Если ваш корневой каталог - public_html , оставьте столбец каталога пустым

    Процесс в cPanel также очень похож:

    1. Войдите в свою учетную запись cPanel и перейдите на страницу Directory Privacy .
    2. Выберите корневой каталог. В нашем случае это public_html .
    3. Установите флажок Защитить этот каталог паролем и назовите защищенный каталог. Нажмите Сохранить .
    4. Создайте нового пользователя для входа на защищенный сайт, и все!

    Использование плагинов WordPress

    Существует множество плагинов, которые могут помочь защитить ваш сайт паролем. Однако плагин Password Protected может быть лучшим из существующих. Он был протестирован с новым обновлением WordPress, и его довольно просто использовать.

    После установки и активации плагина перейдите в «Настройки » -> «Защищено паролем» и настройте параметры в соответствии с вашими потребностями.

    3. Удаление проиндексированной страницы из Google

    Не беспокойтесь, если Google проиндексировал ваш сайт. Вы можете удалить его из поисковой выдачи, выполнив следующие действия:

    1. Настройте Google Search Console для своего веб-сайта.
    2. Войдите в консоль поиска Google вашего недавно добавленного веб-сайта и прокрутите вниз до Устаревшие инструменты и отчеты -> Удаление.
    3. Нажмите кнопку Временно скрыть и введите URL-адрес, который хотите удалить из Google.
    4. В новом окне выберите Очистить URL-адрес из кеша и временно удалить из поиска, затем Отправить запрос .

    Вот и все! Google временно удалит ваш сайт из результатов поиска. Обязательно примените предыдущие методы, чтобы Google не смог снова проиндексировать ваш сайт.

    Заключение

    Вот и все! Быстрые и простые способы отговорить поисковые системы от индексации ваших сайтов.Вот краткий обзор методов, которые мы изучили сегодня:

    • Отредактируйте файл robots.txt , которое можно выполнить автоматически или вручную.
    • Защитите свой сайт паролем с помощью плагина или панели управления хостингом.
    • Удалите проиндексированные страницы из Google через консоль поиска Google.

    Если у вас есть другие методы или вопросы, дайте нам знать в комментариях. Удачи!

    Domantas возглавляет отделы контента и SEO, предлагая свежие идеи и нестандартные подходы.Обладая обширными знаниями в области SEO и маркетинга, он стремится распространить информацию о Hostinger во всех уголках мира. В свободное время Домантас любит оттачивать свои навыки веб-разработки и путешествовать по экзотическим местам.

    остановить индексирование Google - qaru

    Я должен добавить сюда свой ответ, поскольку принятый ответ на самом деле не затрагивает проблему должным образом. Также помните, что предотвращение сканирования Google не означает, что вы можете сохранить конфиденциальность своего контента.

    Мой ответ основан на нескольких источниках: https: // разработчики.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking

    Файл robots.txt управляет сканированием, но не индексированием! Эти два совершенно разных действия выполняются отдельно. Некоторые страницы могут сканироваться, но не индексироваться, а некоторые могут даже индексироваться, но никогда не сканироваться. Ссылка на не просканированную страницу может существовать на других веб-сайтах, что заставит индексатор Google следовать по ней и пытаться проиндексировать.

    Вопрос касается индексации, которая собирает данные о странице, чтобы они могли быть доступны в результатах поиска. Его можно заблокировать добавлением метатега:

      
      

    или добавление HTTP-заголовка в ответ:

      X-Robots-Тег: noindex
      

    Если речь идет о сканировании, вы, конечно, можете создать файл robots.txt и поместить следующие строки:

      Агент пользователя: *
    Запретить: /
      

    Сканирование - это действие, выполняемое для сбора информации о структуре одного конкретного веб-сайта.Например. вы добавили сайт с помощью Инструментов Google для веб-мастеров. Сканер примет это к сведению и посетит ваш веб-сайт, выполнив поиск по запросу robots.txt . Если он ничего не найдет, он будет считать, что может сканировать что угодно (очень важно также иметь файл sitemap.xml , чтобы помочь в этой операции и указать приоритеты и определить частоту изменений). Если он найдет файл, он будет следовать правилам. После успешного сканирования он в какой-то момент запустит индексирование просканированных страниц, но вы не можете сказать, когда...

    Важно : все это означает, что ваша страница все еще может отображаться в результатах поиска Google независимо от файла robots.txt .

    Я надеюсь, что по крайней мере некоторые пользователи прочитают этот ответ, и он будет понятен, поскольку очень важно знать, что происходит на самом деле.

    Хотите больше трафика? Деиндексируйте свои страницы. Вот почему.

    Большинство людей беспокоятся о том, как заставить Google индексировать их страницы, а не деиндексировать их. Фактически, большинство людей стараются избежать деиндексации, как от чумы.

    Если вы пытаетесь повысить свой авторитет на страницах результатов поисковых систем, у вас может возникнуть соблазн проиндексировать как можно больше страниц на вашем веб-сайте. И в большинстве случаев это работает.

    Но это не всегда может помочь вам получить максимально возможный объем трафика.

    Почему? Это правда, что публикация большого количества страниц, содержащих целевые ключевые слова, может помочь вам получить рейтинг по этим конкретным ключевым словам.

    Однако на самом деле может быть более полезным для вашего рейтинга, если некоторые страницы вашего сайта не попадут в индекс поисковой системы.

    Вместо этого он направляет трафик на релевантные страницы и предотвращает появление неважных страниц, когда пользователи ищут контент на вашем сайте с помощью Google.

    Вот почему (и как) вам следует деиндексировать свои страницы, чтобы привлечь больше трафика.

    Для начала давайте рассмотрим разницу между сканированием и индексированием.

    Объяснение сканирования и индексирования

    В мире SEO сканирование сайта означает следование по пути.

    Под сканированием понимается поисковый робот (также известный как «паук»), который следует по вашим ссылкам и просматривает каждый дюйм вашего сайта.

    Сканеры

    могут проверять HTML-код или гиперссылки. Они также могут извлекать данные с определенных веб-сайтов, что называется веб-парсингом.

    Когда боты Google заходят на ваш сайт, чтобы сканировать, они переходят по другим связанным страницам, которые также есть на вашем сайте.

    Затем боты используют эту информацию для предоставления поисковикам актуальных данных о ваших страницах. Они также используют его для создания алгоритмов ранжирования.

    Это одна из причин, почему карты сайта так важны. Файлы Sitemap содержат все ссылки на вашем сайте, поэтому боты Google могут легко изучить ваши страницы.

    Индексирование, с другой стороны, относится к процессу добавления определенных веб-страниц в индекс всех страниц, доступных для поиска в Google.

    Если веб-страница проиндексирована, Google сможет сканировать и проиндексировать эту страницу. После деиндексации страницы Google больше не сможет ее проиндексировать.

    По умолчанию индексируются все записи и страницы WordPress.

    Хорошо, если релевантные страницы проиндексированы, потому что присутствие в Google может помочь вам заработать больше кликов и привлечь больше трафика, что приведет к увеличению доходов и увеличению узнаваемости бренда.

    Но если вы позволите проиндексировать части вашего блога или веб-сайта, которые не являются жизненно важными, вы можете принести больше вреда, чем пользы.

    Вот почему деиндексирование страниц может увеличить трафик.

    Почему удаление страниц из результатов поиска может увеличить посещаемость

    Вы можете подумать, что чрезмерно оптимизировать свой сайт невозможно.

    Но это так.

    Слишком много SEO может помешать вашему сайту занимать высокие позиции. Не переусердствуйте.

    Есть много разных случаев, когда вам может потребоваться (или вы захотите) исключить веб-страницу (или, по крайней мере, ее часть) из индексации и сканирования поисковой системой.

    Очевидная причина - предотвратить индексирование дублированного контента.

    Дублированный контент означает, что существует более одной версии одной из ваших веб-страниц. Например, одна версия может быть удобной для печати, а другая - нет.

    Обе версии не должны появляться в результатах поиска. Только один. Деиндексируйте версию для печати и сохраните индексируемую обычную страницу.

    Еще один хороший пример страницы, которую вы, возможно, захотите деиндексировать, - это страница с благодарностью - страница, на которую посетители переходят после выполнения желаемого действия, такого как загрузка вашего программного обеспечения.

    Обычно на этой странице посетитель сайта получает доступ ко всему, что вы ему обещали, в обмен на их действия, например, к электронной книге.

    Вы хотите, чтобы люди попадали на ваши страницы с благодарностью только потому, что они выполнили действие, которое вы хотите, чтобы они предприняли, например, приобрели продукт или заполнили форму для потенциальных клиентов.

    Не потому, что они нашли вашу страницу благодарности через поиск Google. Если они это сделают, они получат доступ к тому, что вы предлагаете, без необходимости выполнять желаемое действие.

    Это не только бесплатная раздача вашего самого ценного контента, но также может испортить аналитику всего вашего сайта из-за неточных данных.

    Если эти страницы проиндексированы, вы подумаете, что привлекаете больше потенциальных клиентов, чем есть на самом деле.

    Если на ваших страницах благодарности есть ключевые слова с длинным хвостом, и вы не деиндексировали их, они могут иметь довольно высокий рейтинг, хотя в этом нет необходимости.

    Что делает еще проще для все большего числа людей, чтобы найти их.

    Вам также необходимо деиндексировать страницы профилей сообщества, распространяющие спам.

    Удалить спам на страницах профилей сообщества

    Бритни Мюллер из Moz недавно деиндексировала 75% веб-сайта Moz и добилась огромного успеха.

    Большинство типов страниц, которые она деиндексировала? Страницы профилей сообщества, рассылающие спам.

    Она заметила, что когда она выполняла поиск по сайту: moz.com, более 56% результатов приходилось на страницы профилей сообщества Moz.

    Были тысячи этих страниц, которые ей нужно было деиндексировать.

    Профили сообщества

    Moz работают по системе баллов. Пользователи зарабатывают больше очков, называемых MozPoints, за выполнение действий на сайте, например, за комментирование сообщений или публикацию блогов.

    Поговорив с разработчиками, Бритни решила деиндексировать страницы профиля, набрав менее 200 баллов.

    Мгновенно вырос органический трафик и рейтинг.

    Деиндексируя страницы профилей сообщества таких пользователей, как этот, с небольшим количеством MozPoints, нерелевантные профили не попадают на страницы результатов поисковой системы.

    Таким образом, только наиболее известные пользователи сообщества Moz с тоннами MozPoints, такие как Бритни, будут отображаться в поисковой выдаче.

    Затем профили с наибольшим количеством комментариев и действий появляются, когда кто-то их ищет, так что на сайте легко найти влиятельных людей.

    Если вы предлагаете профили сообщества на своем веб-сайте, следуйте примеру Moz и деиндексируйте профили, которые не принадлежат влиятельным или известным пользователям.

    Вы можете подумать, что отключения «видимости для поисковых систем» в WordPress достаточно, чтобы уменьшить видимость для поисковых систем, но это не так.

    На самом деле поисковые системы должны выполнить этот запрос.

    Вот почему вам нужно деиндексировать их вручную, чтобы убедиться, что они не появятся на странице результатов. Во-первых, вы должны понять разницу между тегами noindex и nofollow.

    Объяснение тегов Noindex и nofollow

    Вы можете легко использовать метатег, чтобы страница не отображалась в поисковой выдаче.

    Все, что вам нужно знать, это копировать и вставлять.

    Теги, позволяющие удалять страницы, называются «noindex» и «nofollow».”

    Прежде чем мы перейдем к тому, как вы можете добавить эти теги, вам необходимо знать разницу между тем, как работают эти два тега.

    Это два разных тега, но их можно использовать по отдельности или вместе.

    Когда вы добавляете на страницу тег noindex, он сообщает поисковым системам, что, хотя они все еще могут сканировать страницу, они не могут добавить страницу в свой индекс.

    Любая страница с директивой noindex не попадает в индекс поисковой системы, а это означает, что она не будет отображаться на страницах результатов поисковой системы.

    Вот как выглядит тег noindex в HTML-коде сайта:

    Когда вы добавляете на веб-страницу тег nofollow, он запрещает поисковым системам сканировать любые ссылки на странице.

    Это означает, что любой рейтинг, присвоенный странице, не будет передан страницам, на которые она ссылается.

    Тем не менее, любая страница с тегом nofollow может индексироваться в поиске. Вот как выглядит тег nofollow в коде веб-сайта:

    Вы можете добавить тег noindex отдельно или с тегом nofollow.

    Вы также можете добавить тег nofollow отдельно. Добавляемые вами теги будут зависеть от ваших целей для конкретной страницы.

    Добавьте только тег noindex, если вы не хотите, чтобы поисковая система индексировала вашу веб-страницу в результатах поиска, но вы хотите, чтобы она продолжала переходить по ссылкам на этой странице.

    Если у вас есть платные целевые страницы, было бы неплохо добавить к ним тег noindex.

    Вы не хотите, чтобы поисковые системы приводили к ним посетителей, поскольку люди должны платить за их просмотр, но вы можете захотеть, чтобы связанные страницы извлекали выгоду из его авторитета.

    Добавьте только тег nofollow, если вы хотите, чтобы поисковая система проиндексировала определенную страницу на страницах результатов, но вы не хотите, чтобы она переходила по ссылкам, которые есть у вас на этой конкретной странице.

    Добавьте на страницу теги noindex и nofollow, если вы не хотите, чтобы поисковые системы индексировали страницу или могли переходить по ссылкам на ней.

    Например, вы можете добавить теги noindex и nofollow к страницам благодарности.

    Теперь, когда вы знаете, как работают теги noindex и nofollow, вот как добавить их на свой сайт.

    Как добавить метатег «noindex» и / или «nofollow»

    Если вы хотите добавить тег noindex и / или nofollow, первым делом нужно скопировать желаемый тег.

    Для тега noindex скопируйте следующий тег:

    Для тега nofollow скопируйте следующий тег:

    Для обоих тегов скопируйте следующий тег:

    Добавить теги так же просто, как добавить тег, который вы скопировали, в раздел HTML-кода вашей страницы.Он также известен как заголовок страницы.

    Просто откройте исходный код веб-страницы, которую вы хотите деиндексировать. Затем вставьте тег в новую строку в разделе HTML.

    Вот как выглядит тег для noindex и nofollow в заголовке.

    Имейте в виду, что тег обозначает конец заголовка. Никогда не вставляйте теги noindex или nofollow за пределами этой области.

    Сохраните обновления кода, и все готово.Теперь поисковая система исключит вашу страницу из результатов поиска.

    Вы можете сделать невозможным сканирование нескольких страниц, изменив файл robots.txt.

    Что такое robots.txt и как к нему получить доступ?

    Robots.txt - это просто текстовый файл, который веб-мастера могут создать, чтобы сообщить роботам поисковых систем, как именно они хотят сканировать свои страницы или переходить по ссылкам.

    Файлы

    Robots.txt просто указывают, разрешено или не разрешено определенное программное обеспечение для сканирования определенных частей веб-сайта.

    Если вы хотите «nofollow» сразу нескольких веб-страниц, вы можете сделать это из одного места, открыв файл robots.txt на своем сайте.

    Во-первых, неплохо сначала выяснить, есть ли на вашем сайте файл robots.txt. Чтобы в этом разобраться, перейдите на свой веб-сайт и добавьте файл robots.txt.

    Это должно выглядеть примерно так: www.yoursitehere.com/robots.txt.

    Вот как выглядит наш файл robots.txt.

    На наш сайт добавлена ​​задержка сканирования 10, из-за которой роботы поисковых систем не будут сканировать ваш сайт слишком часто.Это предотвращает перегрузку серверов.

    Если по этому адресу ничего не появляется, значит, на вашем веб-сайте нет файла robots.txt. На Disney.com нет файла robots.txt.

    Вместо пустой страницы вы также можете увидеть ошибку 404.

    Вы можете создать файл robots.txt практически в любом текстовом редакторе. Чтобы узнать, как именно его добавить, прочтите это руководство.

    Чистый костяк файла robots.txt должен выглядеть примерно так:

    Пользовательский агент: *
    Disallow: /

    Затем вы можете добавить конечные URL-адреса всех страниц, сканирование которых робот Googlebot не должен сканировать.

    Вот несколько кодов robots.txt, которые могут вам понадобиться:

    Разрешить индексирование всего:
    User-agent: *
    Disallow:
    или
    User-agent: *
    Allow: /

    Запретить индексирование:
    Агент пользователя: *
    Запретить: /

    Деиндексировать определенную папку:
    User-agent: *
    Disallow: / folder /

    Запретить роботу Googlebot индексировать папку, кроме одного определенного файла в этой папке:
    User-agent: Googlebot
    Disallow: / folder1 /
    Allow: / folder1 / myfile.html

    Google и Bing позволяют людям использовать подстановочные знаки в файлах robots.txt.

    Чтобы заблокировать доступ к URL-адресам, которые содержат специальный символ, например вопросительный знак, используйте следующий код:
    User-agent: *
    Disallow: / *?

    Google также поддерживает использование noindex в файле robots.txt.

    Для noindex из robots.txt используйте этот код:
    User-agent: Googlebot
    Disallow: / page-uno /
    Noindex: / page-uno /

    Вместо этого вы также можете добавить заголовок X-Robots-tag на определенную страницу.

    Вот как выглядит тег X-Robots, запрещающий сканирование:

    HTTP / 1.1 200 OK
    (…)
    X-Robots-Tag: noindex
    (…)

    Этот тег можно использовать как для кодов nofollow, так и для кодов noindex.

    Могут быть случаи, когда вы добавляли теги nofollow и / или noindex или изменяли файл robots.txt, но некоторые страницы все еще отображаются в поисковой выдаче. Это нормально.

    Вот как это исправить.

    Почему ваши страницы все еще могут отображаться в поисковой выдаче (сначала)

    Если ваши страницы по-прежнему отображаются в результатах поиска, возможно, это связано с тем, что Google не сканировал ваш сайт с тех пор, как вы добавили тег.

    Отправьте запрос на повторное сканирование вашего сайта в Google с помощью инструмента "Просмотреть как Google".

    Просто введите URL своей страницы, нажмите, чтобы просмотреть результаты Fetch, и проверьте статус отправки URL.

    Другая причина того, что ваши страницы все еще отображаются, заключается в том, что в вашем файле robots.txt могут быть ошибки.

    Вы можете отредактировать или протестировать файл robots.txt с помощью инструмента robots.txt Tester. Выглядит это примерно так:

    Никогда не используйте теги noindex вместе с тегом disallow в robots.текст.

    Не использовать мета-индекс noindex И запретить в robots.txt

    Когда вы используете метатег noindex для группы страниц, но по-прежнему запрещаете их использование в файле robots.txt, боты проигнорируют ваш метатег noindex.

    Никогда не используйте оба тега одновременно. Также рекомендуется оставить карты сайта на некоторое время, чтобы их видели сканеры.

    Когда Moz деиндексировал несколько страниц своего профиля сообщества, они оставили карту сайта профиля сообщества на месте на пару недель.

    Было бы неплохо сделать то же самое.

    Существует также возможность запретить сканирование вашего сайта вообще, при этом позволяя Google AdSense работать на страницах.

    Подумайте об одной из своих страниц, например, о странице «Свяжитесь с нами» или даже о странице политики конфиденциальности. Вероятно, он связан с каждой страницей вашего веб-сайта либо в нижнем колонтитуле, либо в главном меню.

    На эти страницы идет огромное количество ссылок. Вы же не хотите просто выбросить его. Особенно, когда он появляется прямо из главного меню или нижнего колонтитула.

    Имея это в виду, вы никогда не должны включать страницу, которую вы блокируете, в robots.txt в карту сайта XML.

    Не включать эти страницы в карты сайта XML

    Если вы заблокируете страницу в файле robots.txt, но затем включите ее в карту сайта XML, вы просто дразните Google.

    В карте сайта написано: «Вот блестящая страница, которую нужно проиндексировать, Google». Но затем ваш файл robots.txt удалит эту страницу.

    Вы должны поместить весь контент на своем сайте в две разные категории:

    1. Качественные поисковые лендинги
    2. Служебные страницы, которые полезны для пользователей, но не обязательно должны быть целевыми страницами поиска

    Нет необходимости блокировать что-либо в первой категории в robots.текст. Этот контент также никогда не должен иметь тега noindex. Включите все эти страницы в карту сайта XML, несмотря ни на что.

    Вы должны заблокировать все, что находится во второй категории, с помощью тегов noindex, nofollow или robots.txt. Вы действительно не хотите включать это содержание в карту сайта.

    Google будет использовать все, что вы отправляете в свою карту сайта XML, чтобы понять, что должно или не должно быть важным для инструмента на вашем сайте.

    Но то, что чего-то нет в вашей карте сайта, не означает, что Google полностью его проигнорирует.

    Сделайте сайт: выполните поиск, чтобы увидеть все страницы, которые Google в настоящее время индексирует с вашего сайта, чтобы найти любые страницы, которые вы, возможно, пропустили или забыли.

    Самые слабые страницы, которые Google все еще индексирует, будут перечислены последними на вашем сайте: search.

    Вы также можете легко просмотреть количество отправленных и проиндексированных страниц в Инструментах Google для веб-мастеров.

    Заключение

    Большинство людей беспокоятся о том, как они могут индексировать свои страницы, а не деиндексировать их.

    Но индексация слишком большого количества неправильных страниц может на самом деле повредить вашему общему рейтингу.

    Для начала вы должны понять разницу между сканированием и индексированием.

    Сканирование сайта означает сканирование ботов по всем ссылкам на каждой веб-странице, принадлежащей сайту.

    Индексирование означает добавление страницы в индекс Google всех страниц, которые могут отображаться на страницах результатов Google.

    Удаление ненужных страниц со страниц результатов, таких как страницы с благодарностями, может увеличить трафик, потому что Google будет сосредоточиваться только на ранжировании релевантных страниц, а не незначительных.

    Удалите страницы профилей сообщества, содержащие спам, если они у вас есть. Moz деиндексировал страницы профилей сообщества, набравшие менее 200 баллов, и это быстро увеличило их посещаемость.

    Затем выясните разницу между тегами noindex и nofollow.

    Теги Noindex удаляют страницы из индекса Google, доступных для поиска. Теги Nofollow не позволяют Google сканировать ссылки на странице.

    Вы можете использовать их вместе или по отдельности. Все, что вам нужно сделать, это добавить код для одного или каждого тега в HTML-заголовок вашей страницы.

    Затем узнайте, как работает ваш файл robots.txt. Вы можете использовать эту страницу, чтобы заблокировать сканирование Google нескольких страниц одновременно.

    Ваши страницы могут по-прежнему отображаться в поисковой выдаче, но используйте инструмент «Просмотреть как Google», чтобы решить эту проблему.

    Не забудьте никогда не индексировать страницу и не разрешать ее в robots.txt. Кроме того, никогда не включайте страницы, заблокированные в файле robots.txt, в карту сайта XML.

    Какие страницы вы собираетесь деиндексировать в первую очередь?

    Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт

    • SEO - разблокируйте огромное количество SEO-трафика.Смотрите реальные результаты.
    • Контент-маркетинг - наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
    • Paid Media - эффективные платные стратегии с четкой рентабельностью инвестиций.

    Заказать звонок

    .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *