Создать robots.txt онлайн
Чтобы активировать
PRO версию программы достаточно только нажать и поделиться страницей через социальные сети выше. Robots.txt является обыкновенным текстовым файлом, располагающимся в корне вашего сайта, просмотреть и отредактировать его можно используя любой текстовый редактор. В данном файлике записаны инструкции, которыми должны руководствоваться поисковые машины (роботы). Собственно, отсюда и пошло название этого документа. Инструкции эти указывают поисковику, что подлежит индексированию, а что трогать не нужно. Наверное, каждый вебмастер хотел бы, чтобы созданный им сайт как можно быстрее был проиндексирован поисковой системой, причем чтобы этот процесс прошел правильно и без ошибок. Поэтому, нужно понимать, что без грамотно составленного файла robots.txt это маловероятно, следовательно, нужно позаботиться о его создании.Есть ли какие-то отличия Robots.txt для Яндекса в сравнении с файлами для других роботов?
На самом деле каждая поисковая машина использует разные методы индексирования, и вообще работают они по-разному. Каждый поисковик имеет свои методики ранжирования, присвоения сайтам определенного места в своем списке. Однако, практически все они одинаково индексируют и понимают файл Robots.txt. Практика свидетельствует, что один файл Robots.txt подходит абсолютно ко всем поисковым системам и с ним не возникает никаких проблем.Есть ли возможность проверить существующий файл Robots.txt?
Если вы сами писали данный файл, или использовали другой генератор, и сомневаетесь в его работоспособности, то можете проверить его с помощью специального сервиса на нашем сайте. Если в ходе такой проверки обнаружатся те или иные проблемы, то вы с легкостью сможете сгенерировать новый файлик воспользовавшись нашим инструментом. Специалисты всегда рекомендуют проверять самодельные файлы Robots.txt с помощью уже проверенных генераторов, чтобы избежать возможных проблем в будущем.Как писать robots.txt
Что писать в файле?
Блоки агентов
Robots.txt содержит инструкции, которые должны быть написаны по определенным правилам. Большинство инструкций находится в блоке агента. Агент (поисковый робот) описывается так:
Для конкретного робота: User-agent: название бота
Для группы роботов (например для всех роботов яндекса): User-agent: название группы ботов
Для всех роботов: User-agent: *
Все, что находится между двумя записями user-agent (или от последнего user-agent до конца файла), относится к этому боту или этой группе ботов.
Например:
User-agent: yandex Disallow: / User-agent: googlebot Allow: /
Означает, что всем ботам Яндекса (User-agent для группы ботов Yandex) запрещено проходить по ссылкам на любые страницы сайта (инструкция Disallow: /), а ботам Гугла, наоборот, разрешено переходить по любым ссылкам (инструкция Allow: /).
Приоритеты блоков агентов
Любой робот сначала ищет блок со своим именем (инструкции именно для этого робота), если он находит такой блок — он использует инструкции из этого блока, остальные игнорирует; если не находит — ищет блок для своей группы и использует только его инструкции; если не находит — использует блок для всех роботов; если и этого блока нет, робот считает, что разрешен проход по всем ссылкам на сайте.
Например:
User-agent: * Disallow: /
User-agent: googlebot-mobile Disallow: /not-for-google Disallow: /not-mobile
Мобильный робот Гугл (googlebot-mobile) будет использовать строки: Disallow: /not-for-google Disallow: /not-mobile
Бот гугл картинок (googlebot-image) использует: Disallow: /not-for-google
Бот яндекса использует: Disallow: /
Инструкции, запрещающие переходы на страницы
Чтобы запретить проходить страницы на сайте, используется инструкция Disallow: что именно запретить.
Например, чтобы запретить все страницы в папке https://example.com/category/, мы пишем Disallow: /category/,
т.е. мы пишем адрес страницы, которую надо закрыть от переходов робота. При этом закроются все страницы, адрес которых начинается с /category/.
Специальные символы * и $
Любые символы *
Символ * означает “любой набор символов” Например Disallow: *.html Запретит переходить на все ссылки сайта, в которых встречается .htm: https://example.com/smth.htm https://example.com/index.html
Обратите внимание, что любой адрес в Disallow… начинается либо с / либо с *.
Символ конца строки $
Символ $ означает конец адреса например, если нам надо, чтобы https://example.com/category/ не должно проходиться роботом, а все что в него вложено,
Например https://example.com/category/123 должно,
Тогда пишем Disallow: /category/$
Инструкции, разрешающие переходы по ссылкам
Есть инструкция Allow, которая работает также, как и Disallow, только имеет обратный эффект — страницы, соответствующие адресу в Allow будут разрешены к переходам по ссылкам.
Например
User-agent: Somebot
Disallow: / Allow: /cat/ Disallow: /cat/123
Страница https://example.com/123 будет запрещена (подходит только правило Disallow: /) Страница https://example.com/cat/ будет разрешена (подходят Disallow: / и Allow: /cat/, но /cat/ длиннее чем /) Страница https://example.com/cat/12345 будет запрещена, т.к. Подходят все три правила, но /cat/123 длиннее всех остальных
Инструкции карт сайта
Чтобы указать путь к карте сайта в стандарте sitemap.xml, используется инструкция Sitemap: адрес карты сайта
Если карт сайта несколько, при этом есть файл списка sitemap — указывается только его адрес. Если карт сайта несколько, но индексного файла нет — пишется отдельная инструкция для каждой карты сайта,
например: Sitemap: https://example.com/sitemap1.xml Sitemap: https://example.com/sitemap2.xml Sitemap: https://example.com/sitemap3.xml
Обратите внимание, путь к файлу указывается вместе с протоколом (http:// или https://) и адресом сайта.
Инструкция Sitemap не относится к спискам агентов и будет использована всеми роботами независимо от того, где она написана.
Инструкция задержки обхода
Сейчас такая инструкция почти нигде не используется, но все-таки мы её опишем. Иногда, если хостинг сайта очень слабый, и обход роботом может затормозит работу сайта, используется инструкция Crawl-delay: время в секундах между запросами робота
Например: Crawl-delay: 0.5
Сделает так, что робот будет запрашивать страницы сайта не чаще, чем раз в полсекунды.
Инструкция Crawl-delay относится к секциям агентов т.е. можно задать разный Crawl-delay для разных роботов.
Инструкция указания основного зеркала (только Яндекс)
Эта инструкция не входит в стандарт robots.txt и придумана Яндексом. Она служит для определения основного зеркала с www или без www. Для остальных поисковиков она будет отображаться как ошибка.
Записывается она так: Host: адрес основного зеркала
Например:
Host: example.com или Host: www.example.com или Host: https://example.com
Обратите внимание, что для сайтов, использующих https:// надо обязательно указывать протокол.
Инструкция склейки параметров (только Яндекс)
Эта инструкция также придумана Яндексом. Она используется, когда у страницы есть множество копий, отличающихся одним или несколькими GET параметрами.
Clean-param: название параметра ПРОБЕЛ для каких страниц применяется
Лучший пример — всегда некорректный, поэтому как вариант: если пользователь залогинен, мы храним его сессию в параметре GET session_ID. Например для залогиненного пользователя главной страницей будет https://example.com/?session=1231224. Но она ничем значимым от страницы https://example.com не отличается. Чтобы эти страницы воспринимались, как одна, пишем
Clean-param: session * session — название нашего параметра
* — любая страница.
Если параметры надо склеивать только в папке /cat/, Тогда Clean-param: session /cat/
Если нам нужно склеивать, допустим параметр session и параметр sort, тогда мы можем или написать 2 инструкции Clean-param, или записать параметры через амперсанд: Clean-param: session&sort /cat/
Как использовать готовый файл?
Чтобы поисковый робот нашел этот файл, он должен находиться в корне сайта: если ваш сайт
Вот, собственно, и все, что хотелось рассказать про синтаксис robots.txt. Возможно, вам также будет полезно почитать примеры использования файлов роботс. Если вы не уверены, что все поняли правильно, или не знаете как правильно записать какую-то инструкцию, вы всегда можете проверить свой файл роботс в валидаторе Яндекса — https://webmaster.yandex.ru/tools/robotstxt/
#HowTo #robotstxt #SEO
Правильный robots.txt для Яндекса
Опубликовано: 01.05.2012г.
В предыдущей публикации был рассмотрен синтаксис и общие правила настройки robots.txt, однако, как показывает практика, далеко не все владельцы сайта знают, как создать «правильный» robots.txt на свой сайт для Яндекса. Ведь именно Яндекс является поисковой системой №1 в России уже более 10 лет. Его доля в последние годы не менее 60% от общего доли поискового трафика создаваемого русскоязычными пользователями России и стран ближнего зарубежья.
Для корректного создания robots.txt необходимо знать не только всю структуру собственного сайта, но и особенности CMS, на которой работает сайт.
Есть несколько общих правил. В поисковом индексе НЕ должно быть таких страниц, как:
Случайно генерируемые CMS страницы сайта без контента или с дублями, как полными, так и частичными
Классическим примером таких страниц, являются версии страниц сайта для печати, pdf версии, страницы пагинации (разбивки контента на отдельные страницы), аннотации.
В случае нахождения таких страниц в индексе, необходимо их запретить в robots.txt.
Пример: Сайт, созданный на Joomla с помощью сторонних компонентов (дополнительных расширений для увеличения функциональности), очень часто генерирует полные копии страниц при прямых запросах к компоненту в разделе сайта /component/ и версии страниц для печати с добавлением параметра ?tmpl=component&print=1 к оригинальному адресу страницы сайта.
В таком случае, правильный robots.txt для Joomla будет выглядеть так:
User-Agent: *
Disallow: /component/
Disallow: *?tmpl=component&print=1
User-Agent: Yandex
Disallow: /component/
Disallow: *?tmpl=component&print=1
Host: site.ru
Примечание: настоятельно не рекомендуется оставлять оригинальные robots.txt от CMS, поскольку по типовому содержанию файлов robots.txt осуществляется поиск сайтов на конкретных CMS с известными уязвимостями вирусами и хакерами для взлома.
Страницы, содержащие конфиденциальную информацию
К таким страницам относятся все страницы (файлы), которые содержат личную информацию о пользователях, данные о товарах и ценах не для общего пользования. Особенно такая проблема может быть актуальной, если сайт используется для автоматической генерации pdf счетов на оплату, систем оплаты, извещений или обмена сообщениями между пользователями.
Пример: Многие интернет-магазины имеют функцию генерации pdf счета для клиента при заказе с последующей отправкой этого счета по email. В случае отсутствия запрета на индексацию pdf файлов в разделе /files/ на сайте велика вероятность попадания данных счетов в публичный доступ.
Если в конкретном случае известна директория (раздел) сайта, где хранятся pdf файлы, то можно запретить весь раздел:
User-Agent: *
Disallow: /files/
User-Agent: Yandex
Disallow: /files/
Host: site.ru
или запретить индексацию pdf файлов из данного раздела:
User-Agent: *
Disallow: /files/*.pdf$
User-Agent: Yandex
Disallow: /files/*.pdf$
Host: site.ru
Страницы, ошибочно генерируемые CMS
Данная проблема особенно актуальна при использовании бесплатных CMS и дополнительных SEF компонентов для создания ЧПУ урлов (человекопонятным адресом страниц). В этом случае, как правило при обходе поисковым роботом сайта данная страница генерируется под стандартным (не ЧПУ) адресом и ЧПУ урлом, созданным компонентом.
Пример: Для запрета индексации страниц под оригинальными не ЧПУ урлами на сайте, созданном на CMS Joomla, robots.txt будет таким:
User-Agent: *
Disallow: /index.php
User-Agent: Yandex
Disallow: /index.php
Host: site.ru
Страницы с не релевантным тематике сайта контентом
К таким страницам могут относится:
- страницы с дополнительной информацией, не касающейся собственно товаров и услуг компании;
- страницы с информацией справочного вида, как FAQ, типовые договора, лицензии, фотогалереи;
- страницы с рекламой и ссылками на другие, в т.ч. партнерские сайты;
- страницы форума, если таковой на сайте есть.
Запрет страниц с не тематическим контентом — это сложная работа, требующего глубокого анализа статистических данных из счетчика Яндекс Метрика и статистики поисковых запросов Яндекс Вордстат.
Решение о запрете таких страниц должно приниматься исключительно только профессиональным специалистом на основе вырабатаной стратегии продвижения сайта по семантическому ядру ключевых слов и словосочетаний.
Пример: на сайте есть раздел FAQ, в котором пользователи имеют возможность задавать вопросы, касаемо приобретения товаров, их цены и наличия. В силу того, что этот раздел постоянно обновляется и растет в объеме, он становится более релевантен с точки зрения поисковой системы ключевым словам и запросам, чем раздел с каталогом продукции, но в силу того, что информация, которую пользователь читает, уже может быть неактуальна, необходимо, чтобы в поисковой выдаче присутствовали только страницы с товарами и услугами, т.е. необходимо справочный раздел /faq/ закрыть от индексации:
User-Agent: *
Disallow: /faq/
User-Agent: Yandex
Disallow: /faq/
Host: site.ru
Примечание: Несмотря на то, что поисковые системы используют схожие алгоритмы для ранжирования сайтов, рекомендуется для основных поисковых систем в Рунете Яндекса и Google использовать отдельные директивы с учетом особенности работы каждой поисковой системы при закрытии от индексации страниц с не релевантным тематике сайта контентом.
Создать и настроить robots.txt в битриксе
Важно передать поисковикам актуальную информацию о страницах, которые закрыты от индексации, о главном зеркале и карте сайта (sitemap.xml). Для этого в корне сайта создается файл robots.tx и заполняется директивами.
Рассмотрим как в самом общем случае в битриксе создать файл robots.txt.
Первое, переходим на страницу Рабочий стол -> Маркетинг -> Поисковая оптимизация -> Настройка robots.txt
Второе, указываем основные правила.
На первой строчке видим User-agent: *
, это означает, что директивы указаны для всех роботов всех поисковых систем.
Закрываем от индексации страницу авторизации, личного кабинета и другие директории и страницы, которые не должны попасть в результаты поиска.
Для того, чтобы закрыть директорию пишем правило:
Disallow: /auth/
Третье, указываем главное зеркало сайта с помощью директивы Host. Учтите www, если главным выбран домен с www.
Четвертое, в директиве Sitemap прописываем ссылку к файлк sitemap.xml.
В целом, это все что требуется, для того, чтобы передать файл в вебмастера Яндекса и Google.
В интерфейсе cms битрикс, есть возможность работать с каждым роботом(у поисковиков есть несколько ботов(роботов), которые занимаются отдельными действиями).
Вот роботы Яндекса:
- YandexBot — основной индексирующий
- YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы
- YandexMedia — робот, индексирующий мультимедийные данные
- YandexImages — индексатор Яндекс.Картинок
- YandexBlogs поиска по блогам — робот, индексирующий посты и комментарии
- YandexNews — робот Яндекс.Новостей
- YandexMetrika — робот Яндекс.Метрики
- YandexMarket — робот Яндекс.Маркета
Например, вам не нужно индексировать картинки, находящиеся в папке /include/, но вы хотите, чтобы статьи из этого раздела индексировались. Для этого, следует закрыть директивой Disallow папку /include/ для робота YandexImages.
User-agent: YandexImages
Disallow: /include/
Семен Голиков.
что это, как настроить и ускорить индексирование в поисковых системах
Как только вы создадите сайт для своего бизнеса, однозначно столкнетесь с понятием «индексация в поисковых системах». В статье постараемся как можно проще рассказать, что это такое, зачем нужно и как сделать, чтобы индексация проходила быстро и успешно.
Что такое индексация в поисковых системах
Под индексацией понимают добавление информации о сайте или странице в базу данных поисковой системы. Фактически поисковую базу можно сравнить с библиотечным каталогом, куда внесены данные о книгах. Только вместо книг здесь веб-страницы.
Если совсем просто, индексация — процесс сбора данных о сайте. Пока информация о новой странице не окажется в базе, ее не будут показывать по запросам пользователей. Это означает, что ваш сайт никто не увидит.
Индексация сайта — базовая часть работы по продвижению ресурса. Только потом уже добавляются все остальные элементы по оптимизации сайта. Если у веб-страницы будут проблемы с индексированием, ваш бизнес не получит клиентов с сайта и понесет убытки.
Как проходит процесс индексации
Давайте посмотрим, как происходит индексирование страниц сайта.
- Поисковый робот (краулер) обходит ресурсы и находит новую страницу.
- Данные анализируются: происходит очистка контента от ненужной информации, заодно формируется список лексем. Лексема — совокупность всех значений и грамматических форм слова в русском языке.
- Вся собранная информация упорядочивается, лексемы расставляются по алфавиту. Заодно происходит обработка данных, поисковая машина относит информацию к определенным тематикам.
- Формируется индексная запись.
Это стандартный процесс индексации документов для поисковых систем. При этом у «Яндекса» и Google существуют небольшие отличия в технических моментах, про это мы расскажем дальше.
Читайте также:
Отличия SEO под Яндекс и Google
Технологии и алгоритмы индексации
Сразу стоит оговориться, что точные алгоритмы индексирования — закрытая коммерческая информация. Поисковые системы тщательно охраняют эти данные. Поэтому в этом разделе расскажем про алгоритмы только в общих чертах
Вначале нужно отметить: «Яндекс» при индексации ориентируется в основном на файл robots.txt, а Google на файл sitemap.xml.
Основным отличием является использование технологии Mobile-first. Она подразумевает первоочередное сканирование и индексацию мобильной версии сайта. В индексе сохраняется именно мобильная версия. Получается, что если ваша страница при показе на мобильных устройствах будет содержать недостаточно нужной информации или в целом проигрывать основной версии сайта по качеству. Так, что она может даже не попасть в индекс.
Также Google подтверждает наличие «краулингового бюджета» — регулярности и объема посещения сайта роботом. Чем больше краулинговый бюджет, тем быстрее новые страницы будут попадать в индекс. К сожалению, точных данных о способах расчета этого показателя представители компании не раскрывают. По наблюдениям специалистов, тут оказывают сильное влияние возраст сайта и частота обновлений.
«Яндекс»
В «Яндексе» основной версией считается десктопная версия сайта, поэтому в первую очередь сканируется именно она. Официально краулингового бюджета здесь нет, поэтому индексирование происходит вне зависимости от траста и других показателей вашего ресурса. Еще может влиять количество выложенных в сеть на данный момент страниц. Речь про страницы, которые конкуренты и другие пользователи выкладывают одновременно с вами.
Приоритет при индексации имеют сайты с большой посещаемостью. Чем выше посещаемость, тем быстрее новая страница окажется в поисковой выдаче.
Также Яндекс не индексирует документы с весом более 10 Мб. Учитывайте это при создании страниц сайта. Советуем также почитать кейс: Продвижение сайта REG.RU за процент от продаж.
Заказать продвижение сейчас
Как настроить индексацию сайта
В целом сайт должен индексироваться самостоятельно, даже если вы не будете ничего предпринимать для этого. Но если вы разберетесь с настройкой, то получите быструю и надежную индексацию и в случае возникновения проблем с сайтом будете понимать, в чем причина.
Первое, что стоит сделать, — создать файл robots.txt. У большей части систем управления сайтом (CMS) есть автоматизированные решения для его генерации. Но нужно как минимум понимать, какие директивы используются в этом файле. На скриншоте показан стандартный документ для сайта на WordPress:
Типовой файл robots.txt сайта на WordPress
Обратите внимание, что здесь нет директивы host: она не используется «Яндексом» с 2018 года, а Google никогда ее и не замечал. Но при этом до сих пор встречаются рекомендации по использованию этой директивы, и многие по инерции вставляют ее в файл.
В таблице ниже указаны основные параметры, используемые в robots.txt:
Директива | Зачем используется |
User-agent:
|
Показывает поискового робота, для которого установлены правила |
Disallow: | Запрещает индексацию страниц |
sitemap: | Показывает путь к файлу sitemap.xml |
Clean-param: | Указывает на страницы, где часть ссылок не нужно учитывать, например UTM-метки |
Allow: | Разрешает индексацию документа |
Crawl-delay: | Указывает поисковому роботу минимальное время ожидания между посещением предыдущей и следующей страницы сайта |
Рассмотрим более подробно код на следующем скриншоте. User-agent показывает, что директивы предназначены для «Яндекса». А директива Disallow показывает, какие страницы не должны попасть в индекс. Это технические документы, в частности админ-панель сайта и плагины.
Фрагмент кода robots.txt
Более подробно о том, каким должен быть robots.txt для сайта, можно прочитать в справке сервиса «Яндекс.Вебмастер».
Далее делаем файл sitemap.xml: фактически это карта сайта, созданная в формате xml. Сделано это для упрощения считывания данных поисковыми роботами. В файл вносятся все страницы, которые должны быть проиндексированы.
Для правильной индексации файл не должен превышать 50 Мб или 50000 записей. Если нужно проиндексировать больше адресов, делают несколько файлов, которые в свою очередь перечисляются в файле с индексом sitemap.
На практике сайты, работающие с бизнесом, редко имеют потребность в подобном решении — просто имейте в виду такую особенность.
На скриншоте показан фрагмент кода sitemap.xml, сгенерированный одним из плагинов WordPress:
Так выглядит файл sitemap.xml «изнутри»
Остается разобраться, как создать файл sitemap.xml. Решение зависит от CMS вашего сайта. Если он сделан не на популярном «движке», придется делать все руками. Можно воспользоваться онлайн-генератором: например, mySitemapgenerator. Вводим адрес сайта и через короткое время получаем готовый файл.
Для сайтов на CMS WordPress сделать такую карту сайта еще проще. У вас все равно уже установлен один из плагинов для SEO-оптимизации ресурса. Заходим в настройки плагина и включаем генерацию sitemap.xml. На скриншоте показан пример включения карты сайта через плагин AIOSEO:
Плагин для настройки sitemap.xml в WP
Чтобы сайт максимально быстро индексировался, следует обеспечить перелинковку. Тогда поисковый робот без проблем будет переходить по страницам и своевременно найдет новый документ.
Далее необходимо выполнить настройку индексирования в «Яндекс.Вебмастер» и Google Search Console.
Читайте также:
Подробный гайд по оптимизации сайта на WordPress
Как ускорить индексацию сайта
В начале статьи мы рассказывали, как настроить индексирование. Теперь поговорим о том, как ускорить это процесс. В целом современные поисковые роботы довольно быстро собирают информацию о ресурсе: по моим наблюдениям, новые страницы появляются в индексе уже через 20–40 минут. Но так бывает не всегда, потому что может произойти сбой или еще какая-то нештатная ситуация, и страница будет индексироваться очень долго.
Появление адреса в списке проиндексированных страниц «Яндекс.Вебмастера» не совпадает с моментом индексации. На практике URL оказывается в индексе намного раньше, а в кабинете только при очередном апдейте.
При этом есть ситуации, когда индексирование нужно ускорить:
- Сайт выходит из-под фильтров.
- Молодой ресурс обладает небольшим краулинговым бюджетом.
В обоих случаях рекомендуется подтолкнуть поисковых роботов. Отметим, что для «Яндекса» и Google подход будет разным.
Начнем с отечественной поисковой системы. Заходим в «Яндекс.Вебмастер» и в меню слева, во вкладке «Индексирование», находим ссылку «Переобход страниц». Переходим по ней:
Яндекс.Вебмастер — подраздел «Переобход страниц» в меню «Индексирование»
На следующей вкладке вводим URL новой страницы, после чего жмем кнопку «Отправить». Отследить статус заявки можно в расположенном ниже списке:
Процесс отправки страниц сайта на переобход
Так можно поступать не только с новыми страницами, но и в случае изменения уже имеющихся на сайте. Только помните, что количество отправок в сутки ограничено, причем все зависит от возраста и траста сайта.
В самом «Вебмастере» предлагается для ускорения индексирования подключать переобход по счетчику «Яндекс.Метрики». Это не самое лучшее решение. Дело в том, что поисковый робот может ходить по всем страницам — даже тем, которые не нужно индексировать, причем в приоритете будут наиболее посещаемые документы. Может получиться ситуация, когда старые страницы робот обошел, а новые не заметил. Или вообще в поиск попадут технические страницы: например, страница авторизации или корзина интернет-магазина.
У Google ускорение индексации состоит из двух этапов. Сначала идем в Search Console, где на главной странице вверху находится поле «Проверка всех URL». В него вставляем адрес страницы, которую нужно проиндексировать. Далее нажимаем на клавиатуре «Enter».
Поле для ввода URL страницы, которую мы хотим добавить для индексирования
Ждем около минуты. Сервис нам будет показывать вот такое окно:
Всплывающее окно в Search Console о получении данных из индекса
Следующая страница выглядит вот так:
Как видите написано, что URL отсутствует в индексе, поэтому нажимаем на кнопку «Запросить индексирование»
Некоторое время поисковая машина будет проверять, есть ли возможность проиндексировать адрес:
Техническое окно с сообщением о проверке
Если все прошло успешно, Google сообщает, что страница отправлена на индексирование. Остается только дождаться результатов.
Сообщение об отправке запроса. Обратите внимание, что не стоит повторно отправлять на индексацию один и тот же URL
При отправке на индексирование страниц сайта, следует помнить, что Google до сих пор очень ценит ссылки. Поэтому, существует альтернативный способ ускорения индексации — Twitter.
Сразу после публикации страницы идем в Twitter и делаем твит с нужным адресом. Буквально через полчаса URL будет уже в индексе Google.
Лучше всего использовать эти обе способа совместно. Так будет надежнее.
Читайте также:
Внешняя оптимизация сайта: как продвигать сайт с помощью сторонних ресурсов
Как запретить индексацию страниц
В некоторых случаях может потребоваться не проиндексировать, а наоборот запретить индексацию. К примеру, вы только создаете страницу и на ней нет нужной информации, или вообще сайт в разработке и все страницы — тестовые и недоработанные.
Существует несколько способов, чтобы «спрятать» страницу от поисковых роботов. Рассмотрим наиболее удобные варианты.
Способ первый
Если вам нужно скрыть всего один документ, можно добавить в код страницы метатег Noindex. Эта команда дает поисковому роботу команду не индексировать документ. Размещают его между тегами <head>. Вот код, который нужно разместить:
<meta name=»robots» content=»noindex» />
Большая часть CMS позволяют использовать этот метод в один клик, предлагая готовые решения. У WordPress, например, для этого имеется отдельная строчка в настройках редактора, а в «1С-Битрикс» путем настроек раздела и конкретной страницы.
Способ второй
Заключается в редактировании файла robots.txt. Разберем несколько примеров закрытия страниц от индексирования.
Начнем с полного закрытия сайта от индексирования. На скриншоте код, который выполняет эту задачу: звездочка говорит, что правило работает для всех поисковых роботов. Косая черта (слеш) показывает, что директива Disallow относится ко всему сайту.
Полное закрытие сайта от индексирования
Если нам нужно закрыть ресурс от индексирования в конкретной поисковой системе, указываем название ее краулера. На скриншоте показано закрытие от робота «Яндекса».
Закрываем сайт от индексации «Яндексом»
Когда нужно избежать индексирования конкретной страницы, после слеша указываем параметры пути к документу. Пример показан на скриншоте:
Закрытие одной страницы в Robots.txt
Для Google все перечисленные способы работают аналогично. С разницей лишь в том, что если страницу или целый сайт нужно скрыть конкретно от этой поисковой системы, в User-agent указывают атрибут Googlebot.
Закрытие страниц от индексации используется довольно часто. В процессе развития своего веб-ресурса вам часто придется делать новые страницы, или переделывать имеющиеся. Чтобы избежать попадания в поисковую выдачу не готовых к показу страниц, имеет смысл закрывать их от индексации.
Присоединяйтесь к нашему Telegram-каналу!
- Теперь Вы можете читать последние новости из мира интернет-маркетинга в мессенджере Telegram на своём мобильном телефоне.
- Для этого вам необходимо подписаться на наш канал.
Распространенные ошибки индексации
Чаще всего проблемы возникают из-за случайного закрытия сайта от индексирования. У меня был случай, когда клиент при самостоятельном обновлении плагинов как-то внес изменения в файл robots.txt, и сайт исчез из поисковой выдачи. Поэтому при всех действиях, которые связаны с этим файлом, обязательно проверяйте, нет ли изменений в директивах.
Для проверки можно использовать инструмент Яндекс.Вебмастер «Анализ robots.txt».
Анализатор robots.txt — бесплатный и полезный инструмент проверки файла на корректность записанных директив
В некоторых случаях могут индексироваться технические страницы. К примеру, на WordPress при размещении изображений в виде медиафайла поисковый робот может индексировать каждую картинку в качестве отдельной страницы. В таком случае делаем редирект с этой страницы на тот документ, где изображение будет выводиться.
Читайте также:
Как сделать редирект — подробное руководство по настройке и использованию
Иногда встречаются проблемы с индексированием из-за неполадок на сервере или хостинге, но это уже нужно решать с администратором сервера, что выходит за рамки этой статьи.
Медленное индексирование может быть следствием наложения фильтров со стороны поисковых систем. Посмотрите, нет ли предупреждений в сервисах для вебмастеров: если они есть, устраните проблемы.
Как проверить индексацию сайта
Проверить индексацию сайта можно несколькими способами. Самым простой — в поисковой строке браузера набрать адрес сайта с оператором «site» или «url». Выглядит это вот так: «site: kokoc.com». На скриншоте показан запрос с проиндексированной страницей.
Проверка индексирования в поисковой системе
Если страница еще не вошла в индекс, вы увидите вот такую картину. Проверка в Google производится аналогично.
Страница не проиндексирована
Также можно посмотреть статус документа в «Яндекс.Вебмастер». Для этого находим в меню «Индексирование» и переходим на «Страницы в поиске».
Меню «Яндекс.Вебмастер»
Внизу страницы будут три вкладки. Нас интересуют «Все страницы», там можно увидеть статус документа, последнее посещение и заголовок.
Проиндексированные страницы
Обязательно посмотрите вкладку «Исключенные страницы». Тут вы увидите, какие документы оказались вне поискового индекса. Также указана причина исключения.
Исключенные страницы
При любых сложностях с индексированием в первую очередь следует смотреть конфигурационные файлы robots.txt и sitemap.xml. Если там все в порядке, проверяем, нет ли фильтров, и в последнюю очередь обращаемся к администратору хостинга.
Выводы
Индексация страниц сайта сейчас происходит в самые короткие сроки. При правильной настройке документы могут попадать в индекс поиска уже через полчаса после размещения.
Настройка сводится к созданию правильных конфигурационных файлов и созданию удобных условий для поискового робота для перехода по страницам сайта. Вот какие шаги нужно сделать для правильной индексации:
- Создаем и настраиваем файл robots.txt.
- Генерируем файл sitemap.xml.
- Регистрируем сайт в сервисах Google Search Console и «Яндекс.Вебмастер».
- Каждый раз после размещения статьи или новой страницы отправляем URL на проверку.
- Используем дополнительные инструменты: размещение ссылок в Twitter и на других трастовых ресурсах.
После этого вероятность возникновения каких-либо проблем с индексированием будет стремиться к нулю. Теперь нужно наращивать позиции в топе — но это уже совсем другая история…
Продвижение сайта в ТОП-10
- Оплата по дням нахождения в ТОП
- Подбираем запросы, которые приводят реальных покупателей!
Как создать файл robots.txt в 2021: пошаговая инструкция
Файл robots.txt — это текстовый файл, в котором содержаться инструкции для поисковых роботов, в частности каким роботам и какие страницы допускается сканировать, а какие нет.
Где можно найти файл robots.txt и как его создать или редактировать
Чтобы проверить файл robots.txt сайта, следует добавить к домену «/robots.txt», примеры:
https://seopulses.ru/robots.txt
https://serpstat.com/robots.txt
https://netpeak.net/robots.txt
Как создать и редактировать robots.txt
Вручную
Данный файл всегда можно найти, подключившись к FTP сайта или в файлом редакторе хостинг-провайдера в корневой папке сайта (как правило, public_html):
Далее открываем сам файл и можно его редактировать.
Если его нет, то достаточно создать новый файл.
После вводим название документа и сохраняем.
Через модули/дополнения/плагины
Чтобы управлять данный файлом прямо в административной панели сайта следует установить дополнительный модуль:
- Для 1С-Битрикс;
https://dev.1c-bitrix.ru/learning/course/?COURSE_ID=139&LESSON_ID=5814
Virtual Robots.txt
https://opencartforum.com/files/file/5141-edit-robotstxt/
https://support.webasyst.ru/shop-script/149/shop-script-robots-txt/
Как проверить работу файла robots.txt
В Яндекс.Вебмастер
В Яндекс.Вебмастер в разделе «Инструменты→ Анализ robots.txt» можно увидеть используемый поисковиком свод правил и наличие ошибок в нем.
Также можно скачать другие версии файла или просто ознакомиться с ними.
Чуть ниже имеется инструмент, который дает возможно проверить сразу до 100 URL на возможность сканирования.
В нашем случае мы проверяем эти правила.
Как видим из примера все работает нормально.
Также если воспользоваться сервисом «Проверка ответа сервера» от Яндекса также будет указано, запрещен ли для сканирования документ при попытке обратиться к нему.
В Google Search Console
В случае с Google можно воспользоваться инструментом проверки Robots.txt, где потребуется в первую очередь выбрать нужный сайт.
Важно! Ресурсы-домены в этом случае выбирать нельзя.
Теперь мы видим:
- Сам файл;
- Кнопку, открывающую его;
- Симулятор для проверки сканирования.
Если в симуляторе ввести заблокированный URL, то можно увидеть правило, запрещающее сделать это и уведомление «Недоступен».
Однако, если ввести заблокированный URL в страницу поиска в новой Google Search Console (или запросить ее индексирование), то можно увидеть, что страница заблокирована в файле robots.txt.
Robots.txt. Создать правильный robots.txt – для продвижения сайтов. Анализатор robots.txt, основные директивы.
В ходе работ по продвижению сайта появляется необходимость закрытие от поисковых систем ряда страниц, которые не несут полезной информации для пользователей, мешают корректной индексации и ранжированию сайта или могут содержать данные, попадание которых в открытый доступ необходимо избежать. Появляется необходимость самостоятельно показать поисковым системам, какие части сайта не следует индексировать и размещать поиске. Подобные инструкции прописываются в специальном файле на сайте – robots.txt.
Robots.txt – специальный текстовый файл, расположенный в корневом каталоге сайта и содержащий инструкции для поисковых систем. В файле robots.txt можно указать информацию как для каждой поисковой системы в отдельности, так и для всех поисковиков сразу.
Как создать robots.txt?
Файл robots.txt легко создать при помощи любого текстового редактора, например Блокнот. Для этого достаточно создать новый файл с именем «robots.txt», и заполнить его всеми необходимыми директивами. После того, как файл создан, его необходимо поместить в корневой каталог вашего сайта.Пример размещения готового сайта robots.txt:
Основные директивы robots.txt
User-agent – директива, где указываются наименования поисковых роботов, к которым будут применяться написанные ниже правила. Для того чтобы написанные инструкции использовали все роботы, поддерживающие robots.txt , достаточно указать в директиве User-agent значение «*»:Если написанные директивы предназначаются определенным поисковым роботам, то в User-agent пишут их названия:
Информацию по поисковым роботам Google можно получить тут, по поисковым роботам Яндекса тут.
Disallow – директива, позволяющая запретить доступ роботов поисковых систем к конкретным страницам и разделам сайта. Директиву Disallow используют для того, чтобы скрыть страницы или разделы, которые не имеют информационной значимости для пользователей (технический разделы сайта, дублирующийся контент и т.п.). Также данная директива позволяет закрыть информацию, которая не должна попасть в общий доступ (личные данный пользователей и т.д.):
При помощи директивы Disallow можно запретить доступ поисковых роботов ко всему сайту целиком:
При запрете индексации всего сайта – она полностью пропадает из поиска.
Allow – директива, которая позволяет разрешить доступ поискового робота к странице или разделам сайта. Часто данная директива используется, когда надо открыть для роботов небольшое количество страниц раздела, который планируется закрыть при помощи директивы Disallow:
Спецсимвол «*» – обозначает любую последовательность символов. Применяется, если необходимо закрыть (открыть) большое количество страниц с общим набором некоторых символов:
По умолчанию любое правило в robots.txt заканчивается «*».
Спецсимвол «$» – используется для того, чтобы отменить использование спецсимвола «*» в конце правила:
Sitemap – директива необходимая, если для улучшения индексации сайта используется файл sitemap.xml. При помощи директивы Sitemap можно указать путь к месту расположения одной или нескольких xml-карт сайта:
В дальнейшем, данные из sitemap.xml будут использоваться для индексации сайта.
Host – директива, используемая для указания главного зеркала сайта. Если у сайта есть несколько зеркал, то они будут объединены в специальную группу. В таком случае в поиске будет выдаваться только адрес главного зеркала. Для того чтобы у робота-зеркальщика Яндекса не было проблем с определением главного сайта, необходимо указать его в директиве Host файла robots.txt каждого сайта-зеркала:
Директива Host в файле robots.txt указывается после директив Allow и Disallow
Crawl-delay – директива, которая позволяет указать поисковым роботам минимальное время (в секундах) между скачиванием страниц. Данную директиву следует использовать в случае сильной нагрузки на сервер:
Директива Crawl-delay в файле robots.txt пишется после директив Allow и Disallow.
Clean-param – директива позволяющая избежать многократной закачки дублирующихся страниц, возникших из-за не изменяющих содержание динамических параметров. Использование директивы Clean-param снижает нагрузку на сервер, а также позволяет избавиться от одной из основных технических проблем, мешающих успешному продвижению сайтов в Яндексе – внутренних дублей страниц:
Наиболее частое применение данная директива получила при наличии на сайте идентификаторов сессий.
Анализатор файла robots.txt
Небольшая опечатка в файле robots.txt может привезти к исчезновению из индекса поисковых систем важных для пользователя разделов. Для того чтобы избежать этого рекомендуется использовать специальный сервис, позволяющий убедится, что robots.txt создан правильно.Воспользоваться анализатором robots.txt можно здесь.
Для того чтобы проанализировать правильность составление файла robots.txt, необходимо в поле «Имя хоста» написать домен сайта, а в поле «Robots.txt» перенести данные из созданного файла. Если файл robots.txt уже загружен на хостинг, то достаточно нажать кнопку «Загрузить robots.txt с сайта» и данные появятся автоматически:
Теперь, чтобы проверить правильность составления файла robots.txt, необходимо сделать проверку наиболее важных страниц (разделов) сайта, которые должны быть открыты, а также добавить для проверки страницы, которые необходимо закрыть. Нажимаем кнопку «добавить» и копируем список проверяемых адресов (допускается использовать как абсолютные, так и относительные адреса страниц):
Как только все необходимые адреса внесены в поле ввода, жмем кнопку «Проверить»:
Если все предназначенные для закрытия адреса запрещены к индексации, а полезные разделы и страницы – разрешены, то файл robots.txt составлен без ошибок. Если разделы сайта оказались некорректно закрыты (открыты), то необходимо просмотреть файл robots.txt на наличие ошибок, либо добавить соответствующие директивы Disallow (Allow).
Файл robots.txt можно загружать на сайт (или обновлять информацию в существующем) только после того, как анализатор подтвердил правильность его составления: что должно быть закрыто – запрещено, что должно быть открыто – разрешено.
Что такое файл Robots.txt в домене?
Одна из самых больших ошибок новых владельцев веб-сайтов — не заглядывать в их файл robots.txt. Так что же это вообще такое и почему так важно? У нас есть ваши ответы.
Если вы являетесь владельцем веб-сайта и заботитесь о его SEO-состоянии, вам следует хорошо ознакомиться с файлом robots.txt в своем домене. Хотите верьте, хотите нет, но существует тревожно большое количество людей, которые быстро запускают домен, быстро устанавливают веб-сайт WordPress и никогда не заботятся о том, чтобы что-либо делать со своими роботами.txt файл.
Это опасно. Плохо настроенный файл robots.txt может фактически подорвать SEO вашего сайта и повредить любые ваши шансы на увеличение трафика.
Что такое файл Robots.txt?
Файл Robots.txt назван удачно, потому что это, по сути, файл, в котором перечислены директивы для веб-роботов (например, роботов поисковых систем) о том, как и что они могут сканировать на вашем веб-сайте. Это веб-стандарт, которому следуют веб-сайты с 1994 года, и все основные поисковые роботы придерживаются этого стандарта.
Файл хранится в текстовом формате (с расширением .txt) в корневой папке вашего веб-сайта. Фактически, вы можете просмотреть файл robot.txt любого веб-сайта, просто введя домен, а затем /robots.txt. Если вы попробуете это с помощью groovyPost, вы увидите пример хорошо структурированного файла robot.txt.
Файл простой, но эффективный. В этом примере файла не делается различий между robots. Команды выдаются всем роботам с помощью директивы User-agent: * .Это означает, что все команды, следующие за ним, применяются ко всем роботам, которые посещают сайт для его сканирования.
Указание веб-сканеров
Вы также можете указать определенные правила для определенных веб-сканеров. Например, вы можете разрешить роботу Googlebot (поисковому роботу Google) сканировать все статьи на вашем сайте, но вы можете запретить русскому поисковому роботу Yandex Bot сканировать статьи на вашем сайте, содержащие пренебрежительную информацию о России.
Существуют сотни поисковых роботов, которые ищут в Интернете информацию о веб-сайтах, но 10 наиболее распространенных, о которых следует беспокоиться, перечислены здесь.
- Googlebot : поисковая система Google
- Bingbot : поисковая система Microsoft Bing
- Slurp : поисковая система Yahoo
- DuckDuckBot : поисковая система DuckDuckGo
- Baiduspider : китайская поисковая система Baidu YandexBot : российская поисковая система Яндекс
- Exabot : французская поисковая система Exalead
- Facebot : сканирующий бот Facebook
- ia_archiver : поисковый робот Alexa
- MJ12bot : большая база данных индексации ссылок
В приведенном выше примере сценария, если вы хотите разрешить роботу Googlebot индексировать все, что есть на вашем сайте, но хотите запретить Яндекс индексировать содержание вашей статьи на русском языке, вы должны добавить следующие строки в файл robots.txt файл.
User-agent: googlebot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
User-agent: yandexbot
Disallow: Disallow: / wp-admin /
Disallow: /wp-login.php
Disallow: / russia /
Как видите, первый раздел блокирует только сканирование вашей страницы входа в WordPress и административных страниц в Google. Второй раздел блокирует доступ Яндекса к той же, но и ко всей области вашего сайта, где вы публиковали статьи с антироссийским содержанием.
Это простой пример того, как вы можете использовать команду Disallow для управления определенными поисковыми роботами, которые посещают ваш веб-сайт.
Другие команды Robots.txt
Disallow — не единственная команда, к которой у вас есть доступ в файле robots.txt. Вы также можете использовать любые другие команды, которые будут указывать, как робот может сканировать ваш сайт.
- Disallow : Указывает агенту пользователя избегать сканирования определенных URL-адресов или целых разделов вашего сайта.
- Разрешить : позволяет настраивать определенные страницы или подпапки на вашем сайте, даже если вы запретили родительскую папку. Например, вы можете запретить: / about /, но затем разрешить: / about / ryan /.
- Crawl-delay : указывает сканеру подождать xx секунд перед тем, как начать сканирование содержания сайта.
- Карта сайта: Предоставьте поисковым системам (Google, Ask, Bing и Yahoo) расположение ваших XML-карт сайта.
Имейте в виду, что боты будут только слушать команды, которые вы указали при указании имени бота.
Распространенная ошибка, которую делают люди, — запрещает использование таких областей, как / wp-admin / для всех ботов, но затем указывает раздел googlebot и запрещает только другие области (например, / about /).
Поскольку боты следуют только командам, указанным вами в их разделе, вам необходимо повторно ввести все те другие команды, которые вы указали для всех ботов (с помощью * user-agent).
- Disallow : Команда, используемая для указания пользовательскому агенту не сканировать определенный URL. Для каждого URL разрешена только одна строка «Disallow:».
- Разрешить (применимо только для робота Googlebot) : команда, сообщающая роботу Googlebot, что он может получить доступ к странице или подпапке, даже если его родительская страница или подпапка могут быть запрещены.
- Crawl-delay : Сколько секунд сканер должен ждать перед загрузкой и сканированием содержимого страницы. Обратите внимание, что робот Googlebot не подтверждает эту команду, но скорость сканирования можно установить в консоли поиска Google.
- Карта сайта : Используется для вызова местоположения XML-карты (-ов) сайта, связанной с этим URL-адресом.Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.
Имейте в виду, что robots.txt предназначен для более эффективного сканирования вашего сайта законными ботами (например, ботами поисковых систем).
Есть много гнусных поисковых роботов, которые сканируют ваш сайт, чтобы делать такие вещи, как очистка адресов электронной почты или кража вашего контента. Если вы хотите попробовать использовать файл robots.txt, чтобы заблокировать этим сканерам сканирование чего-либо на вашем сайте, не беспокойтесь. Создатели этих поисковых роботов обычно игнорируют все, что вы вложили в своих роботов.txt файл.
Почему что-то запрещать?
Заставить поисковую систему Google сканировать как можно больше качественного содержания на вашем веб-сайте — это первоочередная задача для большинства владельцев веб-сайтов.
Однако Google расходует только ограниченный бюджет сканирования и скорость сканирования на отдельных сайтах. Скорость сканирования — это количество запросов в секунду, которые робот Googlebot отправит вашему сайту во время сканирования.
Более важным является бюджет сканирования, который представляет собой общее количество запросов, которые робот Googlebot сделает для сканирования вашего сайта за один сеанс.Google «тратит» свой краулинговый бюджет, сосредотачиваясь на тех областях вашего сайта, которые очень популярны или изменились в последнее время.
Вы не закрываете глаза на эту информацию. Если вы посетите Инструменты Google для веб-мастеров, вы увидите, как поисковый робот обрабатывает ваш сайт.
Как видите, поисковый робот поддерживает постоянную активность на вашем сайте каждый день. Он сканирует не все сайты, а только те, которые считает наиболее важными.
Зачем оставлять Googlebot решать, что важно на вашем сайте, если вы можете использовать своих роботов.txt, чтобы указать, какие страницы наиболее важны? Благодаря этому робот Googlebot не будет тратить время на малоценные страницы вашего сайта.
Оптимизация бюджета сканирования
Инструменты Google для веб-мастеров также позволяют проверить, правильно ли Googlebot читает ваш файл robots.txt и нет ли ошибок.
Это поможет вам убедиться, что вы правильно структурировали файл robots.txt.
Какие страницы следует запретить роботу Googlebot? Для SEO вашего сайта полезно запретить следующие категории страниц.
- Дубликаты страниц (например, страницы для печати)
- Страницы с благодарностями после заказов на основе форм
- Формы заказов или информационных запросов
- Страницы для контактов
- Страницы входа в систему
- Страницы «продаж» для лид-магнита
Дон ‘ t Игнорируйте свой файл robots.txt
Самая большая ошибка, которую совершают новые владельцы веб-сайтов, — это никогда не смотреть на свой файл robots.txt. Худшая ситуация может заключаться в том, что файл robots.txt фактически блокирует сканирование вашего сайта или его частей.
Обязательно просмотрите файл robots.txt и убедитесь, что он оптимизирован. Таким образом, Google и другие важные поисковые системы «видят» все невероятные вещи, которые вы предлагаете миру на своем веб-сайте.
Что такое файл robots.txt и как его создать?
Файл robots.txt — это инструмент, который вы можете использовать для управления тем, как поисковые системы видят ваш сайт. По сути, он сообщает поисковым системам, как себя вести при сканировании вашего контента. И они могут быть чрезвычайно ценными для SEO и общего управления сайтом.
В этой статье я расскажу о следующих вещах:
- Что такое файл robots.txt?
- Нужен ли мне файл robots.txt?
- Как создать файл robots.txt
- Некоторые примеры того, что включать в файл robots.txt
- Использование robots.txt не является гарантией
- robots.txt и WordPress
- Генераторы файлов robots.txt
Краткая история веб-краулеров и винограда
У людей короткая избирательная память.Например, мы воспринимаем Google как должное. Многие часто считают, что интеллектуальный каталог (почти) всего в Интернете всегда был доступен.
Но первые дни Интернета были темными и запутанными временами, братья и сестры. Не было разумного способа что-либо найти.
О, у нас были поисковые машины. WebCrawler был первым, о котором слышало большинство людей, и к нему быстро присоединился Lycos. Они проиндексировали все, что могли найти в сети, и работали. На самом деле они работали слишком хорошо.
Когда вы ищете что-то конкретное, но вам нужно искать во всем мире , результаты поиска могут быть… менее чем полезными. Если вы когда-либо использовали WebCrawler, Lycos или любую другую поисковую систему до Google (привет, AltaVista!), Вы помните страницы и страницы результатов, которые не имели ничего общего с тем, что вы искали.
Индексирование Все было проблематично
Проблема с индексированием всего, что могло — и часто случалось — приводить к бесполезным результатам поиска.Поиск «Гроздья гнева», вероятно, вернет десятки страниц результатов, связанных с виноградом (фруктом) и фильмом «Звездный путь гнева Хана» , но ничего о Джоне Стейнбеке.
Что еще хуже, спамеры очень рано определили отсутствие изощренности поисковых систем и воспользовались этим. Это часто приводило к загрузке страниц, полных слов и фраз, которые не имели ничего общего с некачественными продуктами или схемами Понци, которые они пытались навязать ничего не подозревающим пользователям сети .
Технические препятствия, связанные с повышением «интеллектуальности» результатов поиска, были еще не решены. Так что вместо этого у нас были такие вещи, как Yahoo !, которая была вовсе не поисковой системой, а скорее тщательно отобранным списком веб-сайтов. Yahoo! не находили веб-сайты, сообщили Yahoo! владельцы веб-сайтов. где их найти.
Если это звучит ужасно ненаучно и не очень инклюзивно, это потому, что это было так. Но это был лучший ответ на хаос и беспорядок результатов поисковых систем, который мог придумать кто угодно.Yahoo! де-факто стала отправной точкой для большинства людей, использующих Интернет только потому, что не было ничего лучше.
Восстание машин
«Роботы», о которых мы говорим, на самом деле являются компьютерными программами, а не пугающими людей-машинами. Программы, которые индексируют Интернет, известны также под многими другими именами, включая пауки, боты и краулеры. Все названия относятся к одной и той же технологии.
Пара докторов наук из Стэнфорда. студенты по имени Ларри и Сергей со временем придумают, как сделать результаты поиска более релевантными.Тем не менее, в это время в сети прочесывали десятки других поисковых систем. Роботы непрерывно рыскали по сети, индексируя то, что находили. Но роботы — это не разумные формы жизни, это машины, поэтому они создали некоторые проблемы.
В первую очередь они проиндексировали множество вещей, которые владельцы сайтов не хотели индексировать. Это включает личную, конфиденциальную или служебную информацию, административные страницы и другие вещи, которые не обязательно принадлежат общедоступному каталогу.
Кроме того, по мере увеличения количества роботов возрастало их иногда негативное влияние на ресурсы веб-сервера.В те дни серверы не были такими надежными и мощными, как сейчас. Шквал пауков и ботов, яростно загружающих страницы сайта, может замедлить время отклика сайта.
Людям Интернета нужен был способ управлять роботами, и они нашли свое оружие в скромном, но мощном файле robots.txt .
Что такое файл robots.txt?
Файл robots.txt представляет собой текстовый формат, содержащий инструкции, которым должны следовать веб-сканеры и роботы .
Я говорю «должен», потому что нет ничего, требующего от сканера или бота выполнения инструкций в файле robots.txt. Основные игроки соблюдают большинство (но не все) правил, но некоторые боты полностью игнорируют директивы в вашем файле robots.txt.
Файл robots.txt находится в корневом каталоге вашего веб-сайта (например, http://ggexample.com/robots.txt).
Если вы используете подкаталоги, например blog.ggexample.com или forum.ggexample.com, каждый подкаталог также должен содержать файл robots.txt файл.
Сканеры выполняют простое текстовое сопоставление с тем, что у вас есть в файле robots.txt и с URL-адресами на вашем сайте. Если директива в вашем файле robots.txt совпадает с URL на вашем сайте, поисковый робот будет подчиняться установленному вами правилу.
Нужен ли мне файл robots.txt?
Когда файл robots.txt отсутствует, сканеры поисковых систем предполагают, что они могут сканировать и индексировать любую страницу, которую они находят на вашем сайте. Если вы этого хотите, вам не нужно создавать файл robots.txt файл.
Но если есть страницы или каталоги, которые вы не хотите индексировать, вам нужно создать файл robots.txt. К таким страницам относится то, о чем мы говорили ранее. Это частные, конфиденциальные, служебные и административные страницы. Однако он также может включать в себя такие вещи, как страницы с благодарностями или страницы, содержащие дублированный контент.
Например, версии для печати или страницы A / B-тестирования.
Как создать файл robots.txt
A robots.txt создается так же, как и любой текстовый файл. Откройте ваш любимый текстовый редактор и сохраните документ как robots.txt. Затем вы можете загрузить файл в корневой каталог вашего сайта с помощью FTP или файлового менеджера cPanel.
На заметку:
- Имя файла должно быть robots.txt — все в нижнем регистре. Если какая-либо часть имени написана с заглавной буквы, сканеры не прочитают ее.
- Записи в вашем файле robots.text также чувствительны к регистру. Например, / Directory / не то же самое, что / directory /.
- Используйте текстовый редактор для создания или редактирования файла. Текстовые процессоры могут добавлять символы или форматирование, препятствующие чтению файла поисковыми роботами.
- В зависимости от того, как был создан ваш сайт, файл robots.txt может уже находиться в корневом каталоге. Проверьте перед созданием и загрузкой нового файла robots.txt, чтобы случайно не перезаписать существующие директивы.
Некоторые примеры того, что включать
Файл robots.txt содержит ряд переменных и подстановочных знаков, поэтому существует множество возможных комбинаций.Мы рассмотрим некоторые общие и полезные записи и покажем вам, как их добавлять.
Прежде чем мы это сделаем, давайте начнем с обзора доступных директив: User-agent, Disallow, Allow, Crawl-delay и Sitemap. Большинство ваших записей robots.txt будут использовать «User-agent» и «Disallow».
User-agent
Функция User-agent нацелена на конкретный поисковый робот, которому мы хотим дать инструкции. Обычно это Googlebot, Bingbot, Slurp (Yahoo), DuckDuckBot, Baiduspider (китайская поисковая система) и YandexBot (российская поисковая система).Вы можете включить длинный список пользовательских агентов.
Disallow
Использование Disallow, вероятно, является одним из наиболее распространенных атрибутов. Это основная команда, которую мы будем использовать, чтобы запретить пользовательскому агенту сканировать URL.
Разрешить
Разрешить — еще один распространенный элемент файла robots.txt. И он используется только роботом Googlebot. Он сообщает роботу Googlebot, что доступ к страницам или подпапкам разрешен, даже если родительская страница или подпапка запрещены.
Задержка сканирования
Функция задержки сканирования определяет, сколько секунд сканер должен ждать между страницами.Многие сканеры игнорируют эту директиву, в первую очередь робот Googlebot, но скорость сканирования для робота Googlebot можно установить в консоли поиска Google.
Карта сайта
Возможно, одним из наиболее важных аспектов файла robots.txt является «Карта сайта». Он используется для указания местоположения XML-карты сайта для вашего сайта, что значительно улучшает индексирование контента в поисковых системах.
Если вы хотите, чтобы вас нашли на таких сайтах, как Google, Bing или Yahoo, практически необходимо иметь карту сайта.
Итак, робот.txt начинается с:
User-agent: *
Звездочка (*) — это подстановочный знак, означающий «все». Все, что будет дальше, будет применяться ко всем сканерам.
Пользовательский агент: * Disallow: / private /
Теперь мы добавили «Disallow» для каталога / private /. Таким образом, robots.txt сообщает каждому сканеру, чтобы он не сканировал / private / в домене.
Если бы мы хотели запретить только определенному сканеру, мы бы использовали имя краулера в строке User-agent:
User-agent: Bingbot Disallow: / private /
Это указывает Bing не сканировать ничего в каталоге / private /.
Косая черта в строке Disallow сообщит Bing (или любому пользовательскому агенту, который вы указали), что ему не разрешено сканировать что-либо в домене:
User-agent: Bingbot Disallow: /
Вы также можете запретить поисковым роботам сканировать определенный файл.
Пользовательский агент: * Disallow: /private.html
Другой подстановочный знак — $, обозначающий конец URL-адреса. Таким образом, в следующем примере любой URL-адрес, заканчивающийся на .pdf, будет заблокирован.
Пользовательский агент: * Disallow: /*.pdf$
Это помешает всем сканерам сканировать все PDF-файлы.Например, https://ggexample.com/whitepapers/july.pdf
Несколько директив в файле robots.txt
До сих пор мы создавали простые двухстрочные файлы robots.txt, но у вас может быть столько записей в файле, как хотите.
Например, если мы хотим разрешить Google сканировать все, но не разрешать Bing, Baidu или Яндекс, мы должны использовать:
User-agent: Googlebot Запретить: Пользовательский агент: Bingbot Запретить: / Пользовательский агент: Baiduspider Запретить: / Пользователь-агент: ЯндексБот Disallow: /
Обратите внимание, что мы использовали новую строку User-agent для каждой директивы.В строке User-agent может быть указан только один искатель.
Но — один пользовательский агент может иметь несколько директив Disallow:
Пользовательский агент: Baiduspider Запретить: / самолеты / Запретить: / поезда / Disallow: / cars /
Каждый URL-адрес Disallow должен находиться в отдельной строке.
Вы можете проверить свой файл robots.txt в Инструментах Google для веб-мастеров.
Использование robots.txt не является гарантией
Добавление директивы Disallow в robots.txt не гарантирует, что файл или URL не будут проиндексированы поисковой системой.Хотя «хорошие» сканеры поисковых систем будут уважать ваши настройки robots.txt, некоторые — нет.
Тот факт, что они не сканируют что-либо в вашем домене, не означает, что он не будет проиндексирован.
Это потому, что поисковые роботы переходят по ссылкам. Поэтому, если вы запретите /whitepapers/july.pdf, сканеры не будут сканировать его. Но если кто-то еще сделает ссылку на /whitepapers/july.pdf со своего веб-сайта, сканеры смогут найти файл и проиндексировать его.
robots.txt и WordPress
WordPress создает «виртуальных» роботов.txt по умолчанию. Это простая директива, которая блокирует попытки сканеров сканировать вашу панель администратора.
Пользовательский агент: * Запретить: / wp-admin / Разрешить: /wp-admin/admin-ajax.php
Файл /wp-admin/admin-ajax.php разрешен, потому что некоторые темы WordPress используют AJAX для добавления содержимого на страницы или сообщения.
Если вы хотите настроить файл robots.txt WordPress, создайте файл robots.txt, как описано выше, и загрузите его в корень своего веб-сайта.
Обратите внимание, что загруженный вами файл robots.txt остановит создание виртуального файла robots.txt WordPress по умолчанию. На сайте может быть только один файл robots.txt. Поэтому, если вам нужна директива AJAX Allow для вашей темы, вы должны добавить строки выше в файл robots.txt.
Некоторые плагины WordPress для SEO создают за вас файл robots.txt.
Генераторы файлов robots.txt
Я собираюсь перечислить здесь некоторые генераторы файлов robots.txt, но на самом деле большинство из них просто запрещает. Теперь, когда вы знаете, как это сделать самостоятельно, их полезность сомнительна.Но если вы копаетесь, играя с генераторами кода — а кто нет? — Ну вот.
SmallSEOTools
KeySearch
Visio Spark (У этого также есть валидатор внизу страницы.)
Robots.txt полезен
Хотя не все сканеры поисковых систем уважают файл robots.txt, он по-прежнему невероятно полезен для SEO и поддержка сайта. С помощью этого простого файла можно многое сделать, от игнорирования определенных каталогов и страниц до настроек кеша браузера.
Полное руководство по SEO (включая примеры)
Сегодня вы узнаете, как создать один из самых важных файлов для SEO веб-сайта:(Роботы.txt файл).
В частности, я покажу вам, как использовать протоколы исключения роботов, чтобы блокировать ботов с определенных страниц, увеличить частоту сканирования, оптимизировать бюджет сканирования и, в конечном итоге, получить более высокий рейтинг нужной страницы в поисковой выдаче.
Я покрываю:
Плюс, многое другое. Давайте приступим.
Что такое файл Robots.txt? И зачем он вам нужен
Проще говоря, файл robots.txt — это инструкция для веб-роботов.
Он сообщает ботам всех типов, какие разделы сайта они должны (и не должны) сканировать.
Тем не менее, robots.txt используется в основном как «кодекс поведения» для контроля активности роботов поисковых систем (также известных как веб-сканеры).
Все основные поисковые системы (включая Google, Bing и Yahoo) регулярно проверяют файл robots.txt на предмет инструкций по сканированию веб-сайта. Эти инструкции известны как директивы .
Если нет директив или файла robots.txt, поисковые системы будут сканировать весь веб-сайт, частные страницы и все остальное.
Хотя большинство поисковых систем послушны, важно отметить, что соблюдение директив robots.txt необязательно. При желании поисковые системы могут игнорировать ваш файл robots.txt.
К счастью, Google не входит в число таких поисковых систем. Google стремится подчиняться инструкциям в файле robots.txt.
Почему важен файл robots.txt?
Наличие файла robots.txt не критично для многих веб-сайтов, особенно для крошечных.
Это потому, что Google обычно может найти и проиндексировать все важные страницы сайта.
И они автоматически НЕ индексируют дублированный контент или несущественные страницы.
Но все же нет веских причин не иметь файл robots.txt, поэтому я рекомендую вам его иметь.
Файл robots.txt дает вам больший контроль над тем, что поисковые системы могут сканировать на вашем веб-сайте, а какие нет, и это полезно по нескольким причинам:
Позволяет блокировать закрытые страницы от поисковых систем
Иногда на вашем сайте есть страницы, которые вы не хотите индексировать.
Например, вы можете разрабатывать новый веб-сайт в промежуточной среде, которая должна быть скрыта от пользователей до запуска.
Или у вас могут быть страницы входа на веб-сайт, которые вы не хотите показывать в поисковой выдаче.
Если бы это было так, вы могли бы использовать robots.txt, чтобы заблокировать эти страницы от сканеров поисковых систем.
Управляет бюджетом сканирования поисковых систем
Если вам сложно проиндексировать все свои страницы в поисковых системах, возможно, у вас проблемы с бюджетом сканирования.
Проще говоря, поисковые системы используют время, отведенное для сканирования вашего содержания на мертвых страницах вашего веб-сайта.
Блокируя URL с низкой полезностью с помощью robots.txt, роботы поисковых систем могут тратить большую часть своего краулингового бюджета на наиболее важные страницы.
Предотвращает индексацию ресурсов
Лучше всего использовать метадирективу «no-index», чтобы отдельные страницы не индексировались.
Проблема в том, что метадирективы плохо работают для мультимедийных ресурсов, таких как PDF-файлы и документы Word.
Вот где пригодится robots.txt.
Вы можете добавить простую строку текста в файл robots.txt, и поисковым системам будет заблокирован доступ к этим мультимедийным файлам.
(я покажу вам, как именно это сделать позже в этом посте)
Как (именно) работает Robots.txt?
Как я уже говорил, файл robots.txt действует как инструкция для роботов поисковых систем. Он сообщает поисковым роботам, где (а где нет) им следует сканировать.
Вот почему поисковый робот будет искать файл robots.txt, как только он попадает на сайт.
Если он найдет robots.txt, сканер сначала прочитает его, прежде чем продолжить сканирование сайта.
Если поисковый робот не находит robots.txt или файл , а не содержит директивы, запрещающие активность поисковых роботов, он продолжит сканирование всего сайта в обычном режиме.
Для того, чтобы поисковые роботы могли найти и прочитать файл robots.txt, файл robots.txt отформатирован особым образом.
Во-первых, это текстовый файл без кода разметки HTML (отсюда расширение .txt).
Во-вторых, он помещается в корневую папку веб-сайта, например, https://seosherpa.com/robots.txt.
В-третьих, он использует стандартный синтаксис, общий для всех файлов robots.txt, например:
Sitemap: [URL-адрес файла Sitemap]
User-agent: [идентификатор бота]
[директива 1]
[директива 2]
[директива ...]
User-agent: [другой идентификатор бота]
[директива 1]
[директива 2]
[директива...]
Этот синтаксис на первый взгляд может показаться устрашающим, но на самом деле он довольно прост.
Вкратце, вы определяете бота (агента пользователя), к которому применяются инструкции, а затем указываете правила (директивы), которым должен следовать бот.
Давайте рассмотрим эти два компонента более подробно.
Пользовательские агенты
Пользовательский агент — это имя, используемое для определения определенных поисковых роботов и других программ, активных в Интернете.
Существуют буквально сотни пользовательских агентов, включая агентов для типов устройств и браузеров.
Большинство из них не имеет значения в контексте файла robots.txt и SEO. С другой стороны, это вам следует знать:
- Google: Googlebot
- Google Images: Googlebot-Image
- Google Video: Googlebot-Video
- Google News: Googlebot-News
- Bing: Bingbot
- Bing Images & Видео: MSNBot-Media
- Yahoo: Slurp
- Яндекс: YandexBot
- Baidu : Baiduspider
- DuckDuckGo: DuckDuckBot
Установив агент пользователя, вы можете установить разные правила для разных поисковых систем.
Например, если вы хотите, чтобы определенная страница отображалась в результатах поиска Google, но не в результатах поиска Baidu, вы можете включить два набора команд в свой файл robots.txt: один набор, которому предшествует «User-agent: Bingbot», и один набор. предшествует «User-agent: Baiduspider».
Вы также можете использовать подстановочный знак звездочки (*), если хотите, чтобы ваши директивы применялись ко всем пользовательским агентам.
Например, предположим, вы хотите заблокировать сканирование вашего сайта всеми роботами поисковых систем, кроме DuckDuckGo.Вот как бы вы это сделали:
Агент пользователя: *
Запретить: /
Пользовательский агент: DuckDuckBot
Разрешить: /
Sidenote: Если в файле robots.txt есть противоречивые команды, бот будет следовать более детальной команде.
Вот почему в приведенном выше примере DuckDuckBot знает, что нужно сканировать веб-сайт, хотя в предыдущей директиве (применимой ко всем ботам) говорилось, что сканирование не выполняется. Короче говоря, бот будет следовать инструкции, которая наиболее точно применима к ним.
Директивы
Директивы — это кодекс поведения, которому должен следовать пользовательский агент. Другими словами, директивы определяют, как поисковый бот должен сканировать ваш сайт.
Вот директивы, которые GoogleBot поддерживает в настоящее время, а также их использование в файле robots.txt:
Запретить
Используйте эту директиву, чтобы запретить поисковым роботам сканировать определенные файлы и страницы по определенному пути URL.
Например, если вы хотите заблокировать доступ робота GoogleBot к вашей вики и всем ее страницам, ваш файл robots.txt должен содержать эту директиву:
Пользовательский агент: GoogleBot
Запрещение: / wiki
Вы можете использовать директиву disallow, чтобы заблокировать сканирование определенного URL, всех файлов и страниц в определенном каталоге и даже всего вашего веб-сайта.
Разрешить
Директива allow полезна, если вы хотите разрешить поисковым системам сканировать определенный подкаталог или страницу — в запрещенном иным образом разделе вашего сайта.
Допустим, вы хотели запретить всем поисковым системам сканировать сообщения в вашем блоге, кроме одной; тогда вы должны использовать директиву allow следующим образом:
Агент пользователя: *
Запретить: / blog
Разрешить: / blog / allowable-post
Поскольку поисковые боты всегда следуют самым детальным инструкциям, данным в файле robots.txt, они знают, что нужно сканировать / blog / allowable-post, , но они не будут сканировать другие сообщения или файлы в этом каталоге, например;
- / blog / post-one /
- / blog / post-two /
- /blog/file-name.pdf
И Google, и Bing поддерживают эту директиву. Но другие поисковые системы этого не делают.
Карта сайта
Директива карты сайта используется для указания местоположения ваших XML-карт сайта для поисковых систем.
Если вы плохо знакомы с картами сайта, они используются для перечисления страниц, которые нужно сканировать и индексировать в поисковых системах.
Включая директиву карты сайта в robots.txt, вы помогаете поисковым системам находить вашу карту сайта и, в свою очередь, сканировать и индексировать наиболее важные страницы вашего сайта.
С учетом сказанного, если вы уже отправили свою карту сайта в формате XML через Search Console, добавление карты сайта в robots.txt для Google в некоторой степени излишне. Тем не менее, рекомендуется использовать директиву карты сайта, поскольку она сообщает поисковым системам, таким как Ask, Bing и Yahoo, где можно найти ваши карты сайта.
Вот пример файла robots.txt с помощью директивы карты сайта:
Карта сайта: https://www.website.com/sitemap.xml
Пользовательский агент: *
Запретить: / wiki /
Разрешить: / wike / article-title /
Обратите внимание на размещение директивы карты сайта в файле robots.txt. Лучше всего разместить его в самом верху файла robots.txt. Его также можно разместить внизу.
Если у вас несколько файлов Sitemap, вы должны включить их все в файл robots.txt. Вот как мог бы выглядеть файл robots.txt, если бы у нас были отдельные карты сайта XML для страниц и сообщений:
Карта сайта: http: // website.ru / post-sitemap.xml
Карта сайта: http://website.com/page-sitemap.xml
Пользовательский агент: *
Запретить: / wiki /
Разрешить: / wike / article-title /
В любом случае вам нужно упомянуть каждую XML-карту сайта только один раз, поскольку все поддерживаемые пользовательские агенты будут следовать директиве.
Обратите внимание, что, в отличие от других директив robots.txt, в которых перечислены пути, директива карты сайта должна указывать абсолютный URL-адрес вашей карты сайта XML, включая протокол, имя домена и расширение домена верхнего уровня.
Комментарии
Комментарий «директива» полезен для людей, но не используется поисковыми роботами.
Вы можете добавить комментарии, чтобы напомнить вам, почему существуют определенные директивы, или запретить тем, у кого есть доступ к вашему robots.txt, удалить важные директивы. Короче говоря, комментарии используются для добавления примечаний к вашему файлу robots.txt.
Чтобы добавить комментарий, введите «. # "
, за которым следует текст комментария.
# Не разрешать доступ к каталогу / wp-admin / для всех роботов.
Пользовательский агент: *
Запретить: / wp-admin /
Вы можете добавить комментарий в начале строки (как показано выше) или после директивы в той же строке (как показано ниже):
User-agent: * # Применимо ко всем роботам
Disallow: / wp-admin / # Не разрешать доступ к каталогу / wp-admin /.
Куда бы вы ни решили написать свой комментарий, все, что находится после хеша, будет проигнорировано.
Вы так далеко идете?
Отлично! Мы рассмотрели основные директивы, которые вам понадобятся для вашего файла robots.txt — это также единственные директивы, поддерживаемые Google.
А как насчет других поисковых систем? В случае Bing, Yahoo и Yandex вы можете использовать еще одну директиву:
Задержка сканирования
Директива Crawl-delay — это неофициальная директива, используемая для предотвращения перегрузки серверов из-за слишком большого количества запросов на сканирование.
Другими словами, вы используете его для ограничения частоты, с которой поисковая система может сканировать ваш сайт.
Имейте в виду, что если поисковые системы могут перегрузить ваш сервер, часто сканируя ваш веб-сайт, добавление директивы Crawl-delay в ваш файл robots.txt только временно решит проблему.
Возможно, ваш веб-сайт работает на дрянном хостинге или неправильно настроена хостинговая среда, и это то, что вам следует как можно скорее исправить.
Директива задержки сканирования определяет время в секундах, в течение которого поисковый бот может сканировать ваш сайт.
Например, если вы установите задержку сканирования на 5, поисковые роботы будут разбивать день на пятисекундные окна, сканируя только одну страницу (или ни одной) в каждом окне, максимум около 17 280 URL в течение дня.
При этом будьте осторожны при установке этой директивы, особенно если у вас большой веб-сайт. Сканирование всего 17 280 URL-адресов в день не очень полезно, если на вашем сайте миллионы страниц.
Способ обработки директивы задержки сканирования каждой поисковой системой отличается.Давайте разберем это ниже:
Задержка сканирования и Bing, Yahoo и ЯндексBing, Yahoo и Яндекс поддерживают директиву задержки сканирования в robots.txt.
Это означает, что вы можете установить директиву задержки сканирования для пользовательских агентов BingBot, Slurp и YandexBot, и поисковая система будет соответственно ограничивать сканирование.
Обратите внимание, что каждая поисковая система интерпретирует задержку сканирования несколько иначе, чем , поэтому обязательно проверьте их документацию:
При этом формат директивы задержки сканирования для каждого из этих механизмов одинаков.Вы должны разместить его сразу после директивы запретить ИЛИ разрешить. Вот пример:
Пользовательский агент: BingBot
Разрешить: / виджеты /
Задержка сканирования: 5
Задержка сканирования и Google Сканер Google не поддерживает директиву задержки сканирования, поэтому нет смысла устанавливать задержку сканирования для GoogleBot в файле robots.txt.
Однако Google поддерживает определение скорости сканирования в Google Search Console. Вот как это сделать:
- Перейти на страницу настроек Google Search Console.
- Выберите свойство, для которого нужно определить скорость сканирования
- Нажмите «Ограничить максимальную скорость сканирования Google».
- Установите ползунок на желаемую скорость сканирования. По умолчанию для скорости сканирования установлено значение «Разрешить Google оптимизировать мой сайт (рекомендуется)».
Как и Google, Baidu не поддерживает директиву задержки сканирования. Однако можно зарегистрировать учетную запись в Инструментах для веб-мастеров Baidu, в которой вы можете контролировать частоту сканирования, как в Google Search Console.
В нижней строке? Robots.txt сообщает паукам поисковых систем не сканировать определенные страницы вашего веб-сайта.
Есть чертовски много инструкций для «роботов». В чем разница, или они одинаковые?
Позвольте мне предложить краткое объяснение:
Во-первых, robots.txt — это текстовый файл, а мета и x-robots — это теги в коде веб-страницы.
Во-вторых, robots.txt дает ботам предложений о том, как сканировать страницы веб-сайта.С другой стороны, метадирективы роботов содержат очень точные инструкции по сканированию и индексации содержимого страницы.
Помимо того, что они есть, все три выполняют разные функции.
Robots.txt определяет поведение сканирования сайта или всего каталога, тогда как мета и x-роботы могут определять поведение индексации на уровне отдельной страницы (или элемента страницы).
Всего:
Если вы хотите, чтобы страница не индексировалась, вам следует использовать метатег robots «no-index».Запрещение страницы в robots.txt не гарантирует, что она не будет отображаться в поисковых системах (в конце концов, директивы robots.txt — это предложения). Кроме того, робот поисковой системы может найти этот URL и проиндексировать его, если на него ведет ссылка с другого веб-сайта.
Напротив, если вы хотите остановить индексирование медиафайла, используйте robots.txt. Вы не можете добавлять метатеги роботов к файлам, таким как jpeg или PDF.
Как найти свой Robots.txt
Если у вас уже есть файл robots.txt на своем веб-сайте, вы сможете получить к нему доступ по адресу yourdomain.com/robots.txt.
Перейдите по URL-адресу в своем браузере.
Если вы видите текстовую страницу, подобную показанной выше, значит, у вас есть файл robots.txt.
Как создать файл Robots.txt
Если у вас еще нет файла robots.txt, создать его очень просто.
Сначала откройте Блокнот, Microsoft Word или любой текстовый редактор и сохраните файл как robots.
Обязательно используйте строчные буквы и выберите.txt в качестве расширения типа файла:
Во-вторых, добавьте свои директивы. Например, если вы хотите запретить всем поисковым роботам сканировать ваш каталог / login /, введите следующее:
Продолжайте добавлять директивы, пока не будете удовлетворены файлом robots.txt.
Кроме того, вы можете создать свой robots.txt с помощью инструмента, подобного этому от Ryte.
Одним из преимуществ использования инструмента является то, что он сводит к минимуму человеческую ошибку.
Всего одна маленькая ошибка в вашем файле robots.txt может привести к катастрофе SEO.
Тем не менее, недостатком использования генератора robots.txt является то, что возможность настройки минимальна.
Вот почему я рекомендую вам научиться писать файл robot.txt самостоятельно. Затем вы можете создать robots.txt в точном соответствии со своими требованиями.
Куда поместить файл Robots.txt
Добавьте файл robots.txt в каталог верхнего уровня субдомена, к которому он применяется.
Например, чтобы управлять сканированием на yourdomain.com , файл robots.txt должен быть доступен по URL-адресу yourdomain.com/robots.txt .
С другой стороны, если вы хотите контролировать сканирование на субдомене, например shop.yourdomain.com , файл robots.txt должен быть доступен по URL-адресу shop.yourdomain.com/robots.txt .
Золотые правила:
- Дайте каждому субдомену на вашем веб-сайте отдельный файл robots.txt.
- Назовите файлы robots.txt все в нижнем регистре.
- Поместите файл в корневой каталог поддомена, на который он ссылается.
Если файл robots.txt не может быть найден в корневом каталоге, поисковые системы сочтут, что директивы отсутствуют, и полностью просканируют ваш сайт.
Рекомендации по использованию файла Robots.txt
Теперь давайте рассмотрим правила для файлов robots.txt. Используйте эти передовые методы, чтобы избежать распространенных ошибок в файле robots.txt:
Используйте новую строку для каждой директивы
Каждая директива в файле robots.txt должен располагаться на новой строке.
В противном случае поисковые системы запутаются, что сканировать (и индексировать).
Это, например, неправильно настроено :
Агент пользователя: * Disallow: / folder / Disallow: / another-folder /
Это, с другой стороны, правильно настроенный файл robots.txt :
Агент пользователя: *
Запретить: / папка /
Запретить: / другая-папка /
Специфика «почти» всегда побеждает
Когда дело доходит до Google и Bing, преобладает , более детализированная директива.
Например, эта директива Allow имеет преимущество перед директивой Disallow, потому что ее длина символа больше.
Агент пользователя: *
Disallow: / about /
Разрешить: / about / company /
Google и Bing умеют сканировать / about / company /, но не другие страницы в каталоге / about /.
Однако в случае с другими поисковыми системами все наоборот.
По умолчанию для всех основных поисковых систем, кроме Google и Bing, директива первого сопоставления всегда имеет приоритет .
В приведенном выше примере поисковые системы будут следовать директиве Disallow и игнорировать директиву Allow, что означает, что страница / about / company не будет сканироваться.
Имейте это в виду, когда вы создаете правила для всех поисковых систем.
Только одна группа директив на пользовательский агент
Если ваш robots.txt содержит несколько групп директив для каждого пользовательского агента, boh-oh-boy, это может запутать?
Не обязательно для роботов, потому что они объединят все правила из различных объявлений в одну группу и будут следовать им всем, но для вас.
Чтобы избежать возможной ошибки, связанной с человеческим фактором, укажите пользовательский агент один раз, а затем перечислите все директивы, которые применяются к этому пользовательскому агенту, ниже.
Сохраняя аккуратность и простоту, вы с меньшей вероятностью сделаете грубую ошибку.
Используйте подстановочные знаки (*) для упрощения инструкций
Вы обратили внимание на подстановочные знаки (*) в приведенном выше примере?
Верно; вы можете использовать подстановочные знаки (*) для применения правил ко всем пользовательским агентам И для соответствия шаблонам URL при объявлении директив.
Например, если вы хотите запретить поисковым роботам доступ к URL-адресам параметризованных категорий продуктов на вашем веб-сайте, вы можете перечислить каждую категорию следующим образом:
Агент пользователя: *
Disallow: / продукты / часы?
Disallow: / товары / сумки?
Disallow: / товары / обувь?
Или вы можете использовать подстановочный знак, который применяет правило ко всем категориям. Вот как это будет выглядеть:
Агент пользователя: *
Disallow: / products / *?
В этом примере поисковым системам запрещается сканировать все URL-адреса в подпапке / product /, содержащие вопросительный знак.Другими словами, любые URL-адреса категорий продуктов, которые параметризованы.
Google, Bing, Yahoo поддерживают использование подстановочных знаков в директивах robots.txt и Ask.
Используйте «$», чтобы указать конец URL-адреса
Чтобы указать конец URL-адреса, используйте знак доллара ( $
) после пути robots.txt.
Допустим, вы хотите, чтобы поисковые роботы не получали доступ ко всем файлам .doc на вашем веб-сайте; тогда вы должны использовать эту директиву:
Агент пользователя: *
Запретить: / *.док $
Это остановит поисковые системы от доступа к любым URL, заканчивающимся на .doc.
Это означает, что они не будут сканировать /media/file.doc, но они будут сканировать /media/file.doc?id=72491, потому что этот URL не заканчивается на «.doc».
Каждый субдомен получает собственный файл robots.txt
Директивы Robots.txt применяются только к (под) домену, в котором размещен файл robots.txt.
Это означает, что у вашего сайта несколько поддоменов, например:
- домен.com
- Tickets.domain.com
- events.domain.com
Для каждого поддомена потребуется собственный файл robots.txt.
Файл robots.txt всегда следует добавлять в корневой каталог каждого поддомена. Вот как будут выглядеть пути на примере выше:
- domain.com/robots.txt
- Tickets.domain.com/robots.txt
- events.domain.com/robots.txt
Не используйте noindex в своем robots.txt
Проще говоря, Google не поддерживает директиву no-index в robots.текст.
В то время как Google следовал ему в прошлом, с июля 2019 года Google полностью прекратил его поддержку.
И если вы думаете об использовании директивы no-index robots.txt для запрета индексации контента в других поисковых системах, подумайте еще раз:
Неофициальная директива no-index никогда не работала в Bing.
Безусловно, лучший способ не индексировать контент в поисковых системах — это применить метатег без индексации роботов к странице, которую вы хотите исключить.
Сохрани своих роботов.txt меньше 512 КБ
В настоящее время Google имеет ограничение на размер файла robots.txt в 500 кибибайт (512 килобайт).
Это означает, что любое содержимое после 512 КБ может игнорироваться.
Тем не менее, учитывая, что один символ занимает всего один байт, ваш robots.txt должен быть ОГРОМНЫМ, чтобы достичь этого предела размера файла (512 000 символов, если быть точным). Сохраняйте компактность файла robots.txt, уделяя меньше внимания индивидуально исключенным страницам и больше — более широким шаблонам, которые могут контролироваться подстановочными знаками.
Неизвестно, имеют ли другие поисковые системы максимально допустимый размер файла robots.txt.
Примеры Robots.txt
Ниже приведены несколько примеров файлов robots.txt.
Они включают комбинации директив, которые наше SEO-агентство чаще всего использует в файлах robots.txt для клиентов. Однако имейте в виду; они предназначены только для вдохновения. Вам всегда нужно будет настраивать файл robots.txt в соответствии со своими требованиями.
Разрешить всем роботам доступ ко всему
Это роботы.txt не содержит правил запрета для всех поисковых систем:
Агент пользователя: *
Disallow:
Другими словами, он позволяет поисковым роботам сканировать все. Он служит той же цели, что и пустой файл robots.txt или вообще не содержит robots.txt.
Запретить всем роботам доступ ко всему
В примере файла robots.txt все поисковые системы запрещают доступ ни к чему после косой черты. Другими словами, весь домен:
Агент пользователя: *
Disallow: /
Короче это robots.txt блокирует всех роботов поисковых систем и может помешать отображению вашего сайта на страницах результатов поиска.
Запретить всем роботам сканировать один файл
В этом примере мы запрещаем всем поисковым роботам сканировать определенный файл.
Агент пользователя: *
Запретить: /directory/this-is-a-file.pdf
Запретить всем роботам сканировать файлы одного типа (doc, pdf, jpg)
Поскольку индексирование отсутствует, такие файлы, как «doc» или «pdf», не могут быть созданы с использованием тега «no-index» мета-робота; вы можете использовать следующую директиву, чтобы запретить индексирование определенного типа файла.
Агент пользователя: *
Запретить: /*.doc$
Запретить: /*.pdf$
Disallow: /*.jpg$
Это будет работать для деиндексации всех файлов этого типа, если ни один отдельный файл не связан из других источников в Интернете.
Запретить Google сканировать несколько каталогов
Вы можете заблокировать сканирование нескольких каталогов для определенного бота или всех ботов. В этом примере мы запрещаем роботу Googlebot сканировать два подкаталога.
Пользовательский агент: Googlebot
Запретить: / admin /
Disallow: / private /
Обратите внимание, нет ограничений на количество каталогов, которые вы можете использовать bock.Просто перечислите каждый из них под пользовательским агентом, к которому применяется директива.
Запретить Google сканировать все параметризованные URL-адреса
Эта директива особенно полезна для веб-сайтов, использующих фасетную навигацию, где можно создать множество параметризованных URL-адресов.
Пользовательский агент: Googlebot
Disallow: / *?
Эта директива предотвращает расходование вашего краулингового бюджета на динамические URL-адреса и максимизирует сканирование важных страниц. Я использую это регулярно, особенно на сайтах электронной коммерции с функцией поиска.
Запретить всем ботам сканировать один подкаталог, но разрешить сканирование одной страницы внутри
Иногда вам может потребоваться запретить поисковым роботам доступ ко всему разделу вашего сайта, но оставить доступной одну страницу. Если да, используйте следующую комбинацию директив «разрешить» и «запретить»:
Агент пользователя: *
Запретить: / категория /
Разрешить: / категория / виджет /
Указывает поисковым системам не сканировать весь каталог, за исключением одной конкретной страницы или файла.
Robots.txt для WordPress
Это базовая конфигурация, которую я рекомендую для файла robots.txt WordPress. Он блокирует сканирование страниц администратора, тегов и URL-адресов авторов, что может создать ненужный мусор на веб-сайте WordPress.
Пользовательский агент: *
Разрешить: / wp-content / uploads /
Запретить: / wp-content / plugins /
Запретить: / wp-admin /
Запретить: /readme.html
Запретить: / ссылаться /
Запретить: / tag /
Запретить: / author /
Запрещение: / 404-ошибка /
Карта сайта: http://www.example.com/post-sitemap.xml
Карта сайта: http://www.example.com/page-sitemap.xml
Этот файл robots.txt будет хорошо работать для большинства веб-сайтов WordPress, но, конечно, вы должны всегда настраивать его в соответствии со своими требованиями.
Как проверить файл Robots.txt на наличие ошибок
В свое время я видел больше ошибок, влияющих на рейтинг в файлах robots.txt, чем, возможно, любой другой аспект технического SEO. При таком большом количестве потенциально конфликтующих директив проблемы могут возникать и возникают.
Итак, что касается роботов.txt, стоит следить за проблемами.
К счастью, отчет «Покрытие» в Google Search Console дает вам возможность проверять и отслеживать проблемы с файлом robots.txt.
Вы также можете использовать изящный инструмент тестирования Robots.txt от Google, чтобы проверить наличие ошибок в вашем реальном файле роботов или протестировать новый файл robots.txt перед его развертыванием.
В заключение мы рассмотрим наиболее распространенные проблемы, их значение и способы их решения.
Отправленный URL заблокирован роботами.txt
Эта ошибка означает, что по крайней мере один из URL-адресов в отправленных файлах Sitemap заблокирован файлом robots.txt.
Правильно настроенная карта сайта должна включать только те URL, которые вы хотите проиндексировать в поисковых системах . Таким образом, он не должен содержать никаких неиндексированных, канонизированных или перенаправленных страниц.
Если вы следовали этим рекомендациям, то никакие страницы, представленные в вашей карте сайта , не должны блокироваться файлом robots.txt.
Если вы видите сообщение «Отправленный URL-адрес заблокирован роботами.txt »в отчете о покрытии, вам следует выяснить, какие страницы затронуты, а затем включить файл robots.txt, чтобы снять блокировку для этой страницы.
Вы можете использовать тестер robots.txt Google, чтобы узнать, какая директива блокирует контент.
Заблокировано файлом Robots.txt
Эта «ошибка» означает, что вашим файлом robots.txt заблокированы страницы, которых нет в индексе Google.
Если этот контент полезен и должен быть проиндексирован, удалите блокировку сканирования в robots.текст.
Краткое предупреждение:
«Заблокировано файлом robots.txt» не обязательно является ошибкой. На самом деле, это может быть именно тот результат, который вам нужен.
Например, вы могли заблокировать определенные файлы в robots.txt, намереваясь исключить их из индекса Google. С другой стороны, если вы заблокировали сканирование определенных страниц с намерением не индексировать их, подумайте об удалении блокировки сканирования и используйте вместо этого метатег робота.
Это единственный способ гарантировать исключение содержания из индекса Google.
проиндексировано, но заблокировано файлом Robots.txt
Эта ошибка означает, что часть контента, заблокированного файлом robots.txt, все еще индексируется в Google.
Это происходит, когда Googlebot по-прежнему может обнаружить контент, поскольку на него есть ссылки из других источников в Интернете. Короче говоря, робот Googlebot выполняет сканирование этого контента, а затем индексирует его перед посещением файла robots.txt вашего веб-сайта, где он видит запрещенную директиву.
К тому времени уже слишком поздно. И он индексируется:
Позвольте мне просверлить этот дом:
Если вы пытаетесь исключить контент из результатов поиска Google, robots.txt — неправильное решение.
Я рекомендую удалить блокировку сканирования и вместо этого использовать мета-тег robots no-index, чтобы предотвратить индексацию.
Напротив, если вы случайно заблокировали это содержание и хотите сохранить его в индексе Google, удалите блокировку сканирования в robots.txt и оставьте все как есть.
Это может помочь улучшить видимость содержания в поиске Google.
Последние мысли
Robots.txt можно использовать для улучшения сканирования и индексации содержания вашего веб-сайта, что поможет вам стать более заметным в поисковой выдаче.
При эффективном использовании это самый важный текст на вашем веб-сайте. Но при неосторожном использовании это будет ахиллесова пята в коде вашего веб-сайта.
Хорошая новость: вы сможете получить более точные результаты поиска, имея лишь базовое представление о пользовательских агентах и нескольких директивах.
Единственный вопрос: , какие протоколы вы будете использовать в своем файле robots.txt?
Дайте мне знать в комментариях ниже.
Что такое роботы.txt файл?
Файл robots.txt — это простой способ сообщить таким роботам, как Google, Bing и Yahoo, какие данные вы хотите, чтобы они показывали о вашем сайте. Это не лучший способ сообщить определенные вещи, но он может помочь им лучше понять ваш сайт.
Robots.txt Основы
Этот файл создан специально для поисковых систем и других роботов, чтобы сообщить им, как взаимодействовать с вашим сайтом. Это не обязательно, однако рекомендуется иметь хотя бы минимальную версию.Каждая команда должна начинаться с новой строки, а пустая строка указывает на конец раздела. Файл должен находиться в корневой папке вашего сайта, иначе есть большая вероятность, что роботы не увидят его, и это не повлияет. Если все сделано правильно, вы можете перейти на адрес своего веб-сайта, за которым следует /robots.txt, например examplewebsite.com/robots.txt
.В файле вы конкретно указываете роботам три вещи:
- Где находится ваша карта сайта.
- Какие страницы они должны проиндексировать.
- Какие страницы они не должны индексировать.
По умолчанию файл robots.txt WordPress сообщает поисковым системам сканировать ваш сайт, но исключает страницу входа и папку с библиотекой WordPress и основными файлами.
Агент пользователя: *
Запретить: / wp-admin /
Disallow: / wp-includes /
Это хорошее начало, поскольку вы не хотите, чтобы эти файлы отображались в поисковых системах (однако есть способ лучше заблокировать их, подробнее об этом позже).Однако есть ряд других страниц, которые вы хотите добавить, включая папку плагинов, папку тем и cgi-bin.
Агент пользователя: *
Разрешать: /
Disallow: / cgi-bin
Запретить: / wp-admin
Disallow: / wp-includes
Запретить: / wp-content / plugins
Запретить: / wp-content / themes
Приведенный выше код — это наша рекомендуемая передовая практика для начала, хотя вы, вероятно, захотите настроить в зависимости от вашей стратегии. Далее мы рассмотрим, как работает файл и как добавлять дополнительные страницы.
Как использовать файл Robots.txt
Как только вы поймете, как работает файл, вы можете вносить любые изменения, которые считаете нужными. Вкратце, вы можете добавить 4 разные команды:
Пользовательский агент:
Разрешать:
Запретить:
Карта сайта:
Код «User-agent:» определяет, для какого бота предназначен следующий код. По умолчанию пользовательский агент установлен на *, который охватывает всех роботов. Вы можете индивидуально выбрать, для каких ботов предназначен код, используя их пользовательский агент, вот несколько примеров:
Пользовательский агент: Googlebot
Пользовательский агент: Bingbot
Пользовательский агент: msnbot
User-agent: Яндекс
Пользовательский агент: Slurp
В порядке появления роботы, о которых идет речь выше, — это Google, Bing, MSN, Яндекс и Yahoo (обозначенные как «Slurp»).Обычно люди создают файл robots.txt, который общается со всеми роботами, однако, если вы хотите, чтобы они просматривали другую информацию или вы просто хотите быть более уверенными, вы можете вызывать их по имени. Убедитесь, что вы перечислили пользовательский агент, сразу за которым следуют его инструкции, вы не можете перечислить все из них в строке, как в приведенном выше примере.
Код «Разрешить:» определяет, какие страницы поисковым системам разрешено сканировать. Обычно вам не нужен этот код, потому что они будут сканировать каждую страницу вашего сайта по умолчанию, однако, если у вас есть папка, которую вы хотите исключить, за исключением одного файла, вы можете использовать ее следующим образом:
Пользовательский агент: Googlebot
Запретить: / files /
Разрешить: / файлы / альбом.php
Код Disallow: определяет страницы, которые вы хотите исключить, однако поисковые системы могут решить ответить или проигнорировать это. Лучший способ предотвратить индексацию определенных страниц — это добавить метатег nofollow на каждую отдельную страницу. В 999 случаях из 1000 это сработает, однако иногда роботы игнорируют оба тега. В этом сценарии единственное решение — скрыть контент за логином. Помните, что роботы могут делать все, что захотят, поэтому ваша задача — скрывать конфиденциальную информацию.
Кроме того, это ненадежный способ скрыть страницы или файлы, потому что файл robots.txt общедоступен, поэтому любой может прочитать, что находится в файле. Вместо этого вам следует скрыть конфиденциальную информацию за логином, чтобы обеспечить ее безопасность.
Наконец, код «Sitemap:» сообщает ботам, где находится ваша карта сайта. Всегда полезно иметь ее в файле robots.txt, потому что это увеличивает шансы поисковых систем проиндексировать весь ваш сайт. Вы также можете включить файлы Sitemap для видео, изображений и мобильных устройств, чтобы улучшить индексирование этих элементов.
Советы и хитрости
В целом файл довольно прост, однако есть несколько уловок, которые упростят его использование.
Чтобы заблокировать все URL-адреса, содержащие .pdf, вы должны добавить этот код:
Агент пользователя: *
Disallow: /*.pdf$
Чтобы заблокировать все URL-адреса, содержащие вопросительный знак, вы должны использовать следующий код:
Агент пользователя: *
Disallow: / *?
Чтобы заблокировать определенную папку, используйте следующий код:
Агент пользователя: *
Disallow: / 2015 /
Чтобы заблокировать определенную папку, но включить в нее один файл, будет использоваться следующий код:
Агент пользователя: *
Disallow: / 2015 /
Разрешить: / 2015 / important-file.php
Чтобы заблокировать весь ваш сайт:
Агент пользователя: *
Запретить: /
Чтобы заблокировать весь ваш сайт от определенной поисковой системы, просто используйте пользовательский агент этой системы:
Агент пользователя: baiduspider
Запретить: /
Поделитесь этой статьей на:
критических ошибок в вашем файле robots.txt нарушат ваш рейтинг, и вы даже не узнаете об этом
Использование роботов.txt уже давно обсуждается веб-мастерами, поскольку он может оказаться сильным инструментом, если он хорошо написан или с его помощью можно прострелить себе ногу. В отличие от других концепций SEO, которые можно считать более абстрактными и для которых у нас нет четких рекомендаций, файл robots.txt полностью задокументирован Google и другими поисковыми системами.
Вам нужен файл robots.txt
только, если у вас есть определенные части вашего веб-сайта, которые вы не хотите индексировать, и / или вам нужно блокировать или управлять различными сканерами.
* спасибо Ричарду за исправление текста выше. (см. комментарии для получения дополнительной информации) Что важно понимать в случае файла robots, так это то, что он не служит законом для выполнения поисковыми роботами, это скорее указатель с несколькими указателями. Соблюдение этих рекомендаций может привести к более быстрой и лучшей индексации поисковыми системами, а ошибки, скрывающие важный контент от поисковых роботов, в конечном итоге приведут к потере трафика и проблемам с индексацией.
История Robots.txtМы уверены, что большинство из вас уже знакомы с robots.txt, но на тот случай, если вы слышали о нем некоторое время назад и забыли о нем, Стандарты исключения роботов, как они официально известны, — это способ взаимодействия веб-сайтов. с помощью поисковых роботов или других веб-роботов. По сути, это текстовый файл, содержащий короткие инструкции, направляющие поисковые роботы к определенным частям веб-сайта или прочь от них. Обычно роботов обучают искать этот документ, когда они заходят на веб-сайт и подчиняются его директивам.Некоторые роботы не соответствуют этому стандарту, например роботы-сборщики электронной почты, спам-боты или вредоносные программы, у которых не самые лучшие намерения, когда они достигают вашего веб-сайта.
Все началось в начале 1994 года, когда Мартин Костер создал веб-сканер, который вызвал серьезный случай DDOS на его серверах. В ответ на это был создан стандарт, который направляет поисковые роботы и блокирует их доступ к определенным областям. С тех пор файл robots эволюционировал, содержит дополнительную информацию и имеет еще несколько применений, но мы вернемся к этому позже.
Насколько важен файл robots.txt для вашего сайта?Чтобы лучше понять это, подумайте о robots.txt как о путеводителе для поисковых роботов и ботов. Он переносит посетителей, не являющихся людьми, в удивительные области сайта, где находится контент, и показывает им, что важно, а что не должно индексироваться. Все это делается с помощью нескольких строк в формате файла txt. Наличие опытного гида-робота может увеличить скорость индексации веб-сайта, сокращая время, которое роботы просматривают по строкам кода, чтобы найти контент, который пользователи ищут в поисковой выдаче.
За все время в файл роботов была включена дополнительная информация, которая помогает веб-мастерам быстрее сканировать и индексировать свои веб-сайты.
В настоящее время большинство файлов robots.txt содержат адрес sitemap.xml, который увеличивает скорость сканирования ботов. Нам удалось найти файлы роботов, содержащие объявления о найме на работу, оскорбляющие чувства людей и даже инструкции по обучению роботов, когда они начинают стесняться. Имейте в виду, что даже несмотря на то, что файл robots предназначен исключительно для роботов, он по-прежнему общедоступен для всех, кто выполняет / robots.txt в свой домен. Пытаясь скрыть от поисковых систем личную информацию, вы просто показываете URL всем, кто открывает файл robots.
Как проверить файл robots.txtПервое, что нужно сделать после того, как у вас есть файл robots, — это убедиться, что он хорошо написан, и проверить на наличие ошибок. Одна ошибка здесь может и причинит вам большой вред, поэтому после того, как вы заполнили файл robots.txt, будьте особенно внимательны, проверяя в нем ошибки.Большинство поисковых систем предоставляют свои собственные инструменты для проверки файлов robots.txt и даже позволяют вам увидеть, как сканеры видят ваш сайт.
Инструменты Google для веб-мастеров предлагают тестер robots.txt, инструмент, который сканирует и анализирует ваш файл. Как вы можете видеть на изображении ниже, вы можете использовать тестер роботов GWT, чтобы проверить каждую строку и увидеть каждого сканера и его доступ к вашему веб-сайту. Инструмент отображает дату и время, когда робот Googlebot загрузил файл роботов с вашего веб-сайта, обнаруженный HTML-код, а также области и URL-адреса, к которым у него не было доступа.Любые ошибки, обнаруженные тестером, необходимо исправить, поскольку они могут привести к проблемам с индексацией вашего веб-сайта, и ваш сайт не может отображаться в поисковой выдаче.
Инструмент, предоставляемый Bing, отображает данные в том виде, в каком их видит BingBot. При загрузке как Bingbot даже ваши HTTP-заголовки и источники страниц отображаются так, как они выглядят для Bingbot. Это отличный способ узнать, действительно ли ваш контент виден поисковому роботу, а не скрыт ли он по какой-то ошибке в robots.txt файл. Более того, вы можете проверить каждую ссылку, добавив ее вручную, и если тестировщик обнаружит какие-либо проблемы с ней, он отобразит строку в вашем файле robots, которая ее блокирует.
Не торопитесь и внимательно проверяйте каждую строку файла robots. Это первый шаг в создании хорошо написанного файла robots, и с инструментами, имеющимися в вашем распоряжении, вам действительно нужно очень постараться, чтобы сделать здесь какие-либо ошибки. Большинство поисковых систем предоставляют опцию «получить как * бот», поэтому после того, как вы проверили файл robots.txt самостоятельно, обязательно запустите его через предоставленные автоматические тестеры.
Убедитесь, что вы не исключаете важные страницы из индекса GoogleНаличие проверенного файла robot.txt недостаточно, чтобы гарантировать, что у вас есть отличный файл robots. Мы не можем достаточно подчеркнуть это, но наличие одной строчки в ваших роботах, которая блокирует сканирование важной части содержания вашего сайта, может навредить вам. Поэтому, чтобы убедиться, что вы не исключили важные страницы из индекса Google, вы можете использовать те же инструменты, которые вы использовали для проверки роботов.txt файл.
Загрузите веб-сайт как бот и перейдите по нему, чтобы убедиться, что вы не исключили важный контент.
Перед тем, как вставлять страницы, которые должны быть исключены из поля зрения ботов, убедитесь, что они находятся в следующем списке элементов, которые мало или не представляют никакой ценности для поисковых систем:
- Код и страницы сценария
- Частные страницы
- Временные страницы
- Любая страница, которую вы считаете бесполезной для пользователя.
Мы рекомендуем, чтобы у вас был четкий план и видение при создании архитектуры веб-сайта, чтобы вам было проще запретить папки, не представляющие ценности для поисковых роботов.
Как отслеживать несанкционированные изменения в вашем файле robots.txtТеперь все на месте, файл robots.txt заполнен, проверен, и вы убедились, что у вас нет ошибок или важных страниц, исключенных из сканирования Google. Следующий шаг — убедиться, что никто не вносит никаких изменений в документ без вашего ведома. Речь идет не только об изменениях в файле, вам также необходимо знать обо всех ошибках, возникающих при использовании документа robots.txt.
1.Уведомления об обнаружении изменений — бесплатный инструментПервый инструмент, который мы хотим порекомендовать, — это changedetection.com. Этот полезный инструмент отслеживает любые изменения, внесенные на страницу, и автоматически отправляет электронное письмо, когда обнаруживает их. Первое, что вам нужно сделать, это вставить адрес robots.txt и адрес электронной почты, на который вы хотите получать уведомления. На следующем шаге вы можете настроить свои уведомления. Вы можете изменить частоту уведомлений и установить предупреждения только в том случае, если были изменены определенные ключевые слова из файла.
2. Уведомления Инструментов Google для веб-мастеровИнструменты Google для веб-мастеров предоставляют дополнительный инструмент оповещения. Разница в использовании этого инструмента заключается в том, что он отправляет вам уведомления о любой ошибке в вашем коде каждый раз, когда поисковый робот достигает вашего веб-сайта. Ошибки Robots.txt также отслеживаются, и вы будете получать электронное письмо каждый раз, когда возникает проблема. Вот подробное руководство по настройке оповещений Инструментов Google для веб-мастеров.
3.Уведомления об ошибках HTML — бесплатный и платный инструментЧтобы не выстрелить себе в ногу при создании файла robots.txt, должны отображаться только эти коды ошибок html.
Код 200 означает, что страница была найдена и прочитана;
Коды 403 и 404, которые означают, что страница не была найдена, и, следовательно, боты будут думать, что у вас нет файла robots.txt. Это заставит ботов сканировать весь ваш сайт и соответствующим образом проиндексировать его.
Инструмент SiteUptime периодически проверяет URL-адрес файла robots.txt и может мгновенно уведомить вас, если обнаружит нежелательные ошибки. Критическая ошибка, которую вы хотите отслеживать, — это ошибка 503.
Ошибка 503 означает, что на стороне сервера есть ошибка, и если робот обнаружит ее, ваш веб-сайт не будет сканироваться вообще.
Инструменты Google для веб-мастеров также обеспечивают постоянный мониторинг и показывают временную шкалу каждого раза, когда был получен файл роботов.На диаграмме Google отображает ошибки, обнаруженные при чтении файла; мы рекомендуем вам время от времени просматривать его, чтобы проверить, не отображаются ли в нем какие-либо другие ошибки, кроме перечисленных выше. Как мы видим ниже, инструменты Google для веб-мастеров предоставляют диаграмму с подробным описанием частоты получения роботом Googlebot файла robots.txt, а также любых ошибок, с которыми он столкнулся при его загрузке.
Критические, но распространенные ошибки 1. Блокирование файлов CSS или изображений при сканировании GoogleВ октябре прошлого года Google заявил, что запрет на использование CSS, Javascript и даже изображений (мы написали об этом интересную статью) учитывается в общем рейтинге вашего сайта.Алгоритм Google становится все лучше и лучше, и теперь он может читать код CSS и JS вашего сайта и делать выводы о том, насколько полезен контент для пользователя. Блокирование этого контента в файле robots может причинить вам некоторый вред и не позволит вам занять такое высокое место, как вам, вероятно, следовало бы.
2. Неправильное использование подстановочных знаков может деиндексировать ваш сайтПодстановочные знаки, такие как «*» и «$», являются допустимым вариантом для блокировки пакетов URL-адресов, которые, по вашему мнению, не представляют ценности для поисковых систем.Большинство больших роботов поисковых систем наблюдают и подчиняются, используя его в файле robots.txt. Кроме того, это хороший способ заблокировать доступ к некоторым глубоким URL-адресам, не перечисляя их все в файле robots.
Итак, если вы хотите заблокировать, скажем, URL-адреса с расширением PDF, вы можете записать строку в своем файле роботов с помощью User-agent: googlebot
Запрещено: /*.pdf$
Подстановочный знак * представляет все доступные ссылки, оканчивающиеся на .pdf, а знак $ закрывает расширение.Подстановочный знак $ в конце расширения сообщает ботам, что сканировать нельзя только URL-адреса, заканчивающиеся на pdf, в то время как любой другой URL-адрес, содержащий слово «pdf» (например, pdf.txt), должен сканироваться.
Снимок экрана с сайта developers.google.com
* Примечание. Как и любой другой URL-адрес, файл robots.txt чувствителен к регистру, поэтому примите это во внимание при написании файла.
Другие варианты использования Robots.txtС момента первого появления файл robots.txt было обнаружено, что некоторые веб-мастера могут использовать его и в других целях. Давайте рассмотрим другие полезные способы использования этого файла.
1. Нанять крутых гиков Файл robotos.txt на сайтеTripadvisor.com был преобразован в скрытый файл найма. Это интересный способ отфильтровать из группы только «самых увлеченных» и найти именно тех людей, которые подходят для вашей компании. Посмотрим правде в глаза, в настоящее время ожидается, что люди, которые интересуются вашей компанией, будут уделять дополнительное время изучению ее, но люди, которые даже ищут скрытые сообщения в ваших роботах.txt великолепны.
2. Не допускайте попадания на сайт ползунковЕще одно применение файла robots — не дать этим надоедливым сканерам съесть всю полосу пропускания. Командная строка Crawl-delay может быть полезна, если на вашем веб-сайте много страниц. Например, если на вашем веб-сайте около 1000 страниц, поисковый робот может просканировать весь ваш сайт за несколько минут. Размещение в командной строке Crawl-delay: 30 скажет им, что нужно немного расслабиться, использовать меньше ресурсов, и ваш веб-сайт просканируется через пару часов вместо нескольких минут.
Мы не рекомендуем это использование, так как Google не принимает во внимание команду crawl-delay, поскольку в Инструментах Google для веб-мастеров есть встроенная функция настройки скорости сканирования. Использование функции задержки сканирования лучше всего подходит для других ботов, таких как Ask, Yandex и Bing.
3. Запретить конфиденциальную информациюЗапрет на конфиденциальную информацию — это палка о двух концах. Замечательно не разрешать Google доступ к конфиденциальной информации и показывать ее во фрагментах тем людям, которым вы не хотите иметь к ней доступ.Но главным образом потому, что не все роботы подчиняются командам robots.txt, некоторые сканеры все еще могут иметь к нему доступ. Точно так же, если человек с неправильными намерениями выполнит поиск в вашем файле robots.txt, он сможет быстро найти области веб-сайта, содержащие ценную информацию. Мы советуем использовать его с умом и проявлять особую осторожность с размещаемой там информацией и помнить, что не только роботы имеют доступ к файлу robots.txt.
ЗаключениеЭто отличный случай, когда «большая сила дает большую ответственность», способность направлять робота Googlebot с помощью хорошо написанного файла робота является соблазнительной.Как указано ниже, наличие хорошо написанного файла robots дает большие преимущества, лучшую скорость сканирования, отсутствие бесполезного контента для поисковых роботов и даже сообщений о найме на работу. Просто имейте в виду, что одна маленькая ошибка может причинить вам много вреда. Создавая файл robots, чтобы иметь четкое изображение пути, по которому роботы идут на вашем сайте, запретите их использование на определенных частях вашего веб-сайта и не блокируйте важные области контента. Также следует помнить, что файл robots.txt не является законным хранителем, роботы не обязаны подчиняться ему, а некоторые роботы и сканеры даже не пытаются найти файл и просто сканируют весь ваш веб-сайт.
Как запретить поисковым системам сканировать ваш веб-сайт
Чтобы ваш веб-сайт могли найти другие люди, сканеры поисковой системы , также иногда называемые ботами или пауками, будут сканировать ваш веб-сайт в поисках обновленного текста и ссылок для обновления своих поисковых индексов.
Как управлять сканерами поисковых систем с помощью файла robots.txt
Владельцы веб-сайтов могут проинструктировать поисковые системы о том, как им сканировать веб-сайт, с помощью роботов .txt файл.
Когда поисковая система просматривает веб-сайт, она сначала запрашивает файл robots.txt , а затем следует внутренним правилам.
Отредактируйте или создайте файл robots.txt
Файл robots.txt должен находиться в корне вашего сайта. Если ваш домен был example.com , он должен быть найден:
У вас на сайте :
https://example.com/robots.txt
На вашем сервере :
/ home / userna5 / public_html / robots.txt
Вы также можете создать новый файл и называть его robots.txt как обычный текстовый файл, если у вас его еще нет.
Поисковая машина Пользовательские агенты
Наиболее распространенное правило, которое вы использовали бы в файле robots.txt , основано на User-agent сканера поисковой системы.
Сканеры поисковой системыиспользуют пользовательский агент , чтобы идентифицировать себя при сканировании, вот несколько распространенных примеров:
Топ-3 поисковых систем США Пользовательские агенты :
Googlebot Yahoo! Slurp bingbot
Обычная поисковая система Заблокированы пользовательские агенты :
AhrefsBot Байдуспайдер Ezooms MJ12bot ЯндексБот
Доступ сканера поисковой системы через роботов.txt файл
Существует несколько вариантов управления сканированием вашего сайта с помощью файла robots.txt .
Правило User-agent: определяет, к какому User-agent применяется правило, а * — это подстановочный знак, соответствующий любому User-agent.
Disallow: устанавливает файлы или папки, для которых запрещен просмотр .
Установить задержку сканирования для всех поисковых систем :
Если бы на вашем веб-сайте было 1000 страниц, поисковая система потенциально могла бы проиндексировать весь ваш сайт за несколько минут.
Однако это может привести к высокому использованию системных ресурсов, поскольку все эти страницы загружаются за короткий период времени.
A Crawl-delay: из 30 секунд позволит сканерам проиндексировать весь ваш 1000-страничный веб-сайт всего за 8,3 часа
A Crawl-delay: из 500 секунд позволит сканерам проиндексировать весь ваш 1000-страничный веб-сайт за 5,8 дней
Вы можете установить Crawl-delay: для всех поисковых систем одновременно с:
Агент пользователя: * Задержка сканирования: 30
Разрешить всем поисковым системам сканировать веб-сайт :
По умолчанию поисковые системы должны иметь возможность сканировать ваш веб-сайт, но вы также можете указать, что им разрешено с:
Агент пользователя: * Запрещено:
Запретить сканирование веб-сайта всем поисковым системам :
Вы можете запретить любой поисковой системе сканировать ваш веб-сайт с помощью следующих правил:
Агент пользователя: * Запрещено: /
Запретить сканирование веб-сайта одной конкретной поисковой системе :
Вы можете запретить только одной определенной поисковой системе сканировать ваш веб-сайт с помощью следующих правил:
Пользовательский агент: Baiduspider Запрещено: /
Запретить всем поисковым системам использовать определенные папки :
Если бы у нас было несколько каталогов, например / cgi-bin / , / private / и / tmp / , мы не хотели бы, чтобы боты сканировали, мы могли бы использовать это:
Агент пользователя: * Disallow: / cgi-bin / Запрещено: / частный / Disallow: / tmp /
Запретить всем поисковым системам использовать определенные файлы :
Если бы у нас были файлы типа contactus.htm , index.htm и store.htm мы не хотели, чтобы боты сканировали, мы могли бы использовать это:
Агент пользователя: * Disallow: /contactus.htm Disallow: /index.htm Запрещено: /store.htm
Запретить все поисковые системы, кроме одной :
Если бы мы только хотели разрешить Googlebot доступ к нашему каталогу / private / и запретить всем другим ботам, мы могли бы использовать:
Агент пользователя: * Запрещено: / частный / User-agent: Googlebot Запрещено:
Когда Googlebot считывает наши robots.txt , он увидит, что сканирование каталогов не запрещено.
robots.txt — Помогите посетителям веб-сайта HigherEd найти интересное
Пусть боты делают свою работу
Четкий план должен направлять все действия, предпринимаемые для привлечения посетителей на веб-сайт. На практике некоторые из этих действий происходят в открытом виде, в то время как другие действуют скорее в фоновом режиме.
Следующие две публикации посвящены негласным шагам, которые улучшают индексацию веб-сайта и повышают вероятность того, что посетители сайта смогут быстро найти релевантный контент.В этом посте мы объясняем использование так называемого файла robots.txt, чтобы дать поисковым системам указания об индексировании веб-сайта. В следующем посте мы обсудим использование читаемых поисковой системой карт сайта, чтобы помочь посетителям найти релевантный контент.
Даже если поисковые рефералы не являются основным источником трафика на сайте, небольшие вложения в понимание того, как использовать файлы robots.txt, обеспечивают долгосрочную отдачу в виде эффективной индексации сайта и повышения качества обслуживания посетителей. Google Analytics и аналогичные службы веб-аналитики могут определять историческую долю трафика сайта, на которую ссылаются поисковые системы, и определять наиболее релевантные поисковые системы.
Поисковые системы
Для веб-сайтов университетов и колледжей, особенно тех, кто хочет привлечь иностранных студентов, есть четыре поисковые системы или сканеры индексации, которые могут оказаться актуальными: Google, Bing, Baidu и Яндекс.
Помещая директивы в файл robots.txt, Google, Bing и другие поисковые системы получают подробные инструкции о том, что и что не следует индексировать на сайте. Другими словами, поисковые системы могут быть направлены на индексирование релевантного контента и игнорирование «менее релевантного контента».
Давайте проанализируем «менее релевантный контент». Информационные бюллетени и календари 1999 года менее актуальны для большинства посетителей сайта, чем версии этого года. Как и файлы, используемые для работы сайта, доступа к вашей системе управления контентом или некоторым динамически генерируемым страницам сайта.
Почему бы не направлять поисковые системы на хорошие вещи и игнорировать менее актуальные? Контент по-прежнему доступен, как и все ссылки, поэтому посетители по-прежнему могут получить к нему доступ. Контент с меньшей вероятностью загромождает результаты поиска, и поисковые системы не тратят время на индексацию контента, имеющего малую потенциальную ценность для посетителей сайта.
Механизм управления поисковыми системами заключается в помещении набора инструкций в файл robots.txt, который хранится в верхнем или корневом каталоге веб-сайта.
Баланс этого руководства объясняет, как работает robots.txt, разъясняет некоторые распространенные заблуждения о robots.txt и описывает то, что мы находим на веб-сайтах университетов и колледжей.
robots.txt или нет robots.txt
Без файла robots.txt поисковые роботы будут посещать каждую страницу, переходить по каждой ссылке на сайте и использовать базовые алгоритмы индексирования, чтобы определять, какие результаты будут отображаться в результатах поиска.Такой подход вовсе не обязательно плохой. Почему? Потому что краулеры делают две вещи:
- Они рекурсивно переходят по URL-адресам (ссылкам) веб-сайтов и содержимому этих ссылок, доступному в браузере. Если файл robots.txt отсутствует, осуществляется доступ к каждой ссылке.
- Второе, что делают сканеры, — это визуализирует контент, для которого требуется JavaScript или другие файлы отображения, чтобы этот контент также можно было добавить в индекс сайта. Во многих случаях директивы файла robots.txt непреднамеренно блокируют доступ к скриптам или файлам рендеринга таблиц стилей.В результате индексация может быть неполной. Возможно, большее беспокойство вызывает то, что Google использует рендеринг для оценки удобства сайта для мобильных устройств: блокировка файлов скриптов и таблиц стилей влияет на удобство использования для мобильных устройств. А мобильное удобство повышает рейтинг результатов поиска. Если нет файла robots.txt, индексация будет завершена и блокировки ресурсов не будет.
В чем недостаток отсутствия файла robots.txt? Три вещи.
Во-первых, на веб-сайте есть много каталогов или папок, содержащих файлы, которые не имеют отношения к доступу браузера, и нет веских причин для индексации этих файлов.Также есть материалы, которые со временем становятся менее актуальными, но могут оставаться на сайте по нормативным или другим причинам: учебные и учебные календари, расписания занятий и тому подобное. Посетители сайта лучше обслуживаются, если их направляют к текущим материалам, чем к просмотру текущих и старых.
Вторая причина заключается в том, что файл robots.txt может использоваться для указания поисковым системам, где найти соответствующую карту сайта в формате XML или карты сайта.
Наконец, можно использовать файл robots.txt для блокировки поисковых роботов, которым вы не хотите получать доступ к вашему сайту.Однако, поскольку соблюдение директив robots.txt является добровольным, злонамеренные «боты», скорее всего, проигнорируют любые директивы.
При подготовке этого руководства мы рассмотрели основные или межсетевые домены около 200 (n = 206) веб-сайтов университетов и колледжей, принадлежащих канадским высшим учебным заведениям, чтобы понять текущую практику. Мы обсудим наши выводы немного позже, но 20% сайтов (18,9% или 39/206) не используют файл robots.txt. И нет никакого вреда.
Контроль за тем, где сканируются поисковые роботы
Если вы хотите контролировать индексацию поисковой системы, вы можете сделать это через robots.txt файловые директивы. Сканеры опрашивают файл robots.txt, чтобы определить ограничения их активности. Директивы в каждой строке или записи в файле содержат инструкции для поискового робота.
Google, Bing, Baidu и Яндекс распознают четыре элемента поля со следующей структурой:
Поле | значений | Комментарий | Наблюдение | ||
---|---|---|---|---|---|
агент пользователя | : | [значение] | # | необязательный комментарий | user-agent = поисковый робот, обращающийся к сайту |
разрешить | : | [путь] | # | необязательный комментарий | Директиваразрешает доступ |
запретить | : | [путь] | # | необязательный комментарий | директива disallow запрещает доступ |
карта сайта | : | [URL] | # | необязательный комментарий | Указывает поисковому роботу найти XML-файл по указанному URL-адресу.При необходимости это может быть на другом сервере. |
Поля могут быть организованы в группы, отсортированные по пользовательскому агенту для любого количества индивидуальных пользовательских агентов (например, Googlebot, Bingbot, Baiduspider, YandexBot и т. Д.) По мере необходимости.
Не существует ограничений на количество директив или записей, которые может содержать файл robots.txt, но Google игнорирует любое содержимое robots.txt после первых 500 КБ: это примерно равно 9 250 или более записям. Яндекс устанавливает меньший лимит файла — 32 КБ и предполагает, что если размер файла превышает лимит, разрешено все.В ходе нашего опроса мы не обнаружили файла robots.txt размером более 7 КБ.
[значение] это может быть текст для определенного поискового робота, например Робот Googlebot или Bingbot или подстановочный знак «*» для обозначения всех поисковых роботов. Большинство файлов robots.txt для высшего образования разрешают доступ к сайту всем поисковым роботам.
[path] path работает как индикатор относительного положения относительно местоположения файла robots.txt. В результате / указывает на самый верхний или корневой каталог или папку. Каталоги или файлы, расположенные ниже по иерархии, можно указать по их относительному положению относительно самой верхней папки.
Будьте внимательны к написанию, поскольку [путь] может быть чувствительным к регистру, в зависимости от сервера и его конфигурации. Кроме того, если сервер «чувствителен к регистру», а контент предполагает, что это не так, это приведет к неработающим ссылкам (404 ошибки), а директивы robots.txt могут не иметь ожидаемого эффекта.
[URL] полный URL, а не относительное местоположение сообщает сканеру, где найти какие-либо карты сайта. В принципе, карты сайта могут находиться в другом домене; на практике карты сайта в формате XML обычно помещаются в корневой каталог.
Если сложить все вместе, «полный» файл robots.txt может выглядеть так:
# В этом файле перечислены локальные URL-адреса, которые нормальные роботы должны игнорировать
Пользовательский агент: *
Disallow: / registrar / archives # old stuff
Disallow: / art / culture / # old stuff
Disallow: / education / coursework / # old stuff
Disallow: /events/day.php # поисковым системам требуется только одно представление календаря, поэтому скройте остальные
Карта сайта: https: //www.examplecollege.ca / sitemap.xml
Очерчивающие комментарии # должны игнорироваться поисковым роботом, но вставляться для удобства чтения. Сканеры игнорируют пустые строки, но это также улучшает читаемость.
Конфликтующие директивы
файлов robots.txt могут содержать несколько директив. Попытки включить одни каталоги для сканирования при исключении других могут привести к возникновению противоречивых инструкций. Чтобы решить эту проблему, сканеры обрабатывают директивы на основе приоритета. Принцип заключается в том, что наиболее конкретное правило имеет приоритет, а другие директивы игнорируются.Например:
пользовательский агент: *
disallow: / # запретить индексацию сайта
allow: / Physics # разрешить индексацию каталога Physics и всех его подкаталогов и их содержимого.
Сканер обнаруживает каталог http://www.exampleu.ca/physics. Поскольку правило разрешения является более конкретным, чем правило запрета, оно имеет приоритет, и каталог будет проиндексирован.
Расположение файла robots.txt
Для того, чтобы направить краулера по назначению, файл robots.txt должен находиться в самом верхнем или корневом каталоге для определенного хоста, протокола и номера порта. Чтобы объяснить:
Сканеры видят http://example.edu/ и http://cs.example.edu/ как два разных хоста или домена. Размещение файла robots.txt по адресу http://example.edu/robots.txt не повлияет на домен http://cs.example.edu/. Если вы не хотите указывать, как будет сканироваться http://cs.example.edu/, ничего страшного. Если вы действительно хотите управлять деятельностью, вам необходимо разместить отдельный (но, возможно, одинаковый) файл robots.txt по адресу http://cs.example.edu/robots.txt
Поисковые роботырассматривают http://example.ac.uk/, https://example.ac.uk и ftp://example.ac.uk как три разных протокола (каковыми они и являются). Если эти протоколы используют стандартные порты (80, 443 и 21 соответственно), * и * результирующий хост и контент являются одним и тем же, то требуется только один файл robots.txt. Если, однако, используется нестандартный порт, то файл robots.txt, доступ к которому осуществляется таким образом, будет применяться только к этой службе, и, следовательно, для остальных потребуется отдельный применимый файл robots.txt, помещенный в каждый из корневых каталогов.
Проблема поиска файла robots.txt особенно важна для веб-сайтов высшего образования. Типичные веб-сайты университетов или колледжей структурированы как федерации подсайтов: некоторые из них являются отдельными доменами, а иногда — внутри подкаталогов. В первом случае в каждом поддомене необходимы отдельные файлы robots.txt, а во втором случае файл robot.txt в корневом каталоге — единственный способ обеспечить желаемое поведение сканирования.
Проблемы с обработкой файла robots.txt
Сканеры пытаются извлечь файл robots.txt из предполагаемого местоположения или установить, что действительный файл не существует. А сканеры обращают внимание на коды ответа, полученные при попытке, и могут изменять свое поведение. Мы суммировали возможные ответы в таблице.
2XX Успех | 3XX перенаправление | 4XX Не найдено | 5XX Ошибка сервера | |
---|---|---|---|---|
разрешить | ✔︎ | ✔︎ | ✔︎ | Х |
запретить | ✔︎ | Х | Х | ✔︎ |
условно | ✔︎ | Х | Х | X |
комментарий | Конкретная обработка зависит от роботов.txt содержание | Если перенаправление приводит к 2xx, то обработка будет такой, как описано в столбце 2xx, в противном случае обработка будет выполняться, как описано в столбце 4xx | Предполагается, что файл robots.txt отсутствует, поэтому все файлы будут просканированы | Предполагается временная ошибка, при которой сканирование файлов не выполняется |
Что мы находим на практике?
Мы опросили чуть более 200 (n = 206) веб-сайтов канадских университетов и колледжей и исследовали роботов.txt, расположенные в каталоге верхнего уровня домена шлюза.
Тридцать девять (39) сайтов (18,9%) не имели файла robots.txt. Как мы заявили ранее, это просто означает, что эти сайты сканируются полностью — за исключением любых страниц, которые имеют специфичные для страницы метатеги, указывающие, что страница не должна индексироваться или отслеживаться. В следующем сообщении в блоге мы рассмотрим текущие методы работы с картами сайта для высшего образования, чтобы увидеть, есть ли корреляция между отсутствием файла robots.txt и отсутствием или наличием актуальной карты сайта XML.
Остаток 167 сайтов (81,1%) можно разделить на три различных формулировки robots.txt следующим образом:
Формулировка 1 — директивы файла robots.txt структурированы одним из двух основных способов
пользовательский агент: * или пользовательский агент: *
разрешить: / запретить:
Эти два подхода функционально эквивалентны друг другу и вообще не имеют файла robots.txt. Эти конфигурации происходят примерно в 5% случаев.
Формулировка 2 — директивы файла robots.txt имеют две альтернативы:
пользовательский агент: * или пользовательский агент: *
запретить: разрешить: /
запретить: [путь] запретить: [путь]
Эти два подхода функционально эквивалентны друг другу. Ничего не запрещать и разрешать все, а затем указывать конкретное местоположение для запрета, может быть достигнуто простым включением директивы disallow: [path].Эти конфигурации происходят в 32% случаев.
Формулировка 3 — директивы файла robots.txt имеют структуру
Пользовательский агент: *
запретить: [путь2]
запретить: [путь3]
запретить: [путьN]
Эта конфигурация встречается в 63% случаев и, на наш взгляд, наименее подвержена путанице. Около десяти процентов сайтов также включают директиву, указывающую конкретное местоположение, в котором можно найти карту сайта или карты сайта, и все они используют формулу 3 для своих роботов.txt структура.
Заключение
Совершенно нормально не иметь файла robots.txt: такой подход просто приводит к индексации всех каталогов на веб-сайте. С другой стороны, очень просто создать файл robots.txt, который тщательно разделяет релевантный контент для индексации и помещает менее релевантный контент в каталоги, которые будут игнорироваться. Кроме того, файл robots.txt может также указывать местоположение для карты сайта или карты сайта, что может еще больше повысить эффективность индексации и, таким образом, возможность посетителей сайта находить полезные материалы.