Проверка файла robots.txt | REG.RU
Файл robots.txt — это инструкция для поисковых роботов. В ней указывается, какие разделы и страницы сайта могут посещать роботы, а какие должны пропускать. В фокусе этой статьи — проверка robots.txt. Мы рассмотрим советы по созданию файла для начинающих веб-разработчиков, а также разберем, как делать анализ robots.txt с помощью стандартных инструментов Яндекс и Google.
Зачем нужен robots.txt
Поисковые роботы — это программы, которые сканируют содержимое сайтов и заносят их в базы поисковиков Яндекс, Google и других систем. Этот процесс называется индексацией.
robots.txt содержит информацию о том, какие разделы нельзя посещать поисковым роботам. Это нужно для того, чтобы в выдачу не попадало лишнее: служебные и временные файлы, формы авторизации и т. п. В поисковой выдаче должен быть только уникальный контент и элементы, необходимые для корректного отображения страниц (изображения, CSS- и JS-код).
Если на сайте нет robots. txt, роботы заходят на каждую страницу. Это занимает много времени и уменьшает шанс того, что все нужные страницы будут проиндексированы корректно.
Если же файл есть в корневой папке сайта на хостинге, роботы сначала обращаются к прописанным в нём правилам. Они узнают, куда нельзя заходить, а какие страницы/разделы обязательно нужно посетить. И только после этого начинают обход сайта по инструкции.
Веб-разработчикам следует создать файл, если его нет, и наполнить его правильными директивами (командами) для поисковых роботов. Ниже кратко рассмотрим основные директивы для robots.txt.
Основные директивы robots.txt
Структура файла robots.txt выглядит так:
- Директива User-agent. Обозначает, для каких поисковых роботов предназначены правила в документе. Здесь можно указать все поисковые системы (для этого используется символ «*») или конкретных роботов (Yandex, Googlebot и другие).
- Директива Disallow (запрет индексации). Указывает, какие разделы не должны сканировать роботы.
Даже если на сайте нет служебного контента, который необходимо закрыть от индексации, директиву нужно прописывать (не указывая значение). Если не сделать этого, robots.txt может некорректно читаться поисковыми роботами.
- Директива Allow (разрешение). Указывает, какие разделы или файлы должны просканировать поисковые роботы. Здесь не нужно указывать все разделы сайта: все, что не запрещено к обходу, индексируется автоматически. Поэтому следует задавать только исключения из правила Disallow.
- Sitemap (карта сайта). Полная ссылка на файл в формате .xml. Sitemap содержит список всех страниц, доступных для индексации, а также время и частоту их обновления.
Пример простого файла robots.txt (после # указаны пояснительные комментарии к директивам):
User-agent: * # правила ниже предназначены для всех поисковых роботов Disallow: /wp-admin # запрет индексации служебной папки со всеми вложениями Disallow: /*? # запрет индексации результатов поиска на сайте Allow: /wp-admin/admin-ajax.php # разрешение индексации JS-скрипты темы WordPress Allow: /*.jpg # разрешение индексации всех файлов формата .jpg Sitemap: http://site.ru/sitemap.xml # адрес карты сайта, где вместо site.ru — домен сайта
Советы по созданию robots.txt
Для того чтобы файл читался поисковыми программами корректно, он должен быть составлен по определенным правилам. Даже детали (регистр, абзацы, написание) играют важную роль. Рассмотрим несколько основных советов по оформлению текстового документа.
Группируйте директивы
Если требуется задать различные правила для отдельных поисковых роботов, в файле нужно сделать несколько блоков (групп) с правилами и разделить их пустой строкой. Это необходимо, чтобы не возникало путаницы и каждому роботу не нужно было сканировать весь документ в поисках подходящих инструкций. Если правила сгруппированы и разделены пустой строкой, робот находит нужную строку User-agent и следует директивам. Пример:
User-agent: Yandex # правила только для ПС Яндекс Disallow: # раздел, файл или формат файлов Allow: # раздел, файл или формат файлов # пустая строка User-agent: Googlebot # правила только для ПС Google Disallow: # раздел, файл или формат файлов Allow: # раздел, файл или формат файлов Sitemap: # адрес файла
Учитывайте регистр в названии файла
Для некоторых поисковых систем не имеет значение, какими буквами (прописными или строчными) будет обозначено название файла robots. txt. Но для Google, например, это важно. Поэтому желательно писать название файла маленькими буквами, а не Robots.txt или ROBOTS.TXT.
Не указывайте несколько каталогов в одной директиве
Для каждого раздела/файла нужно указывать отдельную директиву Disallow. Это значит, что нельзя писать Disallow: /cgi-bin/ /authors/ /css/ (указаны три папки в одной строке). Для каждой нужно прописывать свою директиву Disallow:
Disallow: /cgi-bin/ Disallow: /authors/ Disallow: /css/
Убирайте лишние директивы
Часть директив robots.txt считается устаревшими и необязательными: Host (зеркало сайта), Crawl-Delay (пауза между обращением поисковых роботов), Clean-param (ограничение дублирующегося контента). Вы можете удалить эти директивы, чтобы не «засорять» файл.
Как проверить robots.txt онлайн
Чтобы убедиться в том, что файл составлен грамотно, можно использовать веб-инструменты Яндекс, Google или онлайн-сервисы (PR-CY, Website Planet и т. п.). В Яндекс и Google есть собственные правила для проверки robots. txt. Поэтому файл необходимо проверять дважды: и в Яндекс, и в Google.
Яндекс.Вебмастер
Если вы впервые пользуетесь сервисом Яндекс.Вебмастер, сначала добавьте свой сайт и подтвердите права на него. После этого вы получите доступ к инструментам для анализа SEO-показателей сайта и продвижения в ПС Яндекс.
Чтобы проверить robots.txt с помощью валидатора Яндекс:
- 1.
Зайдите в личный кабинет Яндекс.Вебмастер.
- 2.
Выберите в левом меню раздел
Инструменты → Анализ robots.txt. - 3.
Содержимое нужного файла подставиться автоматически. Если по какой-то причине этого не произошло, скопируйте код, вставьте его в поле и нажмите Проверить:
- org/HowToStep»>
4.
Ниже будут указаны результаты проверки. Если в директивах есть ошибки, сервис покажет, какую строку нужно поправить, и опишет проблему:
Google Search Console
Чтобы сделать проверку с помощью Google:
- 1.
Перейдите на страницу инструмента проверки.
Если на открывшейся странице отображается неактуальная версия robots.txt, нажмите кнопку Отправить и следуйте инструкциям Google:
- 3.
Через несколько минут вы можете обновить страницу. В поле будут отображаться актуальные директивы. Предупреждения/ошибки (если система найдет их) будут перечислены под кодом.
Проверка robots.txt Google не выявила ошибок
Обратите внимание: правки, которые вы вносите в сервисе проверки, не будут автоматически применяться в robots. txt. Вам нужно внести исправленный код вручную на хостинге или в административной панели CMS и сохранить изменения.
Помогла ли вам статья?
Да
раз уже
помогла
Robots.txt — что это и как его правильно настроить
Что такое robots.txt? Это файл, который располагается в корневой папке почти любого сайта. Он включает определённые команды, которые указывают поисковым роботам, какую информацию они могут просканировать на вашем сайте, а какую нет. Если такого файла на ресурсе не будет, боты отсканируют всё подряд, и в выдаче могут оказаться личные данные ваших клиентов или другая скрытая информация.
Разбираемся, как правильно подойти к настройке файла. А если он у вас уже есть, посмотрим, как проверить корректно ли он работает.
Зачем всем сайтам нужен robots.txt?
Прежде чем сайт окажется в поисковой выдаче, ему нужно пройти индексацию. Это процесс, во время которого боты обходят ресурс, сканируют его, а потом добавляют информацию о нём в свой каталог, откуда она уже попадает в выдачу. После этого люди смогут найти этот сайт в поисковике. Позиции, на которых конкретные страницы будут находиться в выдаче, зависят от множества факторов, но на саму возможность оказаться в ней влияет именно индексация.
Так вот файл robots.txt как раз и отвечает за управление индексацией сайта в поисковике. В нём прописаны указания для роботов: какие данные они могут сканировать и потом предлагать пользователям, а какие нет. С помощью robots.txt сайт в принципе можно закрыть от индексации, если вы не хотите, чтобы ссылки на него были в поиске. Например, это может понадобиться, если прямо сейчас на ресурсе происходят какие-то технические работы. В файл вы можете вносить правки в любое время, когда у вас появится потребность открыть или закрыть что-то.
Наличие robots.txt очень важно, ведь на каждом ресурсе есть информация, которая не должна оказаться в общем доступе. Например, платёжные данные или личная информация клиентов. Подробнее о том, что ещё важно скрыть от роботов, поговорим дальше.
А вот для чего ещё нужен robots.txt:
- Снизить нагрузку на сервер. Ведь вы запрещаете сканировать второстепенную для пользователей информацию, которой может быть довольно много. Следовательно, нагрузка заметно снижается.
- Указать ботам путь к карте сайта. Это служебная страница, где перечислены все страницы и разделы ресурса. Она также помогает роботам быстрее и качественнее проводить сканирование. Если добавить карту в robots.txt, поисковые боты быстрее её обнаружат.
Важно знать, что иногда роботы могут проигнорировать директивы запрета, которые есть в файле. Например, Google в своём руководстве пишет о том, что если на скрытую страницу есть ссылки с других страниц или ресурсов, то роботы всё равно могут её проиндексировать. В этой статье мы рассказывали про другие способы закрыть сайт от индексации, которые могут помочь в таких случаях.
Создаём и настраиваем команды в robots.

Robots.txt — это текстовый файл. А значит для его создания подойдёт любой текстовый редактор. Например, обычный Блокнот или Word. Из названия файла понятно, что он должен быть сохранён в формате txt, и назвать его нужно “robots”.
После того как файл будет готов, его нужно разместить в корневой папке сайта. Её можно найти на хостинге. В результате у вас должна появиться ссылка на файл такого формата: вашсайт.рф/robots.txt.
А теперь давайте посмотрим, что должно находиться внутри этого файла. Начнём с основных директив, которые используются в документе.
User-agent
Это обращение к поисковым ботам. Такая директива всегда должна находиться в начале файла, потому что иначе непонятно, кому предназначены дальнейшие инструкции. Если после директивы стоит звёздочка, это означает обращение ко всем роботам. Если название конкретного бота, то обращаются только к нему. Самые популярные боты — Yandex и Googlebot.
Вот как может выглядеть такая директива:
User-agent: Yandex
Disallow
Запрещающая директива, которая используется, чтобы показать, какие страницы, файлы, папки или целые разделы должны быть скрыты от индексации. При этом действует принцип “всё, что не запрещено — разрешено”. Поэтому к использованию директивы стоит подойти ответственно и точно прописать в ней всё, что должно быть скрыто.
Как именно закрывать элементы сайта от индексации? Так как домен у всех страниц одинаковый, после названия директивы и двоеточия нам нужно указать только оставшуюся часть адреса. При этом каждый URL не нужно прописывать отдельно. Например, если нам нужно закрыть от индексации разные результаты поиска в форматах:
/search/?q=купить+коньки
/search/?q=чайник+серебряный
/search/?q=елочная+игрушка,
мы возьмём только общую их часть “search”. Тогда директива будет выглядеть так:
Disallow: /search/
Но предварительно стоит проверить, нет ли в этом разделе какой-то важной информации, которая обязательно должна оказаться в поиске.
Allow
Это разрешающая директива. Но мы помним про правило “всё, что не запрещено — разрешено”. Тогда для чего же нужна команда allow? Она помогает добавить исключения из правил. Например, вы хотите запретить индексацию всем, кроме Google. Тогда с помощью disallow мы закрываем индексацию для всех, а потом добавляем allow, где обращаемся только к роботам Google.
Пример:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
Sitemap
Эта команда показывает ботам путь, по которому находится карта сайта. Нужна она в первую очередь для того, чтобы ботам было проще ориентироваться на ресурсе. Без этого какие-то страницы могут не попасть в индекс, а сама индексация займёт больше времени. Логично, что всё, что вы закроете в robots.txt нет смысла добавлять и в карту сайта.
Ссылку на карту нужно указывать, чтобы поисковым ботам было проще её найти. Ведь первое, на что они обращают внимание при сканировании сайта, как раз файл robots.txt.
Вот как выглядит строка с директивой:
Sitemap: https://site.ru/sitemap.xml
Clean param
Эта директива используется довольно редко, но при этом она довольно полезная. Её задача — сэкономить ваш краулинговый бюджет, не дав роботу несколько раз сканировать одни и те же страницы.
В URL помимо основного адреса страницы могут отображаться разные параметры. Например, уникальный код пользователя, данные рекламной кампании, с которой он пришёл и т.д. Так вот если вы укажете все эти мелочи в clean param, робот поймёт, что они никак не влияют на основное содержание страницы и будет более эффективно подходить к сканированию ресурса.
Crawl-delay
Сразу скажем, что Google эту директиву игнорирует. Но она тоже достаточно полезная. Используется она для того, чтобы немного разгрузить сервер. С её помощью вы можете установить продолжительность интервала между завершением сканирования одной страницы и началом сканирования другой. Ведь если бот будет сразу анализировать всё подряд, это может привести к неполадкам в работе системы. Измеряется эта пауза в секундах. Обратите внимание, что сразу большой интервал (например, 2 секунды) задавать не стоит. Лучше начать с минимальных (например, 0,1 секунда), а потом постепенно повышать показатели. При этом для роботов, которые посещают вас редко и не так важны для продвижения, задержку можно установить больше, чем для Яндекса.
Host
Это директива, которая отвечает за то, чтобы сообщить роботам адрес главного зеркала сайта. Но сейчас эта команда уже устарела, и её перестали использовать. Вместо этого на всех неосновных версиях теперь нужно прописывать 301 редирект.
Также в документе можно использовать несколько дополнительных символов:
- Решётка #. С её помощью можно оставлять комментарии к директивам. Робот такие пометки не прочитает, но зато их поймут люди, которые в будущем будут работать с файлом. Например, через какое-то время вы можете не вспомнить, почему закрывали от ботов ту или иную страницу. Или вы найдёте нового SEO-специалиста, которого нужно будет погрузить в контекст. С такими пометками это будет сделать гораздо проще.
-
Звёздочка *. Означает, что после неё может идти любая последовательность знаков. В каждой строке её можно не проставлять, потому что по умолчанию и так подразумевается, что команда распространяется на все URL, входящие в папку или раздел. Символ можно использовать для более тонких настроек. Например, если у вас на ресурсе есть функция поиска в разных разделах, директива для того, чтобы закрыть все результаты, может выглядеть так:
Disallow: /*/search/
-
Доллар $.
Используется, чтобы обозначить конец строки. То есть все символы, которые будут находиться после $, не будут попадать под правило. Например, если мы напишем директиву:
Disallow: /image/,
то она запретит индексирование всех страниц в этом разделе. А если закрыть её с помощью доллара:
Disallow: /image$,то под запрет не попадут адреса вроде /image1 или /images.
Какую информацию важно скрыть?
- Страницы, которые ещё не готовы. Если у вас есть страницы, которые сейчас находятся в процессе разработки, лучше скройте их до тех пор, пока они не будут полностью готовы. То же самое и с целым сайтом. Если он ещё не готов, он не должен оказаться в выдаче. Ведь если половина функций не будет корректно работать, это может испортить репутацию компании, а ещё плохо повлияет на поведенческие факторы. Ведь люди могут просто открывать страницу и быстро закрывать её, когда увидят, что ничего не работает.
- Страницы для печати. Это отдельная версия страницы, которая упрощает её контент для печати. Понятно, что информация там одна и та же, поэтому дублировать её в выдаче не стоит.
- Технические страницы. Например, сюда можно отнести страницу авторизации. Такие данные нужны только для сотрудников компании, а не для всех пользователей.
- Персональные клиентские данные. Это могут быть не только имя и номер телефона, но и платёжные данные. Думаем, не стоит объяснять, почему всё это не должно оказаться в открытом доступе.
- Страницы сортировки. Они содержат практически одинаковый контент, а поисковые системы не любят, когда в выдаче находится повторяющаяся информация. Из-за этого репутация сайта может падать.
А что делать со страницами пагинации? Так называют большие массивы данных, которые разделяют на отдельные страницы, чтобы пользователю не пришлось слишком долго проматывать контент вниз. Чаще всего такой формат встречается в каталогах интернет-магазинов. Мы не рекомендуем закрывать страницы пагинации в robots.txt. Лучше решить проблему с помощью тега canonical. Им можно обозначить основную страницу. Тогда поисковая система не будет рассматривать такой контент, как дублирующий.
Почему всё, что мы обсудили выше, стоит закрыть от индексации?
- Какая-то информация просто не должна стать доступна большому количеству людей. Например, пароли и личные данные.
- Какой-то контент не несёт никакой пользы для людей. В этом случае пострадают поведенческие факторы, ведь даже если люди зайдут на ресурс, они будут очень быстро с него уходить.
-
Впустую тратится краулинговый бюджет. Это определённое количество страниц, которое роботы могут отсканировать за один раз, и периодичность, с которой они это делают. Краулинговый бюджет различается для каждого отдельного сайта. Если он будет потрачен на бесполезные страницы, то до реально полезного контента дело может так и не дойти.
- Система не любит дублирующий контент. Из-за этого может страдать авторитетность ресурса.
Частые ошибки, которые допускают при создании robots.txt
- Объединение нескольких элементов в одну директиву. Если вам нужно скрыть из поиска несколько разделов, каждый из них должен быть прописан с новой строки.
- Разный регистр символов. Следите за тем, чтобы в ваших директивах был прописан правильный регистр. Если некоторые боты могут проигнорировать такую опечатку, другие из-за этого не смогут распознать важную команду.
- Точка или точка с запятой в конце строки. Закрытие строки не нужно никак дополнительно помечать. Наоборот, это может помешать читать их.
-
Неправильное название файла. Он может называться только robots.txt и никак иначе. Обратите внимание на нижний регистр и отсутствие лишних символов. В противном случае боты просто не смогут его распознать.
- Наличие символов на кириллице. В robots.txt можно использовать только латинские символы, иначе боты вас не поймут. Это касается всех директив, кроме комментариев, сопровождаемых знаком #. Если домен вашего сайта на русском языке, его URL придётся дополнительно преобразовывать с помощью кодировки Punycode. Для этого существуют онлайн-конвертеры.
- Слишком большой размер файла. Его вес не должен быть больше 32 Кб. Иначе боты опять же не смогут его прочитать. Поэтому следите за размером и удаляйте всё, что стало неактуальным.
- Команды вроде “Disallow: Yandex”. Правило всегда одно: сначала обращаемся к роботу с помощью user-agent, а уже потом просим его выполнить то, что нам нужно.
- Перечисление каждого отдельного файла в папке. Если вы закрываете какую-то папку, то к индексации будут запрещены и все файлы, находящиеся внутри неё. Поэтому их не нужно прописывать отдельно.
-
Отсутствие проверки корректности работы.
Даже если вы несколько раз перечитали все команды в своём robots.txt, не помешает проверить его автоматическими сервисами. Ведь иногда глаз замыливается, и ошибки перестаёшь замечать. О том, какими способами можно проверить файл, мы расскажем в конце статьи.
Другие способы создания robots.txt
Способ, который мы разобрали выше, можно назвать ручным. Ведь в нём мы сами создаём документ и прописываем в нём все нужные нам запреты и разрешения. Но есть и другие более автоматизированные способы.
Инструменты CMS
Если ваш сайт сделан на CMS, создать robots.txt можно с помощью встроенных инструментов в админ-панели или добавленных плагинов. Например, для сайтов на WordPress есть плагин Virtual Robots.txt. А в модуле поисковой оптимизации Битрикс, начиная с 14 версии, есть встроенный инструмент для работы с файлом. Находится он по пути Маркетинг — Поисковая оптимизация — Настройка robots.txt.
Tilda обещает полностью автоматически сгенерировать за вас файл. Найти его можно по обычному адресу: вашсайт.рф/robots.txt. Вносить корректировки в сам файл нельзя, но в настройках каждой страницы можно отдельно запретить её индексирование поисковыми системами.
Онлайн-генераторы
Также существуют простые онлайн-сервисы, которые помогут быстро сформировать для вас готовый файл. Конечно, они не смогут учесть тонкие материи в виде отдельных исключений для каких-то роботов или файлов из скрытых разделов, но для простых команд такие сервисы вполне подойдут.
Обычно в них достаточно указать домен сайта, отметить ботов, для которых вы хотите запретить индексацию, и прописать адреса нужных разделов, страниц или файлов. Также иногда туда можно добавить ссылку на карту сайта и указать значение директивы crawl-delay. Вот несколько примеров таких онлайн-генераторов: CY-PR, SAS, Daruse. В целом все они практически одинаковые, поэтому такой сервис можно просто найти в поисковике.
Как убедиться, что всё работает правильно?
Проверить, правильный ли файл robots. txt вы создали, можно в сервисах от поисковых систем.
Яндекс.Вебмастер
В левой колонке найдите раздел “Инструменты”. В нём кликните по “Анализ robots.txt”. Вам нужно указать, на какой сайт вы собираетесь добавить файл, а потом вставить текст его содержимого в поле ниже. После проверки сервис может сказать о том, что всё хорошо, либо выдать ошибки и предупреждения. Ошибки — более серьёзная вещь. Из-за них может быть необработана какая-то строка, а может не читаться даже весь документ. Предупреждения указывают на то, что вы немного отклонились от правил или сделали опечатку. И ошибки, и предупреждения желательно исправить.
В Вебмастере, в отличие от сервиса Google, можно проверить правильность любого файла, а необязательно того, который находится на ресурсе, куда у вас есть доступ администратора. Но если вы подтвердили права на владение сайтом, то можете настроить уведомления о любых ошибках и предупреждениях, которые могут в будущем возникать в файле, если вы его отредактируете. Это поможет лучше контролировать ситуацию.
Также в этом же инструменте можно проверить, разрешено ли индексирование конкретных URL. Их можно загрузить в соответствующее поле списком.
Google Search Console
В левом столбце нужно нажать на раздел “Подробнее”, а потом в справке зайти в “Инструмент проверки файла robots.txt”. Доступ сюда у вас будет только если сайт добавлен в Search Console, и у вас подтверждены права на него.
В поле копируем текст из нашего документа, а ниже указываем адрес сайта и нажимаем “Проверить”. Если в директивах есть ошибки, система покажет их в результатах.
Ещё несколько полезных советов
Если правила сканирования у вас различаются для разных поисковиков, объедините их в группы. Блоки можно отделить пустыми строками. Так каждому боту понадобится меньше времени на то, чтобы найти информацию, предназначенную именно ему.
- Обязательно откройте для индексации стили css и js. Без этого боты не смогут увидеть страницы так, как их видит живой человек. Поэтому они могут сделать вывод, что ресурс не адаптирован под мобильные. Также если какая-то часть контента подгружается с помощью js, то боты просто её не увидят. Это может плохо повлиять на ранжирование сайта, потому что в таком случае контент может выглядеть бесполезным и некачественным. Поэтому рекомендуем добавить в ваш robots такие директивы: Allow: /*.js Allow: /*.css
- Не добавляйте на свой сайт первый попавшийся в интернете robots.txt, который вроде бы вам подходит. Это серьёзный инструмент, который может полностью лишить вас поискового трафика, поэтому если вы не уверены в том, что разбираетесь в работе директив, лучше посоветоваться с профессионалами.
Нужен ли мне файл Robots.txt для моего веб-сайта?
Файл robots.txt похож на забор вокруг вашей собственности. Заборы предназначены для защиты от опасности, но они также могут позволить другим видеть сквозь них. Для веб-сайта файл robots.txt находится в корневой папке вашего веб-сайта и указывает, какие части вашего веб-сайта вы хотите или не хотите, чтобы поисковые роботы видели или получали к ним доступ. Вы можете настроить таргетинг на отдельные файлы, типы файлов, папки и IP-адреса и ботов, которых следует избегать на вашем сайте.
Зачем вам файл robots.txt?
- Неправильное использование файла robots.txt может повредить вашему рейтингу в поисковой системе*
- Файл robots.txt управляет тем, как некоторые боты и поисковые роботы видят ваш веб-сайт и взаимодействуют с ним
- Этот файл содержит инструкции для ботов по взаимодействию с ним ваш сайт и является фундаментальной частью работы поисковых систем.
* Google прекратит поддержку NoIndex Robots.txt в сентябре 2019 года.
Что такое файл robots.txt?
Файл robots.txt представляет собой отдельный файл, в котором используется стандарт исключения роботов, который представляет собой протокол с небольшим набором команд, которые можно использовать для указания доступа к вашему сайту по разделам и определенным типам поисковых роботов (например, мобильным сканеры против настольных сканеров). Robots.txt позволяет вам попытаться заблокировать области вашего веб-сайта, которые вы, возможно, не хотите, чтобы поисковые роботы находили (например, области только для членов). Использование файла Robots.txt — это шаг, но не единственный шаг, который вы должны предпринять, чтобы пометить области вашего сайта, в которые не должны попадать поисковые роботы.
Веб-страницы (HTML/PHP)
Для файлов, не являющихся изображениями (то есть веб-страниц), файл robots.txt используется для управления сканирующим трафиком, обычно потому, что вы не хотите, чтобы ваш сервер был перегружен поисковым роботом. .
Файлы изображений
Файл robots.txt предотвращает появление файлов изображений в результатах поиска Google. Это может быть хорошим способом уберечь ваши изображения от поиска изображений Google, если вы, например, фотограф, который продает свои работы в Интернете. Это не мешает другим страницам или пользователям ссылаться на ваше изображение. Это хорошо, потому что вы хотите, чтобы люди делились вашими страницами и работали с друзьями в социальных сетях.
Файлы ресурсов
Вы можете использовать robots.txt для блокировки файлов ресурсов, таких как неважные файлы изображений, сценариев или стилей. Имейте в виду, что если эти файлы необходимы для отображения вашего веб-сайта, это может повлиять на возможности поиска по вашему сайту. Если файлы заблокированы, то краулер не загрузит их, даже если их вызовет страница. Будет ли ваш сайт выглядеть так же на мобильных устройствах, если вы удалите CSS, предназначенный для мобильных устройств? Как Google решит, что ваш сайт выглядит, если он не видит CSS?
Примечание от Google
Вы не должны использовать robots.txt как средство скрыть свои веб-страницы от результатов поиска Google. Это связано с тем, что другие страницы могут указывать на вашу страницу, и ваша страница может быть проиндексирована таким образом, избегая файла robots.txt. Если вы хотите заблокировать свою страницу в результатах поиска, используйте другой метод, например, защиту паролем или метатеги или директивы noindex непосредственно на каждой странице.
Основные примеры файла robots.txt
Вот некоторые общие настройки файла robots.txt.
Разрешить полный доступ
Агент пользователя: *
Запретить:
Блокировать полный доступ
Агент пользователя: *
Запретить: *
Заблокировать одну папку
Агент пользователя: *
Запретить: /папка/
Блокировать один файл
Агент пользователя: *
Запретить: /file.html
На вашем сайте уже есть файл robots.txt?
Вы можете проверить наличие файла robots.txt в любом онлайн-браузере. Файл robots.txt всегда находится в одном и том же месте на любом сайте, поэтому легко определить, есть ли он на сайте. Просто добавьте «/robots.txt» в конец имени домена, как показано ниже.
https://www.yourwebsite.com/robots.txt
Если у вас есть файл, это ваш файл robots.txt. Вы либо найдете файл со словами, либо найдете файл без слов, либо вернете страницу с ошибкой 404.
Проверка файла robots.

Если у вас есть доступ и разрешение, вы можете использовать консоль поиска Google для проверки файла robots.txt. Инструкции по тестированию файла Robots.txt можно найти здесь.
Чтобы полностью понять, не блокирует ли ваш файл robots.txt то, что вы не хотите, чтобы он блокировал, вам необходимо понять, о чем он говорит. Я расскажу об этом ниже.
Вам нужен файл robots.txt?
Возможно, вам даже не понадобится файл robots.txt на вашем сайте. На самом деле, часто бывает так, что он вам не нужен.
Причины, по которым вам может понадобиться файл robots.txt:
- У вас есть контент, который вы хотите заблокировать от поисковых систем
- Вы разрабатываете работающий сайт, но не хотите, чтобы поисковые системы его индексировали новые страницы еще
- Вы хотите настроить доступ к вашему сайту от известных ботов и поисковых роботов
- Вы используете платные ссылки или рекламные объявления, требующие специальных инструкций для ботов.
- Они помогают вам следовать некоторым рекомендациям Google в некоторых ситуациях. проста и безошибочна, и вы хотите, чтобы все индексировалось
- У вас нет файлов, которые вы хотите или должны заблокировать от поисковых систем
- .txt файл
- Можно не иметь файла robots.txt.
Если у вас нет файла robots.txt, роботы поисковых систем, такие как Googlebot, будут иметь полный доступ к вашему сайту. Это нормальный и простой метод, который очень распространен.
Ключи к robots.txt
- Если вы используете файл robots.txt, убедитесь, что он используется правильно
- Неверный файл robots.txt может помешать ботам и поисковым роботам обнаружить все страницы вашего сайта вы не блокируете страницы или элементы, которые нужны Google для чтения, отображения и ранжирования ваших страниц
О robots.txt
- Узнайте о robots.txt от Google
- Стандарт исключения роботов
robots.txt — это файл, веб-сайты используют, чтобы сообщить веб-скрейперам, следует ли им сканировать страницу или нет.
Вы должны уважать это предпочтение, поскольку в противном случае ваш бот будет легко обнаружен, или вы можете столкнуться с юридическими последствиями.
Давайте научимся читать robots.txt во время просмотра веб-страниц!
Что такое robots.txt в парсинге веб-страниц?
Протокол исключения роботов (REP) установил robots.txt в качестве стандартизированного файла, чтобы указать, какие части веб-сайта разрешены для сканирования, и Google популяризировал его.
Вот пример файла robots.txt, взятого из Yahoo Finance:
User-agent: * Карта сайта: https://finance.yahoo.com/sitemap_en-us_desktop_index.xml Карта сайта: https://finance.yahoo.com/sitemap_en-us_quotes_index.xml Карта сайта: https://finance.yahoo.com/sitemaps/finance-sitemap_index_US_en-US.xml.gz Карта сайта: https://finance.yahoo.com/sitemaps/finance-sitemap_googlenewsindex_US_en-US.xml.gz Запретить: / г / Запретить: /_finance_doubledown/ Запретить: /nel_ms/ Запретить: /caas/ Запретить: /__rapidworker-1.
2.js Запретить: /__blank Запретить: /_td_api Запретить: /_remote Агент пользователя: Googlebot Запретить: /м/ Запретить: /скринер/инсайдер/ Запретить: /caas/ Запретить: /fin_ms/ Пользовательский агент: Googlebot-новости Запретить: /м/ Запретить: /скринер/инсайдер/ Запретить: /caas/ Запретить: /fin_ms/
Скопировано!
Как получить файл robots.txt с веб-сайта?
Обычно файл robots.txt веб-сайта извлекается путем отправки HTTP-запроса в корень домена веб-сайта и добавления
/robots.txt
в конец URL-адреса. Например, чтобы получить правила дляhttps://www.g2.com/
, вам нужно отправить запрос наhttps://www.g2.com/robots.txt
.Вы можете использовать такие инструменты, как cURL или Wget, чтобы получить файл из командной строки. В качестве альтернативы вы можете сделать это и прочитать его с помощью библиотек Requests и Beautiful Soup в Python.
Примечание. Если ваш запрос завершается неудачей и возвращает ошибку
404 not found
, это означает, что на веб-сайте нет файла robots.txt. Не на всех сайтах есть такой файл.
Каковы наиболее распространенные правила robots.txt?
В файле robots.txt указано одно из следующих направлений веб-скрапинга:
- Все страницы сайта доступны для сканирования.
- Ни один из них не должен быть посещен.
- Некоторые разделы или файлы следует оставить нетронутыми. Он также может указывать ограничения скорости сканирования, время посещения и частоту запросов.
Посмотрим, какие инструкции вы найдете в файле robots.txt.
User-agent
Определяет, кому разрешено выполнять веб-скрапинг.
Синтаксис такой:
Агент пользователя: [значение] Запретить: [значение]
Если
Агент пользователя
имеет подстановочный знак (*
), это означает, что всем разрешено сканировать. В этом случае допускается наличие определенного имени, напримерAdsBot-Google
, которое представляет только Google.Когда
Disallow
не имеет значения, все страницы разрешены для очистки.Если вы видите
/
, это означает, что каждая страница запрещена. Если вы видите путь или имя файла, например/folder/
или/file.html
, нам указывают, что не следует сканировать.Альтернативной инструкцией для
Запретить
являетсяРазрешить
, в которой указаны единственные ресурсы, которые вы должны посетить.Crawl-delay
Crawl-delay
устанавливает скорость в секундах, с которой вы можете очищать каждый новый ресурс. Это помогает веб-сайтам предотвратить перегрузку сервера, следствием которой может стать замедление работы сайта для посетителей-людей.Задержка сканирования: 7
Будьте осторожны с этим, так как несоблюдение его может пометить вас как вредоносный парсер и легко заблокировать.
Время посещения
Указывает количество часов, в течение которых веб-сайт может быть просканирован. Формат —
ччмм-ччмм
, а часовой пояс —UTC
.Время посещения: 02:00-12:30
В этом случае боты разрешены с 02:00 до 12:30 UTC.
Частота запросов
Ограничивает количество одновременных запросов, которые сканер может сделать к веб-сайту. Формат
x/y
, гдеx
— количество запросов, аy
— временной интервал в секундах.Время посещения: 1/5
Например,
1/5
будет означать, что вы можете запрашивать только одну страницу каждые пять секунд.Карта сайта
Другие теги, такие как карта сайта, сообщают поисковым роботам, где найти XML-карту сайта веб-сайта.
Имейте в виду, что не все веб-сайты имеют все эти правила в файле robots.txt для веб-скрейпинг-ботов, а некоторые могут иметь дополнительные.
Какие шаги необходимо выполнить для парсинга веб-сайта с помощью robots.txt
Вот что вам нужно сделать, чтобы уважать файл robots.txt для парсинга веб-страниц:
- Получить файл robots.
txt веб-сайта, отправив HTTP-запрос на root домена веб-сайта и добавив
/robots.txt
в конец URL-адреса. - Разберите и проанализируйте содержимое файла, чтобы понять правила сканирования веб-сайта.
- Проверьте, указал ли веб-сайт какие-либо правила «Запретить» или «Разрешить» для вашего пользовательского агента.
- Ищите любые указанные ограничения скорости сканирования или времени посещения, которые вы должны соблюдать.
- Убедитесь, что ваша программа парсинга соответствует правилам.
- Очистите веб-сайт, следуя правилам, установленным в файле robots.txt.
Примечание. Хотя владельцы веб-сайтов используют файл robots.txt для управления доступом к своим сайтам, может случиться так, что ваш бот будет разрешен, но заблокирован. Вы должны знать о CAPTCHA, блокировке IP-адресов и других проблемах, которые могут непреднамеренно остановить вас. Чтобы избежать этого, ознакомьтесь с нашей статьей о лучших методах парсинга веб-страниц.
Каковы плюсы и минусы использования файла robots.txt?
Чтобы завершить наш обзор файлов robots.txt, мы рассмотрим их преимущества и недостатки в отношении парсинга веб-страниц.
👍 Плюсы:
- robots.txt информирует вас, какие страницы вы можете парсить.
- Сообщает, установлен ли веб-сайтом ограничение частоты запросов или временные рамки.
👎 Минусы:
- При несоблюдении правил robots.txt могут последовать судебные иски.
- Ваш парсер может быть легко заблокирован, если вы проигнорируете файл.
Заключение
Как мы уже видели, чтение файла robots.txt является ключом к успешному просмотру веб-страниц и избежанию ненужных проблем. Кроме того, мы научились понимать файл.
Если вас по-прежнему блокируют, возможно, вы столкнулись с защитой от ботов. ZenRows — это API, который вы можете попробовать бесплатно, и он сделает это за вас.
Был ли этот контент полезен для вас? Распространите информацию и поделитесь ею в Twitter или LinkedIn.