Robots txt – главный инструмент управления индексацией сайта
- запрет индексации отдельных разделов, страниц или файлов, которые могут затруднить раскрутку сайта,
- рекомендации по соблюдению временного промежутка между скачиванием файлов с сервера,
- информацию о зеркалах домена т.д.
История
Документ «Стандарт исключений для роботов» — это результат соглашения между основными производителями поисковых систем, заключенного 30 июня 1994 года. Данный стандарт не является официальным или корпоративным и не гарантирует его соблюдения будущими поисковыми ботами. Причиной принятия соглашения стал тот факт, что индексация происходит периодически против желания владельцев сайтов, может осуществляться некорректно и затруднять работу посетителей ресурса с сервером.
Создание файла
Для создания robots.txt необходим обычный текстовый файл. Если раскрутка сайта не требует установки запретов по индексации, достаточно сделать пустой документ. На ресурсе может быть только один robots.txt, обязательно в его корне (размещение файла в поддиректориях сделает его незаметным для поисковых роботов без использования специальных мета-тегов robots). Так как URL чувствителен к регистру, название файла пишется строчными латинскими буквами. Если в процессе оптимизации сайта файл robots.txt не был создан, если он пуст или заполнен не по стандарту, поисковые боты работают по своему алгоритму.
Стандарт
Robots.txt может содержать одну или несколько записей (каждая обязательно с новой строки) в форме <поле:> <пробел> <значение> <пробел>. Поле от регистра не зависит. В файл могут быть включены комментарии в стандартном для UNIX виде (# — начало комментария, конец строки — его окончание). Запись начинается со строки User-Agent (одной или нескольких), затем Disallow. Нераспознанные поля игнорируются.
Простейший robots.txt выглядит следующим образом:
User-agent: *
Disallow: /название 1-го раздела/
Disallow: /название 2-го раздела/
Disallow: /название 3-го раздела/
В данном случае запрещена индексация трех разделов.
- User-Agent. Значением для этого поля является имя поискового бота, для которого устанавливаются права доступа. Если указаны несколько имен, то права доступа распространяются на всех перечисленных. Символ «*» вместо имени значит, что запись содержит инструкции для всех поисковых роботов.
- Disallow. Значением для этого поля является полный или частичный URL, который нельзя индексировать. Если оно не указано, анализируется все дерево страниц на сервере.
В robots.txt не прописывается путь к панелям управления на сайте или консолям администратора, так как файл доступен для чтения посетителям ресурса. Поисковики в любом случае не индексируют страницы, запрашивающие логин или пароль, или те, на которые нет ссылок.
Другие термины на букву «R»
ROI (ROMI)RookeeRotapostRSS
Все термины SEO-Википедии
Теги термина
Продвижение сайтовТехническая оптимизацияВеб-разработка
Какие услуги тебе подходят
Продвижение сайтов в Москве
SEO-оптимизация сайта
Оптимизация сайта под Google
Продвижение сайта в Яндексе
Продвижение интернет-магазина
SEO-продвижение лендинга в поисковых системах
Продвижение медицинских сайтов
Продвижение молодого сайта
Продвижение сайтов под ключ
SEO-продвижение с гарантией
Продвижение по ключевым словам
Продвижение сайта в ТОП 10 Яндекса и Google
Продвижение туристических сайтов
Продвижение сайтов в ТОП 3 Яндекса и Google
Оптимизация сайта под Яндекс
Раскрутка сайтов за рубежом
Продвижение сайта в Google
Продвижение сайта по позициям
Продвижение сайта по трафику
Оптимизация сайта в мобильной выдаче
SEO аудит
Поисковый аудит сайта
Заказать продвижение сайта
Продвижение сайтов в Москве: проверенные решения от профессионалов
Продвижение стоматологической клиники
Продвижение сайтов медицинских клиник
Продвижение салона красоты
Продвижение автомобильных сайтов
Продвижение магазина автозапчастей
Продвижение и раскрутка автосервиса
Продвижение отелей и гостиниц
SEO-продвижение сайта в Новосибирске
SEO-продвижение сайта в Екатеринбурге
SEO-продвижение сайта в Самаре
SEO-продвижение сайта в Омске
SEO-продвижение сайта в Нижнем Новгороде
SEO-продвижение сайта в Казани
SEO-продвижение сайта в Челябинске
SEO-продвижение сайта в Красноярске
Поисковое продвижение сайтов в Перми: эффективно, профессионально, прозрачно
Поисковое продвижение сайтов в Ростове-на-Дону
Поисковое продвижение сайтов в Уфе
SEO-продвижение сайта в Воронеже
SEO-продвижение сайта в Волгограде
SEO-продвижение сайта в Краснодаре
Продвижение интернет-магазина бытовой техники
Продвижение интернет-магазина одежды
Продвижение интернет-магазина зоотоваров
Продвижение интернет-магазина книг
Продвижение интернет-магазина мебели
Продвижение интернет-магазина обуви
Продвижение интернет-магазина сантехники
Продвижение интернет-магазина спортивных товаров
Продвижение интернет-магазина стройматериалов
Продвижение интернет-магазина часов
Маркетинговый аудит сайта
Продвижение автосалона
Поисковое продвижение сайтов в Тольятти
7 шагов для трафика сайта.
Книга для тех, кто пишет статьи на сайт, в блог, Дзен и соцсети», Максим Оберман – ЛитРес© Максим Оберман, 2021
ISBN 978-5-0055-1535-3
Создано в интеллектуальной издательской системе Ridero
Введение
В книге речь пойдет о правильной оптимизации статей и других материалов для поисковых систем с целью попасть в ТОП-10 выдачи Яндекса. На первом месте, естественно, стоит полезная информация и содержание текста, на основе которых поисковик решает показывать ли пользователям ваш сайт.
Написанный вами материал должен быть «интересен» не только для людей, но и для поисковых роботов. Тут есть три очевидных плюса:
Благодаря оптимизации статья попадает в ТОП → быстрее находит своего читателя → вместе со статьёй продвигается ваш сайт / товар / услуга.
По данным исследования Nielsen Norman Group:
Книга написана экспертами
Exiterra.com Digital Agency и поможет вам познать основы SEO-оптимизации текстов и покорить вершины ТОП-выдачи поисковых систем.
Данный материал можно использовать в качестве обучающего пособия для начинающих SEO-специалистов, редакторов и копирайтеров, а также для общего ознакомления веб-мастеров, размещающих тексты на сайтах.
Глава 1.
Теоретические основы оптимизации текстов
Как вы, возможно, уже знаете, SEO (search engine optimization) – это про развитие сайта и его продвижение по поисковым запросам с целью выхода в ТОП поисковой выдачи Яндекса и Google. Пользователь вводит в поисковую строку запрос и рассчитывает получить ответ. SEO-оптимизация текстов помогает поднять сайт в результатах поиска по разнообразным поисковым запросам. А из нашей статьи «Что такое кейсы в маркетинге и как их писать? Польза кейса для бизнеса» мы знаем, что 75% посетителей сайта не перелистывают дальше первой страницы в поисковой выдаче. Поэтому SEO-оптимизированный текст выполняет важные маркетинговые задачи, привлекая новых посетителей сайта.
Принципы ранжирования поисковых систем
Задача поисковика дать наиболее полную информацию на поисковый запрос, поэтому поисковая система упорядочивает сайты от лучшего к худшему. Таким образом, сверху будут наиболее релевантные сайты.
Поисковые роботы многократно индексируют ваш сайт и ищут в тексте ключевые выражения, чтобы определить тематику вашей статьи.
Для правильной оптимизации статьи вам, как автору и редактору текста, нужно знать основные факторы ранжирования и влиять на них:
Сейчас расскажем, как при написании текстов можно влиять на факторы ранжирования.
Поисковые системы определяют, когда их пытаются «обмануть» огромным количеством спама на странице, и пессимизируют (банят) сайт или статью в выдаче, поэтому мы не рекомендуем использовать серые методы влияния на факторы ранжирования и рассмотрим только разрешенные способы SEO-оптимизации текстов.
Передовой опыт, распространенные проблемы и решения
• SEO
Техническое SEO — это хорошо реализованная стратегия, которая учитывает различные сигналы ранжирования на странице и за ее пределами, чтобы помочь вашему сайту занять более высокое место в поисковой выдаче. Каждая тактика SEO играет важную роль в повышении рейтинга вашей страницы, гарантируя, что поисковые роботы смогут легко сканировать, ранжировать и индексировать ваш веб-сайт.
От скорости страницы до правильных тегов заголовков — существует множество сигналов ранжирования, с которыми может помочь техническое SEO. Но знаете ли вы, что один из самых важных файлов для SEO вашего сайта также находится на вашем сервере?
Файл robots.txt — это код, сообщающий поисковым роботам, какие страницы вашего веб-сайта они могут и не могут сканировать. Это может показаться пустяком, но если ваш файл robots.txt настроен неправильно, это может оказать серьезное негативное влияние на SEO вашего сайта.
В этом сообщении блога мы обсудим все, что вам нужно знать о robots.txt, от того, что такое файл robots.txt в SEO, до лучших практик и правильных способов устранения распространенных проблем.
Что такое файл robots.txt и почему он важен для SEO?Файл Robots. txt — это файл, расположенный на вашем сервере, который сообщает поисковым роботам, к каким страницам они могут получить доступ, а какие — нет. Если поисковый робот попытается просканировать страницу, заблокированную в файле robots.txt, это будет считаться программной ошибкой 404.
Хотя программная ошибка 404 не повлияет на рейтинг вашего сайта, она все равно считается ошибкой. И слишком много ошибок на вашем веб-сайте может привести к снижению скорости сканирования, что в конечном итоге может повредить вашему рейтингу из-за снижения скорости сканирования.
Если на вашем веб-сайте много страниц, заблокированных файлом robots.txt, это также может привести к трате краулингового бюджета. Бюджет сканирования — это количество страниц, которые Google будет сканировать на вашем веб-сайте во время каждого посещения.
Еще одна причина, по которой файлы robots.txt важны для поисковой оптимизации, заключается в том, что они дают вам больший контроль над тем, как робот Googlebot сканирует и индексирует ваш веб-сайт. Если у вас есть веб-сайт с большим количеством страниц, вы можете заблокировать определенные страницы от индексации, чтобы они не перегружали поисковые роботы и не ухудшали ваш рейтинг.
Если у вас есть блог с сотнями сообщений, вы можете разрешить Google индексировать только самые последние статьи. Если у вас есть веб-сайт электронной коммерции с большим количеством страниц продуктов, вы можете разрешить Google индексировать только страницы основных категорий.
Правильная настройка файла robots.txt может помочь вам контролировать то, как робот Googlebot сканирует и индексирует ваш веб-сайт, что в конечном итоге может помочь улучшить ваш рейтинг.
Что Google говорит о файле robots.txt РекомендацииТеперь, когда мы рассмотрели, почему файлы robots.txt важны для SEO, давайте обсудим некоторые рекомендации, рекомендованные Google.
Создайте файл с именем robots.txtПервым шагом является создание файла с именем robots. txt . Этот файл необходимо поместить в корневой каталог вашего веб-сайта — каталог самого высокого уровня, содержащий все остальные файлы и каталоги на вашем веб-сайте.
Вот пример правильного размещения файла robots.txt: на сайте apple.com корневым каталогом будет apple.com/.
Вы можете создать файл robots.txt в любом текстовом редакторе, но многие CMS, такие как WordPress, автоматически создадут его для вас.
Добавление правил в файл robots.txtПосле создания файла robots.txt следующим шагом будет добавление правил. Эти правила сообщат поисковым роботам, к каким страницам они могут и не могут получить доступ.
Существует два типа синтаксиса robot.txt, которые вы можете добавить: Разрешить и Запретить.
Разрешающие правила сообщают поисковым роботам, что им разрешено сканировать определенную страницу.
Правила запрета сообщают поисковым роботам, что им не разрешено сканировать определенную страницу.
Например, если вы хотите разрешить поисковым роботам сканировать вашу домашнюю страницу, добавьте следующее правило:
Разрешить: /
Если вы хотите запретить поисковым роботам сканировать определенный поддомен или подпапку в вашем блоге , вы используете: Disallow: /
Загрузите файл robots.txt на свой сайтПосле того, как вы добавили правила в файл robots.txt, следующим шагом будет его загрузка на ваш сайт. Вы можете сделать это с помощью FTP-клиента или панели управления хостингом.
Если вы не знаете, как загрузить файл, обратитесь к своему веб-хостингу, и они должны вам помочь.
Проверьте файл robots.txtПосле того как вы загрузили файл robots.txt на свой веб-сайт, следующим шагом будет его проверка, чтобы убедиться, что он работает правильно. Google предоставляет бесплатный инструмент под названием robots.txt Tester в Google Search Console, который вы можете использовать для проверки своего файла. Его можно использовать только для файлов robots.txt, которые находятся в корневом каталоге вашего сайта.
Чтобы использовать тестер robots.txt, введите URL своего веб-сайта в инструмент тестер robots.txt, а затем протестируйте его. Затем Google покажет вам содержимое вашего файла robots.txt, а также все найденные ошибки.
Используйте библиотеку роботов Google с открытым исходным кодомЕсли вы более опытный разработчик, у Google также есть библиотека роботов с открытым исходным кодом, которую вы можете использовать для локального управления файлом robots.txt на своем компьютере.
Что может случиться с SEO вашего сайта, если файл robots.txt поврежден или отсутствует?Если файл robots.txt поврежден или отсутствует, поисковые роботы могут индексировать нежелательные для вас страницы. В конечном итоге это может привести к ранжированию этих страниц в Google, что не идеально. Это также может привести к перегрузке сайта, поскольку поисковые роботы пытаются проиндексировать все на вашем сайте.
Неисправный или отсутствующий файл robots.txt также может привести к тому, что сканеры поисковых систем пропустят важные страницы вашего веб-сайта. Если у вас есть страница, которую вы хотите проиндексировать, но она заблокирована поврежденным или отсутствующим файлом robots.txt, она может никогда не быть проиндексирована.
Короче говоря, важно убедиться, что ваш файл robots.txt работает правильно и находится в корневом каталоге вашего веб-сайта. Исправьте эту проблему, создав новые правила или загрузив файл в корневой каталог, если он отсутствует.
Рекомендации по работе с файлами robots.txtТеперь, когда вы знаете основы работы с файлами robots.txt, давайте рассмотрим некоторые рекомендации. Это то, что вы должны сделать, чтобы убедиться, что ваш файл эффективен и работает правильно.
Используйте новую строку для каждой директивыКогда вы добавляете правила в файл robots.txt, важно использовать новую строку для каждой директивы, чтобы не запутать роботов поисковых систем. Это включает в себя правила разрешения и запрета.
Например, если вы хотите запретить поисковым роботам сканировать ваш блог и страницу контактов, вы должны добавить следующие правила:
Запретить: /blog/
Запретить: /contact/
Используйте подстановочные знаки для упрощения инструкцийЕсли у вас много страниц, которые вы хотите заблокировать, добавление правила для каждой из них может занять много времени. К счастью, вы можете использовать подстановочные знаки для упрощения инструкций.
Подстановочный знак — это символ, который может представлять один или несколько символов. Наиболее распространенным подстановочным знаком является звездочка (*).
Например, если вы хотите заблокировать все файлы с расширением .jpg, добавьте следующее правило:
Запретить: /*.jpg
Используйте «$» для указания конца URL-адресаЗнак доллара ($) — это еще один подстановочный знак, который можно использовать для указания конца URL-адреса. Это полезно, если вы хотите заблокировать определенную страницу, но не страницы, следующие за ней.
Например, если вы хотите заблокировать страницу контактов, но не страницу успешного контакта, вы должны добавить следующее правило:
Запретить: /contact$
Использовать каждый агент пользователя только один разК счастью, когда вы добавляете правила в файл robots.txt, Google не возражает, если вы используете один и тот же User-agent несколько раз. Однако рекомендуется использовать каждый пользовательский агент только один раз.
Используйте специфичность, чтобы избежать непреднамеренных ошибокКогда речь идет о файлах robots.txt, специфичность является ключевым моментом. Чем конкретнее вы описываете свои правила, тем меньше вероятность того, что вы совершите ошибку, которая может повредить SEO вашего сайта.
Используйте комментарии, чтобы объяснить людям ваш файл robots. txtНесмотря на то, что ваши файлы robots.txt сканируются ботами, людям по-прежнему необходимо понимать, поддерживать и управлять ими. Это особенно актуально, если над вашим сайтом работает несколько человек.
В файл robots.txt можно добавлять комментарии, поясняющие, что делают определенные правила. Комментарии должны быть в своей строке и начинаться с #.
Например, если вы хотите заблокировать все файлы, оканчивающиеся на .jpg, вы можете добавить следующий комментарий:
Запретить: /*.jpg # Блокировать все файлы, оканчивающиеся на .jpg
Это поможет любому, кому нужно управлять вашим файлом robots.txt, понять, для чего это правило и почему оно существует.
Используйте отдельный файл robots.txt для каждого субдоменаЕсли у вас есть веб-сайт с несколькими субдоменами, лучше создать отдельный файл robots.txt для каждого из них. Это помогает поддерживать порядок и облегчает поисковым роботам понимание ваших правил.
Распространенные ошибки в файле robots.txt и способы их исправленияПонимание наиболее распространенных ошибок, которые люди допускают при работе с файлами robots.txt, поможет вам избежать их самостоятельно. Вот некоторые из наиболее распространенных ошибок и способы их устранения.
Отсутствует файл robots.txtСамая распространенная ошибка в файле robots.txt — его отсутствие. Если у вас нет файла robots.txt, сканеры поисковых систем будут считать, что им разрешено сканировать весь ваш сайт.
Чтобы это исправить, вам нужно создать файл robots.txt и добавить его в корневой каталог вашего сайта.
Файл robots.txt отсутствует в каталогеЕсли у вас нет файла robots.txt в корневом каталоге вашего веб-сайта, сканеры поисковых систем не смогут его найти. В результате они будут считать, что им разрешено сканировать весь ваш сайт.
Это должно быть одно имя текстового файла, которое должно быть помещено не во вложенные папки, а в корневой каталог.
Нет URL-адреса карты сайтаВаш файл robots.txt всегда должен содержать ссылку на карту сайта вашего веб-сайта. Это помогает сканерам поисковых систем находить и индексировать ваши страницы.
Отсутствие URL-адреса карты сайта в файле robots.txt является распространенной ошибкой, которая не повредит поисковой оптимизации вашего веб-сайта, но ее добавление улучшит ее.
Блокировка CSS и JSПо словам Джона Мюллера, вы должны избегать блокировки файлов CSS и JS, поскольку поисковые роботы Google требуют, чтобы они отображали страницу правильно.
Естественно, если боты не смогут отрисовать ваши страницы, они не будут проиндексированы.
Использование NoIndex в robots.txtС 2019 г., метатег noindex robots устарел и больше не поддерживается Google. Поэтому вам следует избегать его использования в файле robots.txt.
Если вы все еще используете метатег noindex robots, вам следует как можно скорее удалить его со своего веб-сайта.
Неправильное использование подстановочных знаковНеправильное использование подстановочных знаков приведет только к ограничению доступа к файлам и каталогам, к которым вы не стремились.
При использовании подстановочных знаков будьте как можно точнее. Это поможет вам избежать ошибок, которые могут повредить SEO вашего сайта. Кроме того, придерживайтесь поддерживаемых подстановочных знаков, то есть звездочки и символа доллара.
Неверное расширение типа файлаКак следует из названия, файл robot.txt должен быть текстовым файлом, оканчивающимся на .txt. Это не может быть файл HTML, изображение или файл любого другого типа. Он должен быть создан в формате UTF-8. Полезным вводным ресурсом является руководство Google robots.txt и часто задаваемые вопросы Google Robots.txt.
Используйте файлы Robot.Txt как профессионалыФайл robots.txt — это мощный инструмент, который можно использовать для улучшения SEO вашего веб-сайта.
При правильном использовании файл robots.txt может помочь вам контролировать, какие страницы индексируются поисковыми системами, и улучшить возможности сканирования вашего веб-сайта. Это также может помочь вам избежать проблем с дублированием контента.
С другой стороны, при неправильном использовании файл robots.txt может принести больше вреда, чем пользы. Важно избегать распространенных ошибок и следовать передовым методам, которые помогут вам использовать файл robots.txt в полной мере и улучшить SEO вашего веб-сайта. В дополнение к профессиональной навигации по файлам Robot.txt, динамическая визуализация с помощью создавать статический HTML для сложных веб-сайтов Javascript. Теперь вы можете разрешить более быструю индексацию, более быстрое время отклика и общее улучшение взаимодействия с пользователем.
Что такое файл robots.txt?
Несмотря на то, что SEO-специалисты прилагают большую часть усилий для улучшения видимости страниц по соответствующим ключевым словам, в некоторых случаях требуется скрыть определенные страницы от поисковых систем.
Давайте узнаем немного больше об этой теме.
Содержание
Что такое файл robots.txt?
Robots.txt — это файл, который содержит области веб-сайта, которые роботам поисковых систем запрещено сканировать . В нем перечислены URL-адреса, которые веб-мастер не хочет индексировать в Google или любой другой поисковой системе, что не позволяет им посещать и отслеживать выбранные страницы. Мы выполняем это действие с помощью тега disallow в robots.txt, который вы увидите в примерах ниже.
Когда бот находит веб-сайт в Интернете, первое, что он делает, это проверяет файл robots.txt , чтобы узнать, что ему разрешено исследовать, а что он должен игнорировать во время обхода.
Robots.txt пример
Чтобы дать вам пример robots.txt
, вот его синтаксис:User-agent: *
# Все боты - Старые URL
Разрешить: /
Запретить: /admin/*
Что такое robots.
txt в SEOЭти теги необходимы для того, чтобы роботы Google могли найти новую страницу. Они необходимы, потому что:
- Они помогают оптимизировать краулинговый бюджет , так как паук будет посещать только то, что действительно важно, и будет более эффективно использовать свое время при сканировании страницы. Примером страницы, которую вы бы не хотели, чтобы Google нашел, является «страница благодарности». 903:00
- Файл Robots.txt — хороший способ принудительно проиндексировать страницы, указывая страницы.
- Файлы robots.txt контролируют доступ поисковых роботов к определенным областям вашего сайта.
- Они могут обеспечить безопасность целых разделов веб-сайта, поскольку вы можете создавать отдельные файлы robots.txt для каждого корневого домена. Хорошим примером является, как вы уже догадались, страница сведений о платеже, конечно.
- Вы также можете заблокировать отображение страниц результатов внутреннего поиска в поисковой выдаче.
- Robots.txt может скрывать файлы, которые не должны индексироваться, например PDF-файлы или определенные изображения.
Где найти robots.txt
Файлы robots.txt являются общедоступными. Вы можете просто ввести корневой домен и добавить /robots.txt в конец URL-адреса, и вы увидите файл… если он есть!
Предупреждение. Не указывайте личную информацию в этом файле.
Вы можете найти и отредактировать файл в корневом каталоге вашего хостинга, проверив файлы admin или FTP сайта.
Как редактировать robots.txt
Вы можете сделать это самостоятельно
- Создать или отредактировать файл с помощью текстового редактора
- Назовите файл robots.txt без каких-либо изменений, например, используя заглавные буквы.
Вот пример, когда вы хотите просканировать сайт. Обратите внимание, как мы используем тег disallow в robots.txt.
Агент пользователя: *
Запретить:
Обратите внимание, что мы оставили «Запретить» пустым, что указывает на то, что нет ничего, что нельзя было бы сканировать.
Если вы хотите заблокировать страницу, добавьте это (на примере «страницы благодарности»):
User-agent: *
Disallow: /thank-you/
- Используйте отдельный файл robots.txt для каждого поддомена.
- Поместите файл в каталог верхнего уровня веб-сайта.
- Вы можете протестировать файлы robots.txt с помощью инструментов Google для веб-мастеров, прежде чем загружать их в корневой каталог.
- Обратите внимание, что FandangoSEO — это 9 лучших0015 программа проверки robots.txt. Используйте его, чтобы следить за ними!
Посмотрите, не так уж сложно настроить файл robots.txt и отредактировать его в любое время. Просто имейте в виду, что все, что вы хотите от этого действия, — это максимально использовать посещения ботов. Блокируя им просмотр нерелевантных страниц, вы гарантируете, что их время, проведенное на веб-сайте, будет намного более прибыльным.
Наконец, помните, что лучшая практика SEO для robots. txt заключается в том, чтобы убедиться, что весь соответствующий контент индексируется и готов к сканированию! Вы можете увидеть процент индексируемых и неиндексируемых страниц среди общего числа страниц сайта с помощью сканирования FandangoSEO, а также страниц, заблокированных файлом robots.txt.
Примеры использования файла robots.txt
Файл robots.txt управляет доступом сканера к некоторым областям веб-сайта. Иногда это может быть рискованно, особенно если роботу GoogleBot случайно не разрешено сканировать весь сайт, но бывают ситуации, когда может пригодиться файл robots.txt .
В некоторых случаях рекомендуется использовать robots.txt:
- Когда вы хотите сохранить конфиденциальность некоторых разделов веб-сайта 0016, например, потому что это тестовая страница.
- Чтобы избежать появления дублирующегося контента на странице результатов Google, еще более желательным вариантом являются мета-боты.
- Когда вы не хотите, чтобы страницы результатов внутреннего поиска отображались на общедоступной странице результатов .
- Указать расположение карты сайта .
- К запретить поисковым системам индексировать определенные файлы на веб-сайте.
- Для укажите задержку сканирования , чтобы избежать перегрузки сервера, когда сканеры загружают несколько фрагментов контента одновременно.
Если на сайте нет областей, где вы хотите контролировать доступ агента пользователя, вам может не понадобиться файл robots-txt.
Robots.txt SEO Best Practices
Следуйте этим советам, чтобы правильно управлять файлами robots.txt :
Не блокируйте контент, который вы хотите отслеживать
Вы также не должны блокировать разделы веб-сайта, которые необходимо отслеживать .
Имейте в виду, что боты не будут переходить по ссылкам страниц, заблокированных robots.
txtЕсли они также не связаны с другими страницами, к которым поисковые системы могут получить доступ, поскольку они не были заблокированы, связанные ресурсы не будут сканироваться и не могут быть проиндексированы .
Кроме того, значение ссылки не может быть передано с заблокированной страницы на место назначения ссылки. Если у вас есть страницы, которым вы хотите предоставить права доступа, вы должны использовать механизм блокировки, отличный от robots.txt.
Не используйте robots.txt, чтобы избежать отображения конфиденциальных данных на странице результатов поисковой системы
Другие страницы могут напрямую ссылаться на страницу, содержащую конфиденциальную информацию (таким образом, вы избегаете рекомендаций robots.txt в вашем корневом домене или домашней странице) , поэтому он все еще может быть проиндексирован.
Чтобы страница не отображалась в результатах поиска Google, следует использовать другой метод, например защиту паролем или метатег noindex.
Помните, что некоторые поисковые системы имеют несколько пользовательских агентов
Google, например, использует GoogleBot для обычного поиска и GoogleBot-Image для поиска изображений.
Большинство пользовательских агентов одной и той же поисковой системы следуют одним и тем же правилам, поэтому вам не нужно указывать рекомендации для каждого сканера поисковой системы, но это позволяет вам контролировать, как будет сканироваться содержимое сайта.
Поисковая система кэширует содержимое robots.txt, но обычно обновляет кэшированные данные ежедневно
Если вы изменяете файл и хотите обновлять его быстрее, вы можете отправить URL-адрес robots.txt в Google.
Ограничения файла robots.txt
Наконец, мы увидим, какие аспекты ограничивают функцию файла robots.txt:
Страницы будут по-прежнему отображаться в результатах поиска
файл robots.txt, но имеющие ссылки на них, могут по-прежнему отображаться в результатах поиска со сканируемой страницы.