Файл роботс тхт создать онлайн – Robots.txt: как создать, настроить и проверить файл роботс для сайта

Содержание

Создание robots.txt онлайн

Запрет индексации для следующих ботов:

 Для всех
 Яндекс
 Google
 Mail.ru
 Рабмлер
 Бинг
 Yahoo

Основной домен сайта:

Таймаут между переходами робота по страницам:
1 секунда5 секунд10 секунд60 секунд

Запрет индексации разделов, страниц:
   Пример:
   /contacts/
   /category1/
   /category2/
   /page.html
Пусть к карте сайте, sitemap.xml:

Готовый robots.txt:

Сохраните данные в файл «robots.txt» и скопируйте в конревую папку сайта.

Для чего предназначен инструмент «Генератор robots.txt»

Сервис cy-pr.com представляет вам инструмент «Генератор robots.txt», с помощью которого можно в режиме онлайн за несколько секунд создать файл robots.txt, а также установить запрет на индексацию страниц сайта определенными поисковыми системами.

Что такое robots.txt

Robots.txt – это файл, который расположен в корне сайта и в котором содержатся указания для поисковых ботов. Заходя на любой ресурс, роботы начинают с ним знакомство с файла robots.txt – своеобразной «инструкции по применению». Издатель указывает в данном файле, как роботу необходимо взаимодействовать с ресурсом. Например, здесь может содержаться запрет индексации некоторых страниц или рекомендация о соблюдении временного интервала между сохранением документов с веб-сервера.

Возможности инструмента

Веб-мастер может установить запрет на индексацию роботами поисковых систем Яндекс, Google, Mail.ru, Рамблер, Bing или Yahoo!, а также задать тайм-аут между переходами поискового робота по страницам ресурса и запретить индексацию избранных страниц сайта. Кроме этого, в специальной строке можно указать поисковым роботам путь к карте сайта (sitemap.xml).

После того, как вы заполните все поля инструмента и нажмете кнопку «Создать», система автоматически сгенерирует файл для поисковых ботов, который вы должны будете разместить в корневой зоне вашего сайта.

Обратите внимание, что файл robots.txt нельзя применять для скрытия страницы из результатов поиска, потому что на нее могут ссылаться иные ресурсы, и поисковые роботы так или иначе ее проиндексируют. Напоминаем, что для блокировки страницы в результатах поисковой выдачи используется специальный тег «noindex» или устанавливается пароль.

Стоит также отметить, что с помощью инструмента «Генератор robots.txt» вы создадите файл исключительно рекомендательного характера. Само собой, боты «прислушиваются» к указаниям, оставленным для них веб-мастерами в файле robots.txt, но иногда игнорируют их. Почему так происходит? Потому, что каждый поисковый робот имеет свои настройки, согласно которым он интерпретирует информацию, полученную из файла robots.txt.

www.cy-pr.com

Генератор robots.txt 🔧

Запрет индексации для следующих ботов:

 Для всех
 Яндекс
 Google
 Mail.ru
 Рабмлер
 Бинг
 Yahoo

Основной домен сайта:

Таймаут между переходами робота по страницам:
1 секунда5 секунд10 секунд60 секунд

Запрет индексации разделов, страниц:
   Пример:
   /contacts/
   /category1/
   /category2/
   /page.html
Пусть к карте сайте, sitemap.xml:

Готовый robots.txt:

Сохраните данные в файл «robots.txt» и скопируйте в конревую папку сайта.

Для чего предназначен инструмент «Генератор robots.txt»

С помощью «Генератор robots.txt» можно в режиме онлайн за несколько секунд создать файл robots.txt, а также установить запрет на индексацию страниц сайта определенными поисковыми системами.

Что такое robots.txt

Robots.txt – это файл, который расположен в корне сайта и в котором содержатся указания для поисковых ботов. Заходя на любой ресурс, роботы начинают с ним знакомство с файла robots.txt – своеобразной «инструкции по применению». Издатель указывает в данном файле, как роботу необходимо взаимодействовать с ресурсом. Например, здесь может содержаться запрет индексации некоторых страниц или рекомендация о соблюдении временного интервала между сохранением документов с веб-сервера.

Возможности инструмента

Веб-мастер может установить запрет на индексацию роботами поисковых систем Яндекс, Google, Mail.ru, Рамблер, Bing или Yahoo!, а также задать тайм-аут между переходами поискового робота по страницам ресурса и запретить индексацию избранных страниц сайта. Кроме этого, в специальной строке можно указать поисковым роботам путь к карте сайта (sitemap.xml).

После того, как вы заполните все поля инструмента и нажмете кнопку «Создать», система автоматически сгенерирует файл для поисковых ботов, который вы должны будете разместить в корневой зоне вашего сайта.

Обратите внимание, что файл robots.txt нельзя применять для скрытия страницы из результатов поиска, потому что на нее могут ссылаться иные ресурсы, и поисковые роботы так или иначе ее проиндексируют. Напоминаем, что для блокировки страницы в результатах поисковой выдачи используется специальный тег «noindex» или устанавливается пароль.

Стоит также отметить, что с помощью инструмента «Генератор robots.txt» вы создадите файл исключительно рекомендательного характера. Само собой, боты «прислушиваются» к указаниям, оставленным для них веб-мастерами в файле robots.txt, но иногда игнорируют их. Почему так происходит? Потому, что каждый поисковый робот имеет свои настройки, согласно которым он интерпретирует информацию, полученную из файла robots.txt.

i-leon.ru

Генератор Robots.txt

По умолчанию — все роботы: РазрешенноеОтклоненное  
   
Crawl-Delay: По умолчанию — без задержки5 Seconds10 Seconds20 Seconds60 seconds120 Seconds
   
Sitemap: (оставьте пустым, если у Вас нет) 
     
Поисковые роботы: Google Same as DefaultРазрешенноеОтклоненное
  Google Image Same as DefaultРазрешенноеОтклоненное
  Google Mobile Same as DefaultРазрешенноеОтклоненное
  MSN Search Same as DefaultРазрешенноеОтклоненное
  Yahoo Same as DefaultРазрешенноеОтклоненное
  Yahoo MM Same as DefaultРазрешенноеОтклоненное
  Yahoo Blogs Same as DefaultРазрешенноеОтклоненное
  Ask/Teoma Same as DefaultРазрешенноеОтклоненное
  GigaBlast Same as DefaultРазрешенноеОтклоненное
  DMOZ Checker Same as DefaultРазрешенноеОтклоненное
  Nutch Same as DefaultРазрешенноеОтклоненное
  Alexa/Wayback Same as DefaultРазрешенноеОтклоненное
  Baidu Same as DefaultРазрешенноеОтклоненное
  Naver Same as DefaultРазрешенноеОтклоненное
  MSN PicSearch Same as DefaultРазрешенноеОтклоненное
   
Запрещенные каталоги: Путь относительно корня должен содержать косую черту «/»
 
 
 
 
 
 
   

tools.saitreport.ru

Как правильно создать robots.txt для сайта – полное руководство

Как создать robots.txt для сайта

От автора: поисковые роботы могут стать вашими друзьями, либо врагами. Все зависит от того, какие вы им дадите команды. Сегодня разберемся, как правильно создать robots.txt для сайта.

Создание самого файла

Robots.txt – это файл с инструкциями для поисковых роботов. Он создается в корне сайта. Вы можете прямо сейчас создать его на своем рабочем столе при помощи блокнота, как создается любой текстовый файл.

Для этого жмем правой кнопкой мыши по пустому пространству, выбираем Создать – Текстовый документ (не Word). Он откроется с помощью обычного блокнота. Назовите его robots, расширение у него и так уже правильное – txt. Это все, что касается создания самого файла.

Как создать robots.txt для сайта

Как составить robots.txt

Теперь остается заполнить файл нужными инструкциями. Собственно, у команд для роботов простейший синтаксис, намного проще, чем в любом языке программирования. Вообще заполнить файл можно двумя способами:

Как создать robots.txt для сайта

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

Посмотреть у другого сайта, скопировать и изменить под структуру своего проекта.

Написать самому

О первом способе я уже писал в предыдущей статье. Он подходит, если у сайтов одинаковые движки и нет существенной разницы в функционале. Например, все сайты на wordpress имеют одинаковую структуру, однако могут быть различные расширения, вроде форума, интернет-магазина и множества дополнительных каталогов. Если вы хотите знать, как изменить robots.txt читайте эту статью, можно также ознакомиться с предыдущей, но и в этой будет сказано достаточно много.

Например, у вас на сайте есть каталог /source, где хранятся исходники к тем статьям, что вы пишите на блог, а у другого веб-мастера нет такой директории. И вы, к примеру, хотите закрыть папку source от индексации. Если вы скопируете robots.txt у другого ресурса, то там такой команды не будет. Вам придется дописывать свои инструкции, удалять ненужное и т.д.

Так что в любом случае полезно знать основы синтаксиса инструкций для роботов, который вы сейчас и разберем.

Как писать свои инструкции роботам?

Как создать robots.txt для сайта

Первое, с чего начинается файл, это с указания того, к каким именно поисковым машинам обращены инструкции. Это делается так:

User-agent: Yandex Или User-agent: Googlebot

User-agent: Yandex

Или

User-agent: Googlebot

Никаких точек с запятой в конце строчки ставить не нужно, это вам не программирование). В общем, тут понятно, что в первом случае инструкции будет читать только бот Яндекса, во втором – только Гугла. Если команды должны быть выполнены всеми роботами, пишут так: User-agent:

Команды

Отлично. С обращением к роботам мы разобрались. Это несложно. Вы можете представить это на простом примере. У вас есть трое младших братьев, Вася, Дима и Петя, а вы главный. Родители ушли и сказали вам, чтобы вы следили за ними.

Все трое чего-то просят у вас. Представь, что нужно дать им ответ так, как будто пишешь инструкции поисковым роботам. Это будет выглядеть примерно так:

User-agent: Vasya Allow: пойти на футбол User-agent: Dima Disallow: пойти на футбол (Дима в прошлый раз разбил стекло соседям, он наказан) User-agent: Petya Allow: сходить в кино (Пете уже 16 и он вообще в шоке, что должен у тебя еще и разрешения спрашивать, ну да ладно, пусть идет).

User-agent: Vasya

Allow: пойти на футбол

User-agent: Dima

Disallow: пойти на футбол (Дима в прошлый раз разбил стекло соседям, он наказан)

User-agent: Petya

Allow: сходить в кино (Пете уже 16 и он вообще в шоке, что должен у тебя еще и разрешения спрашивать, ну да ладно, пусть идет).

Таким образом, Вася радостно зашнуровывает кроссовки, Дима с опущенной головой смотрит в окно на брата, который уже думает, сколько голов забьет сегодня (Дима получил команду disallow, то есть запрет). Ну а Петя отправляется в свое кино.

Из этого примера несложно понять, что Allow – это разрешение, а Disallow – запрет. Но в robots.txt мы не людям раздаем команды, а роботам, поэтому вместо конкретных дел там прописываются адреса страниц и каталогов, которые нужно разрешить или запретить индексировать.

Например, у меня есть сайт site.ru. Он на движке wordpress. Начинаю писать инструкции:

Как создать robots.txt для сайта

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее

User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/ Allow: /wp-content/uploads/ Disallow: /source/ Ну и т.д.

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Allow: /wp-content/uploads/

Disallow: /source/

Ну и т.д.

Во-первых, я обратился ко всем роботам. Во-вторых, поставил запрет на индексацию папок самого движка, но при этом открыл роботу доступ к папке с загрузками. Там обычно хранятся все картинки, а их обычно не закрывают от индексации, если планируется получать трафик с поиска по картинкам.

Ну и помните, я ранее в статье говорил о том, что у вас могут быть дополнительные каталоги? Вы можете их создать самостоятельно для различных целей. Например, на одном из моих сайтов есть папка flash, куда я кидаю флэш-игры, чтобы потом их запустить на сайте. Либо source – в этой папке могут хранится файлы, доступные пользователям для загрузки.

В общем, абсолютно неважно, как называется папка. Если ее нужно закрыть, указываем путь к ней и команду Disallow.

Команда Allow нужна как раз для того, чтобы уже в закрытых разделах открыть какие-то части. Ведь по умолчанию, если у вас не будет файла robots.txt, весь сайт будет доступен к индексированию. Это и хорошо (уж точно что-то важное не закроете по ошибке), и в то же время плохо (будут открыты файлы и папки, которых не должно быть в выдаче).

Чтобы лучше понять этот момент, предлагаю еще раз просмотреть этот кусок:

Disallow: /wp-content/ Allow: /wp-content/uploads/

Disallow: /wp-content/

Allow: /wp-content/uploads/

Как видите, сначала мы ставим запрет на индексацию всего каталога wp-content. В нем хранятся все ваши шаблоны, плагины, но там же есть и картинки. Очевидно, что их то можно и открыть. Для этого нам и нужна команда Allow.

Дополнительные параметры

Перечисленные команды – не единственное, что можно указать в файле. Также есть такие: Host – указывает главное зеркало сайта. Кто не знал, у любого сайта по умолчанию есть два варианта написания его доменного имени: domain.com и www.domain.com.

Чтобы не возникло проблем, необходимо указать в качестве главного зеркала какой-то один вариант. Это можно сделать как в инструментах для веб-мастеров, как и в файле Robots.txt. Для этого пишем: Host: domain.com

Что это дает? Если кто-то попытается попасть на ваш сайт так: www.domain.com – его автоматически перекинет на вариант без www, потому что он будет признан главным зеркалом.

Вторая директива – sitemap. Я думаю вы уже поняли, что в ней задается путь к карте сайта в xml-формате. Пример: http://domain.com/sitemap.xml

Опять же, загрузить карту вы можете и в Яндекс.Вебмастере, также ее можно указать в robots.txt, чтобы робот прочитал эту строчку и четко понял, где ему искать карту сайта. Для робота карта сайта так же важна, как для Васи – мяч, с которым он пойдет на футбол. Это все равно, что он спрашивает у тебя (как у старшего брата) где мяч. А ты ему:

User-agent: Vasya Sitemap: посмотри в зале за диваном

User-agent: Vasya

Sitemap: посмотри в зале за диваном

Теперь вы знаете, как правильно настроить и изменить robots.txt для яндекса и вообще любого другого поисковика под свои нужды.

Что дает настройка файла?

Об этом я также уже говорил ранее, но скажу еще раз. Благодаря четко настроенному файлу с командами для роботов вы сможете спать спокойнее зная, что робот не залезет в ненужный раздел и не возьмет в индекс ненужные страницы.

Я также говорил, что настройка robots.txt не спасает от всего. В частности, она не спасает от дублей, которые возникает из-за того, что движки несовершенны. Прям как люди. Вы то разрешили Васе идти на футбол, но не факт, что он там не натворит того же, что и Дима. Вот так и с дублями: команду дать можно, но точно нельзя быть уверенным, что что-то лишнее не пролезет в индекс, испортив позиции.

Дублей тоже не нужно бояться, как огня. Например, тот же Яндекс более менее нормально относится к сайтам, у которых серьезные технические косяки. Другое дело, что если запустить дело, то и вправду можно лишиться серьезного процента трафика к себе. Впрочем, скоро в нашем разделе, посвященном SEO, будет статья о дублях, тогда и будем с ними воевать.

Как мне получить нормальный robots.txt, если я сам ничего не понимаю?

В конце концов, создание robots.txt — это не создание сайта. Как-то попроще, поэтому вы вполне можете банально скопировать содержимое файла у любого более менее успешного блоггера. Конечно, если у вас сайт на WordPress. Если он на другом движке, то вам и сайты нужно искать на этих же cms. Как посмотреть содержимое файла на чужом сайте я уже говорил: Domain.com/robots.txt

Итог

Я думаю, тут больше не о чем говорить, потому что не надо делать составление инструкций для роботов вашей целью на год. Это та задача, которую под силу выполнить даже новичку за 30-60 минут, а профессионалу вообще всего-то за пару минут. Все у вас получиться и можете в этом не сомневаться.

А чтобы узнать другие полезные и важные фишки для продвижения и раскрутки блога, можете посмотреть наш уникальный курс по раскрутке и монетизации сайта. Если вы примените оттуда 50-100% рекомендаций, то сможете в будущем успешно продвигать любые сайты.

Как создать robots.txt для сайта

Практический курс по верстке адаптивного сайта с нуля!

Изучите курс и узнайте, как верстать современные сайты на HTML5 и CSS3

Узнать подробнее Как создать robots.txt для сайта

Хотите узнать, что необходимо для создания сайта?

Посмотрите видео и узнайте пошаговый план по созданию сайта с нуля!

Смотреть

webformyself.com

Правильный robots txt для сайта, инструкция новичкам

                                                                                                                                                                                          

Здравствуйте друзья! В статье показано, что такое правильный robots txt для сайта, где он находится, способы создания файла robots, как адаптировать под себя файл robots с другого сайта, как его залить к себе на блог.

Что такое файл robots txt, зачем он нужен и за что он отвечает

Файл robots txtФайл robots txt, это текстовый файл, который содержит инструкции для поисковых роботов. Перед обращением к страницам Вашего блога, робот ищет первым делом файл robots, поэтому он так важен. Файл robots txt это стандарт для исключения индексации роботом тех или иных страниц. От файла robots txt будет зависеть попадание в выдачу Ваших конфиденциальных данных. Правильный robots txt для сайта поможет в его продвижении, поскольку он является важным инструментов во взаимодействии Вашего сайта и поисковых роботов.

Не зря файл robots txt называют важнейшим инструментом SEO, этот маленький файл напрямую влияет на индексацию страниц сайта и сайта в целом. И наоборот, неправильный robots txt может исключить некоторые страницы, разделы или сайт в целом из поисковой выдачи. В этом случае можно иметь и 1000 статей на блоге, а посетителей на сайте просто не будет, будут чисто случайные прохожие.

На Яндекс вебмастере есть обучающее видео, в котором Яндекс сравнивает файл роботс тхт с коробкой Ваших личных вещей, которые Вы не хотите никому показывать. Чтобы посторонние не заглядывали в эту коробку, Вы её заклеиваете скотчем и пишете на ней – «Не открывать».

Роботы, как воспитанные личности, эту коробку не открывают и другим не смогут рассказать, что там находится. Если файла robots txt нет, то робот поисковой системы считает, что все файлы доступные, он откроет коробку, всё посмотрит и другим расскажет, что лежит в коробке. Чтобы робот не лазил в этот ящик, надо запретить ему туда лазить, делается это с помощью директивы Disallow, что переводится с английского – запретить, а Allow – разрешить.

Это обычный txt файл, который составляется в обычном блокноте или программе NotePad++, файл, который предлагает роботам не индексировать определённые страницы на сайте. Для чего это нужно:

  • правильно составленный файл robots txt не позволяет роботам индексировать всякий мусор и не забивать поисковую выдачу ненужным материалом, а также не плодить дубли страниц, что является очень вредным явлением;
  • не позволяет роботам индексировать информацию, которая нужна для служебного пользования;
  • не позволяет роботам шпионам воровать конфиденциальные данные и использования их для отправки спама.

Это не означает, что мы что-то хотим спрятать от поисковиков, что-то тайное, просто эта информация не несёт ценности ни для поисковиков, ни для посетителей. Например, страница логина, RSS ленты и т.д. Кроме того, файл robots txt указывает зеркало сайта, а также карту сайта. По умолчанию на сайте, который делается на WordPress, файла robots txt нет. Поэтому нужно создать robots txt файл и залить его в корневую папку Вашего блога, в данной статье мы рассмотрим robots txt для WordPress, его создание, корректировку и заливку на сайт. Итак, сначала мы узнаем, где находится файл robots txt?

к оглавлению ↑

Где находится robots txt, как увидеть его?

Думаю, многие новички задают себе вопрос – где находится robots txt? Находится файл в корневой папке сайта, в папке public_html, его можно увидеть достаточно просто. Вы можете зайти на хостинг, открыть папку своего сайта и посмотреть есть там этот файл или нет. В прилагаемом ниже видео, показано, как это сделать. Можно посмотреть файл и с помощью Яндекс вебмастера и Google webmaster, но об этом поговорим позже.

Есть вариант еще проще, который позволяет посмотреть не только свой robots txt, но и robots любого сайта, Вы можете robots скачать к себе на компьютер, а затем адаптировать его к себе и использовать на своём сайте (блоге). Делается это так – Вы открываете нужный Вам сайт (блог), и через слэш дописываете robots.txt (смотрите скрин)

Файл robots txt_2

и нажимаете Enter, открывается файл robots txt. В данном случае, Вы не можете видеть, где находится robots txt, но можете его посмотреть и скачать.

к оглавлению ↑

Как создать правильный robots txt для сайта

Создать robots txt для сайта можно различными вариантами:

  • использовать генераторы онлайн, которые быстро создадут файл robots txt, сайтов и сервисов, которые это умеют делать, достаточно много;
  • использовать плагины для WordPress, которые помогут решить эту задачу;
  • составить файл robots txt своими руками вручную в обычном блокноте или программе NotePad++;
  • использовать готовый, правильный robots txt с чужого сайта (блога), заменив в нем адрес своего сайта.
к оглавлению ↑

Генераторы robots txt

Итак, ранее генераторами создания файлов robots txt я не пользовался, но перед написанием данной статьи решил протестировать 4 сервиса по генерации файлов robots txt, получил определённые результаты, о них позже скажу. Вот эти сервисы:

  • SEOlib;
  • сервис PR-CY;
  • [urlspan]сервис Raskruty.ru[/urlspan];
  • seo café  зайти сюда можно по этой ссылке  — info.seocafe.info/tools/robotsgenerator.

О том, как использовать генератор robots txt на практике, подробно показано в прилагаемом ниже видео. В процессе испытания пришел к выводу, что они для этого новичкам не подходят, и вот почему? Генератор позволяет только оформить правильную запись без ошибок самого файла, а для составления правильного robots txt все равно нужно обладать знаниями, надо знать, какие папки закрыть, какие нет. По этой причине использовать генератор robots txt чтобы создать файл, новичкам не рекомендую.

к оглавлению ↑

Плагины robots txt для WordPress

Есть плагины, например, PC Robots.txt для создания файла. Этот плагин позволяет редактировать файл прямо в панели управления сайтом. Другой плагин iRobots.txt SEO – этот плагин с похожим функционалом. Вы можете найти кучу различных плагинов, которые позволяют работать с файлом robots txt. При желании Вы можете задать в поле «Поиск плагинов» словосочетание robots. txt и нажать кнопку «Поиск» и Вам будет предложено несколько плагинов. Конечно, о каждом из них надо прочитать, посмотреть отзывы.

Принцип работы плагинов robots txt для WordPress очень похож на работу генераторов. Чтобы получить правильный robots txt для сайта, нужны знания и опыт, а откуда он может быть у новичков? По моему мнению, от подобных сервисов можно получить больше вреда, чем пользы. А если устанавливать плагин, так он еще и хостинг нагрузит. По этой причине устанавливать плагин robots txt WordPress не рекомендую.

к оглавлению ↑

Создать robots txt вручную

Можно создать robots txt вручную, используя обычный блокнот или программу NotePad++, но для этого должны быть знания и опыт. Новичкам этот вариант тоже подходит мало. Но со временем, когда появится опыт, можно будет это делать, причем составить файл robots txt для сайта, прописать директивы Disallow robots, закрыть от индексации нужные папки, выполнить проверку robots и его корректировку можно всего за 10 минут. На приведенном скрине показан роботс тхт в блокноте:

Роботс тхт в блокноте

Сам порядок создания файла robots txt здесь рассматривать не будем, об этом подробно написано во многих источниках, например, в Яндекс вебмастер. Перед составлением файла роботс тхт, необходимо зайти в Яндекс Вебмастер, где подробно расписана каждая директива, что за что отвечает и на основании этой информации составить файл. (смотрите скрин).

robots txt

Кстати, новый Яндекс вебмастер предлагает подробную и развернутую информацию, статью о новом Яндекс вебмастере можно посмотреть на блоге. Точнее представлено две статьи, которые принесут большую пользу блоггерам и не только новичкам, советую прочитать.

Если Вы не новичок и хотите сделать robots txt самостоятельно, то нужно соблюдать ряд правил:

  1. Использование национальных символов в файле robots txt не допускается.
  2. Размер файла robots не должен превышать 32 Кбайт.
  3. В названии файла robots нельзя писать типа Robots или ROBOTS, файл нужно подписать именно так, как показано в статье.
  4. Каждую директиву нужно начинать с новой строки.
  5. В одной строке нельзя указывать больше одной директивы.
  6. Директива «Disallow» с пустой строкой равнозначна директиве «Allow» — разрешить, это надо помнить.
  7. Нельзя ставить пробел в начале строки.
  8. Если не сделать пробел между различными директивами «User-agent», то роботы воспримут только верхнюю директиву – остальные проигнорируют.
  9. Сам параметр директивы нужно прописать только одной строкой.
  10. Нельзя заключать параметры директивы в кавычки.
  11. Нельзя после директивы закрывать строку точкой с запятой.
  12. Если файл robots не будет обнаружен или будет пустой, то роботы будут это воспринимать, как «Всё разрешено».
  13. Можно делать комментарии в строке директивы (чтобы было понятно, что это за строка), но только после знака решетка #.
  14. Если сделать пробел между строками, то это будет означать конец директивы User-agent.
  15. В директивах «Disallow» и «Allow» должен быть указан только один параметр.
  16. Для директив, которые являются директорией ставится слэш, например – Disallow/ wp-admin.
  17. В разделе «Crawl-delay» нужно рекомендовать роботам временной интервал между скачиванием документов с сервера, обычно это 4-5 секунд.
  18. Важно — между директивами не должно быть пустых строк. Новая директива начинается через один пробел. Это означает конец правил для поискового робота, в прилагаемом видео это подробно показано. Звёздочки означают последовательность любых символов.
  19. Все правила я советую повторять отдельно для робота Яндекса, то есть все директивы, которые были прописаны для других роботов, повторить для Яндекса отдельно. В конце информации для робота Яндекса надо записать директиву хост (Host — она поддерживается только Яндексом) и указать свой блог. Хост указывает Яндексу, какое зеркало Вашего сайта главное с www или без.
  20. Кроме того в отдельной директории файла роботс тхт, то есть через пробел, рекомендуется указывать адрес карты вашего сайта. Создание файла можно сделать за несколько минут и начинается с фразы «User-agent:». Если Вы хотите закрыть от индексации, например, картинки, то надо прописать Disallow: /images/.
к оглавлению ↑

Использовать правильный robots txt с чужого сайта

Идеального файла не существует, периодически нужно пробовать экспериментировать и учитывать изменения в работе поисковых систем, учитывать те ошибки, которые со временем могут появиться на Вашем блоге. Поэтому для начала можно взять чужой проверенный файл robots txt и установить его к себе.

Обязательно надо изменить записи, которые отражают адрес Вашего блога в директории Host (смотрите скрин, смотрите также видео), а также заменить на свой адрес сайта в адресе карты сайта (две нижние строки). Со временем этот файл немного надо подкорректировать. Например, Вы обратили внимание, что у Вас начали появляться дубли страниц.

В разделе «Где находится robots txt, как увидеть», который находится выше, мы рассматривали, как посмотреть и скачать robots txt. Поэтому, нужно выбрать хороший трастовый сайт, у которого высокие показатели Тиц, высокая посещаемость, открыть и скачать правильный robots txt. Нужно сравнить несколько сайтов, выбрать для себя нужный файл роботс тхт и залить себе его на сайт.

к оглавлению ↑

Как залить на сайт файл robots txt в корневую папку сайта

Как уже писалось, после создания сайта на WordPress, по умолчанию, файл robots txt отсутствует. Поэтому его надо создать и закачать в корневую папку нашего сайта (блога) на хостинг. Закачать файл достаточно просто. На хостинге TimeWeb можно закачать напрямую, на других хостингах закачать можно либо через FileZilla, либо через FTP соединение с помощью Total Commander. В видео, которое расположено ниже, показан процесс закачки файла robots txt на хостинг TimeWeb.

к оглавлению ↑

Проверка файла robots txt

После закачки файла robots txt, нужно проверить его наличие и работу. Для этого можем посмотреть файл с браузера, как показано выше в разделе «Где находится robots txt, как увидеть». А проверить работу файла можно с помощью Яндекс вебмастера и Google webmaster. Помним, что для этого должны быть подтверждены права на управление сайтом, как в Яндексе, так и в Google.

Для проверки в Яндексе заходим в наш аккаунт Яндекс вебмастера, выбираем сайт, если у Вас их несколько. Выбираем «Настройка индексирования», «Анализ robots.txt», а дальше следуем инструкциям.

Анализ robots.txt

В Google вебмастер делаем аналогично, заходим в наш аккаунт, выбираем нужный сайт (если их несколько), нажимаем кнопку «Сканирование» и выбираем «Инструмент проверки файла robots.txt». Откроется файл robots txt, Вы можете его исправить или проверить.

Проверка robots txt

На этой же странице находятся отличные инструкции по работе с файлом robots txt, можете с ними ознакомиться. В заключении привожу видео, где показано что представляет собой файл robots txt, как его найти, как его посмотреть и скачать, как работать с генератором файла, как составить robots txt и адаптировать под себя, показана другая информация:

к оглавлению ↑

Заключение

Итак, в данной статье мы рассмотрели вопрос, что собой представляет файл robots txt, выяснили, что этот файл является очень важным для сайта. Узнали, как сделать правильный robots txt, как адаптировать файл robots txt с чужого сайта к себе, как закачать его на свой блог, как его проверить.

Из статьи стало понятно, что новичкам, на первых порах, лучше использовать готовый и правильный robots txt, но надо не забыть заменить в нем в директории Host домен на свой, а также прописать адрес своего блога в картах сайта. Скачать мой файл robots txt можно здесь. Теперь, после исправления, можете использовать файл на своем блоге.

Отдельно по файлу robots txt есть сайт Вы можете зайти на него и узнать более подробную информацию. Надеюсь, у Вас всё получится и блог будет хорошо индексироваться. Удачи Вам!

С уважением, Иван Кунпан.

P.S. Для правильного продвижения блога надо правильно писать о оптимизировать статьи на блоге, тогда  на нём будет высокая посещаемость и рейтинги. В этом Вам помогут мои инфопродукты, в которые вложен мой трёхлетний опыт. Можете получить следующие продукты:

Просмотров: 12121

Получайте новые статьи блога прямо себе на почту. Заполните форму, нажмите кнопку «Подписаться»

Вы можете почитать:

biz-iskun.ru

Как правильно создать и настроить robots.txt для сайта? FAQ

Robots.txt — текстовый документ, который размещается в корневом каталоге сайта и содержит запреты для поисковых роботов на индексацию технических страниц ресурса, с целью недопущения попадания них в поисковую выдачу.

Поисковые роботы используют сессионный принцип, во время каждой сессии робот формирует список страниц сайта, которые планирует загрузить. При заходе на сайт, робот первым делом смотрит файл robots.txt, чтобы знать что можно смотреть на сайте, а что нет.

Предлагаем посмотреть короткое видео от Яндекс, где при помощи простых сравнений наглядно рассказывается о задачах документа robots.txt:
 

Создание robots txt

01 При помощи любого текстового редактора (к примеру стандартного блокнота), создайте файл вида robots.txt.

02 Пропишите в нем индивидуальные настройки, инструкция как это сделать описанная ниже. 03 Проверьте файл при помощи сервиса Яндекс Анализ robots.txt, все технические страницы должны быть под запретом, обязательно должны быть прописаны директивы Host и Sitemap. 04 Загрузите составленный файл robots.txt в корневую директорию сайта и проверьте его доступность по адресу yoursite.ru/robots.txt.

Как правильно составить robots txt?

01Директива User-agent: содержит название поискового робота, к которому будут применены описанные ниже нее ограничения. Если использовано несколько разных директив User-agent, то перед каждой рекомендуется вставлять пустой перевод строки.Примеры User-agent: User-agent: YandexBot # для основного индексирующего робота Яндекс User-agent: Googlebot # для поискового робота компании Google User-agent: * #для всех роботов-индексаторов02Директивы Disallow и Allow: используются для запрета и разрешения доступа робота к конкретным разделам сайта. Примеры Disallow: Disallow: / # запрет на индексацию всего сайта
Disallow: /admin #для запрета индексации всех страниц на сайте, которые начинаются с «/admin» Примеры использования Disallow и Allow: User-agent: YandexBot
Disallow: / # запрещает индексировать весь сайт
Allow: /katalog # но разрешено индексировать страницы, которые начинаются с «/katalog» 03 Спецсимволы * и $ — используются для задавания определенных регулярных выражений при указании путей директив Allow и Disallow: используются для запрета и разрешения доступа робота к конкретным разделам сайта. Примеры использования: User-agent: YandexBot
Disallow: /profile/*.aspx # запрещает «/profile/example.aspx» и «/profile/private/test.aspx»
Disallow: /*private # запрещает не только «/private», но и «/profile/private»
Disallow: /admin* # запрещает индексировать страницы начинающиеся с «/admin»
Disallow: /example$ # запрещает «/example», но не запрещает «/example.html» 04 Директива Sitemap — указывает местоположение xml карты сайта, которая содержит URL адреса всех допустимых к индексированию страниц сайта. используются для запрета и разрешения доступа робота к конкретным разделам сайта. Примеры использования: User-agent: YandexBot
Allow: Sitemap: http://site.com/sitemap.xml 05 Директива Host — указывает на главное зеркало сайта, которое и будет впоследствии участвовать в поиске. Если основным зеркалом является сайт, который доступен по защищенному протоколу HTTPS, это обязательно необходимо указать. Примеры использования: User-agent: YandexBot
Allow: /
Sitemap: http://www.site.com/sitemap.xml
Host: www.site.com 06 Директива Crawl-delay — используется для минимизации нагрузок на сервер, с ее помощью можно задать период времени в секундах, который должен быть между запросами роботами страниц сайта. Примеры использования: User-agent: YandexBot
Crawl-delay: 2 # задает таймаут в 2 секунды

Рекомендуем проанализировать в ручном режиме страницы Вашего сайта, которые попали в индекс поисковых систем, сделать это можно при помощи нашего инструмента по анализу сайтов, в разделе “индексация сайта”, это поможет максимально быстро и эффективно найти все технические страницы и закрыть их посредством файла robots.txt и директивы Disallow.

 

be1.ru

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *