Файл .htaccess и robot.txt — настройка, выбор главного зеркала сайта
Здравствуйте, уважаемые читатели моего блога! В этой статье я расскажу о файлах .htaccess и robots.txt — как их грамотно настроить. Это крайне важные файлы, которые позволяют задать главное зеркало сайта (склеить домены с www и без), настроить индексацию страниц, создать редирект 301. Дополнительно рассмотрим порядок действий при переезде со старого домена на новый.
Файл .htaccess и главное зеркало сайта
Каждый интернет ресурс имеет два зеркала — с приставкой www и без нее. Чтобы поисковики не воспринимали эти зеркала как два разных сайта с одинаковым контентом, необходимо выбрать из них главное и настроить редирект 301 на него, со второго зеркала. Тогда оба зеркала поисковиками будут восприниматься как единое целое и не будет играть роли, на какое из них ссылаются сторонние сайты — редирект позволит автоматически перекидывать пользователя на нужный адрес. Для этого необходимо создать и настроить файл . (.*)$ http://www.adres_saita.ru/$1 [R=301,L]
Только не забудьте вписать свой URL адрес. После этого еще необходимо прописать директиву Host в фале robots.txt, о чем читайте в следующем пункте.
Robots.txt — настройка индексации страниц сайта
Файл robots.txt указывает поисковикам, какие страницы сайта им можно индексировать, а какие нельзя. Для его создания можно воспользоваться любым текстовым редактором, даже блокнотом. Так же как файл .htaccess, robots.txt следует загрузить на ftp в корневую папку. Теперь рассмотрим основные директивы, которые следует прописывать в robots.txt.
User-agent — в этой директиве прописываются поисковые боты, для которых действуют указанные ниже настройки. Если указать символ *, то настройки будут относится ко всем поисковикам:
User-agent: * |
Вот список имен ботов самых популярных поисковых систем:
Google Googlebot Яндекс Yandex Rambler StackRambler Mail. ru Mail.Ru Yahoo! Slurp (или Yahoo! Slurp) Alexa ia_archiver |
После User-agent обязательно должна следовать директива Disallow или Allow.
Директива Disallow используется для запрета индексации всего сайта целиком или каких-то его страниц. Allow наоборот разрешает индексацию, в ней можно задавать исключения из правил, указанных в директиве Disallow.
Следует соблюдать следующие правила:
- Недопустимо наличие пустых строк между директивами ‘User-agent’ и ‘Disallow’ (‘Allow’), а также между самими директивами ‘Disallow’ и ‘Allow’.
- Перед каждой новой директивой ‘User-agent’ обязательно оставляйте пустую строку.
- После названия директивы ставьте .
- Allow и Disallow из соответствующего блока User-agent сортируются по длине URL (от меньшего к большему) и применяются последовательно. Если для данной страницы подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке. Этот пункт будет более понятен после рассмотрения примеров, приведенных ниже.
- при отсутствии параметров в директивах Allow и Disallow, индексация соответственно запрещается или разрешается для всех страниц сайта.
Теперь рассмотрим примеры, чтобы все стало более понятно.
User-agent: * Disallow: |
Звездочка в директиве User-agent указывает на то, что приведенные ниже настройки относятся ко всем поисковикам. Отсутствие параметров в Disallow соответствует разрешению индексации всего сайта.
User-agent: Googlebot Allow: /zapisi Disallow: / |
Настройки относятся только к роботу Гугла. Они предписывают запретить индексацию всего сайта, кроме страниц из /zapisi. Порядок следования Allow и Disallow не имеет значения, главное длина URL — в директиве Allow он длиннее, поэтому является исключением из правил, указанных в Disallow.
Помимо этого можно использовать спец символы — «*» и «$»:
* — любая (в том числе пустую) последовательность символов. По-умолчанию в конце каждого правила добавляется символ «*»:
Disallow: /indeksaciya = Disallow: /indeksaciya* |
Это означает запрет индексации всех страниц, которые начинаются с «/indeksaciya», то есть /indeksaciya, /indeksaciya. html и другие. Символ $ позволяет отметить действие *, тем самым конкретизировать правило:
Disallow: /indeksaciya$ |
В этом случае запрет будет распространятся только на /indeksaciya, но не на /indeksaciya.html.
Директивы Host и Sitemap воспринимается только ботами яндекса и служат для указания главного зеркала и адреса карты сайта.
Обязательно отделите данный блок от остальных настроек robots.txt пустой строкой.
Для зеркала с www:
User-agent: Yandex Disallow: Host: www.vash_site.ru Sitemap: http://www.vash_site.ru/sitemap.xml.gz Sitemap: http://www.vash_site.ru/sitemap.xml |
Для зеркала без www:
User-agent: Yandex Disallow: Host: vash_site.ru Sitemap: http://vash_site.ru/sitemap.xml.gz Sitemap: http://vash_site.ru/sitemap.xml |
Порядок переезда со старого домена на новый
Переезд со старого домена на новый является частным случаем склейки зеркал сайта. staryj_adres.ru$ RewriteRule (.*) http://novyj_adres.ru/$1 [R=301,L]
Не забывайте указывать именно главные зеркала — с приставкой www или без нее.
5. Склейка займет определенное время, на протяжении которого оба интернет портала должны быть доступны.
На этом все, спасибо за внимание! Подписывайтесь на новости блога. Всех вам благ!
Лучший способ выразить благодарность автору — поделиться с друзьями!
Узнавайте о появлении нового материала первым! Подпишитесь на обновления по email:
Следите за обновлениями в Twitter и RSS.
Склейка зеркал сайта Joomla, два способа
Вступление
С первых шагов создания сайта нужно думать о его поисковой оптимизации. Одним из важных моментов оптимизации является склейка зеркал сайта. Так как изначально (при покупке хостинга) ваш сайт доступен по двум адресам ваш_сайт.com и www.ваш_сайт.com поисковые машины изначально будут держать в поисковой выдаче страницы сайта с wwwтак и без www. Для объединения поисковой выдаче по зеркальным доменам и предназначена склейка зеркал.
Замечу, что поисковые машины не будут держать в памяти зеркальные сайты, как разные ресурсы. И даже если не предпринять никаких мер по склейке зеркал , в конце концов ,поисковики сами выберут главное зеркало сайта и только главное зеркало, будет участвовать в выдаче. Правда, стоит отметить, что разные поисковики по-разному определяют главное зеркала сайта. Из- за этого, два основных способа склейки зеркал сайта, нужно по-разному использовать для оптимизации у разных поисковых машин. Разберем основные способы склейки зеркал сайта подробнее.
Два способа склейки зеркал сайта
Чтобы склеить зеркала сайта и из всех из них выделить главное зеркало сайта, домен который будет участвовать в поисковой выдаче, существуют два основных метода. Первый, при помощи дополнительно директивы в файле Robots.txt сайта и второй, при помощи дополнительной функции прописанной в файле .htaccess сайта.
Склейка зеркал сайта Joomla при помощи файла robots.
txtЭтот метод склейки зеркал сайта работает только для поисковика Яндекс
Файл Robots.txt это своеобразные правила для поисковых машин, как сканировать сайт. Прописывая в файле robots.txt дополнительную директорию Host, вы можете указать, какое зеркало вашего сайта главное.
Синтаксис директории Host следующий:
Директива Host для главного зеркала www.glavnoye-zerkalo.ru
#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то #robots.txt для всех сайтов из группы зеркал выглядит так User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye-zerkalo.ru
Правильное применение директивы Host.сразу после Disallow.
#Пример корректно составленного robots.txt, при обработке #которого директива Host учитывается User-Agent: * Disallow: Host: www.myhost.ru
Примеры игнорируемых директиы Host из-за ошибок оформления
# Примеры игнорируемых директив Host Host: www. myhost-.ru Host: www.-myhost.ru Host: www.myhost.ru:100000 Host: www.my_host.ru Host: .my-host.ru:8000 Host: my-host.ru. Host: my..host.ru Host: www.myhost.ru/ Host: www.myhost.ru:8080/ Host: http://www.myhost.ru Host: 213.180.194.129 Host: www.firsthost.ru,www.secondhost.ru Host: www.firsthost.ru www.secondhost.ru
Примеры применения директив Host
# domen.myhost.ru является главным зеркалом # www.domen.myhost.ru, тогда корректное использование # директивы Host такое: User-Agent: * Disallow: Host: domen.myhost.ru # domen.myhost.ru является главным зеркалом # www.domen.myhost.ru, тогда некорректное использование # директивы Host такое: User-Agent: * Disallow: Host: myhost.ru
Но прописка директории Host в файле robots.txt не работает для поисковика Google, Bing и многих других. Для указания этим поисковикам, какое зеркало вашего сайта главное, нужно использовать 301 редирект прописанный в файле . (.*)$ http:// examle.edu /$1 [R=301,L] Важно! При использовании функции mod_rewrite она должна поддерживаться вашим хостингом. Кроме этого для CMS Joomla,нужно включить mod_rewrite.Сделать это можно следующим образом: 1.Если вы не установили SEO компоненты для своего сайта, нужно включить Перенаправление URL в административной панели >>> Сайт >>> Общие настройки >>> SEO настройки. 2.если вы установили один из SEO компонентов Joomla (Artio JoomSEF или sh504), то mod_rewrite включается непосредственно из панелей этих расширений. Там же можете сделать 301 зеркал сайта. Если не предпринимать никаких действий по изменению robots.txt и htaccess сайта. Для склейки зеркал, рано или поздно, поисковики сами определят из двух сайтов с одинаковым содержанием, какой выбрать за главное зеркало, а какой за второстепенное. Если у вас на сайте еще нет проиндексированный страниц, для Яндекс можно указать главное зеркало в инструментах веб мастеров Яндекс. Веб мастер Яндекс>>> Мои сайты>>> Общие настройки >>> Настройки оптимизации >>> Главное зеркало, где указываете, какой домен является главным или оставляете выбор на усмотрение робота. Примечание: Автоматическая склейка зеркал, возможна только для сайтов с одинаковым контентом (содержанием) Если применить два метода склейки зеркал (при помощи robots.txt и .hteccess) одновременно, то поисковик Яндекс может отреагировать на это отрицательно. Поэтому, если вы не оптимизируете сайт для определенного одного поисковика, то сначала нужно прописать директиву Hostв файле robots.txt ,для поисковика Яндекс. Дождаться когда Яндекс склеит зеркала. А уж потом прописать 301 редирект в файле .htaccess. На этом все. Этими способами склейка зеркал сайта Joomla может быть осуществлена! ©Joomla-abc.ru Powered by JV-Relatives Задавать вопрос спросил Автоматическая склейка зеркал сайта Joomla
В какой последовательности использовать склейку зеркал при помощи robots.txt и .hteccess
Другие статьи раздела: Поисковая оптимизация Joomla
mod rewrite — отразить определенный путь к другому URL-адресу, используя .
htaccess
Изменено 8 лет, 2 месяца назад
Просмотрено 665 раз
Я хотел бы использовать два отдельных URL-адреса, указывающих на два разных веб-сайта, используя один хостинг и один сервер. 9(.*)$ index.php?/$1 [L]
Я хотел бы добиться следующих вещей:
- domain1.com/specific_folder_name/123456789 должен указывать на domain2.com/123456789 только для косметики
- domain2.com/123456789 должен работать /index.php?/specific_folder_name/123456789
Должно получиться так:
при переходе на domain1.com/param1/param2 сервер выдает вам index.php?/param1/param2 при переходе на domain1. com/specific_folder_name/123456789вы перенаправляетесь на domain2.com/123456789, и сервер выдает вам /index.php?/specific_folder_name/123456789
Надеюсь, это достаточно ясно…
- .htaccess
- mod-rewrite
Эта директива позволяет отображать удаленные серверы в пространство локальный сервер; локальный сервер не выступает в качестве прокси в в обычном смысле, но выглядит как зеркало удаленного сервера. Локальный сервер часто называют обратным прокси или шлюзом. Путь имя локального виртуального пути; url — это частичный URL для удаленный сервер и не может включать строку запроса.
подробнее
Зарегистрируйтесь или войдите в систему
Зарегистрируйтесь с помощью Google Зарегистрироваться через Facebook Зарегистрируйтесь, используя электронную почту и парольОпубликовать как гость
Электронная почтаТребуется, но никогда не отображается
Опубликовать как гость
Электронная почтаТребуется, но не отображается
Нажимая «Опубликовать свой ответ», вы соглашаетесь с нашими условиями обслуживания и подтверждаете, что прочитали и поняли нашу политику конфиденциальности и кодекс поведения.