Sitemap директива: Директива Sitemap — Вебмастер. Справка

Содержание

Настройка файла robots.txt — Виртуальный хостинг

robots.txt — это служебный файл с инструкциями для поисковых роботов, размещаемый в корневой директории сайта (/public_html/robots.txt). С его помощью можно запретить индексирование отдельных страниц (или всего сайта), ограничить доступ для определенных роботов, настроить частоту запросов роботов к сайту и др. Корректная настройка robots.txt позволит снизить нагрузку на сайт, создаваемую поисковыми роботами.

Формат robots.txt

  • Файл содержит набор правил (директив), каждое из которых записывается с новой строки в формате имя_директивы: значение (пробел после двоеточия необязателен, но допустим).
  • Каждый блок правил начинается с директивы User-agent.
  • Внутри блока правил не должно быть пустых строк.
  • Новый блок правил отделяется от предыдущего пустой строкой.
  • В файле можно использовать примечания, отделяя их знаком #.
  • Файл должен называться именно robots.txt; написание Robots.txt или ROBOTS.TXT будет ошибочным. 

Некоторые роботы могут игнорировать отдельные директивы. Например, GoogleBot не учитывает директивы Host и Crawl-Delay; YandexDirect игнорирует общие директивы (заданные как User-agent: *), но учитывает правила, заданные специально для него.

Проверить созданный robots.txt

можно в вебмастер-сервисах Yandex или Google или в других подобных сервисах в сети.

Используемые директивы

User-agent

Все блоки правил начинаются с директивы User-agent, в которой указывается название робота, для которого задается правило. Запись вида User-agent: * означает, что правило задается для всех поисковых роботов.

Например, при следующей записи правило будет применено только к основному индексирующему боту Яндекса:

User-agent: YandexBot

Правило будет применено ко всем роботам Яндекса и Google:

User-agent: Yandex
User-agent: Googlebot

Правило будет применено вообще ко всем роботам:

User-agent: *

Disallow и Allow

Директивы используются, чтобы запретить и разрешить доступ к определенным разделам сайта.

Например, можно запретить индексацию всего сайта (Disallow: /), кроме определенного каталога (Allow: /catalog):

User-agent: имя_бота
Disallow: /
Allow: /catalog

Запретить индексацию страниц, начинающихся с /catalog, но разрешить для страниц, начинающихся с /catalog/auto и /catalog/new:

User-agent: имя_бота
Disallow: /catalog
Allow: /catalog/auto
Allow: /catalog/new

В каждой строке указывается только одна директория. Для запрещения (или разрешения) доступа к нескольким каталогам, для каждого требуется отдельная запись.

С помощью Disallow

можно ограничить доступ к сайту для нежелательных ботов, тем самым снизив создаваемую ими нагрузку. Например, чтобы запретить доступ ко всему сайту для MJ12bot и AhrefsBot — ботов сервиса majestic.com и ahrefs.com — используйте:

User-agent: MJ12bot
User-agent: AhrefsBot
Disallow: /

Аналогичным образом устанавливается блокировка и для других ботов (скажем, DotBot, SemrushBot и других).

Примечания:

  • Пустая директива Disallow: равнозначна Allow: /, то есть «не запрещать ничего».
  • В директивах может использоваться символ $ для обозначения точного соответствия указанному параметру. Например, запись Disallow: /catalog аналогична Disallow: /catalog * и запретит доступ ко всем страницам с /catalog (/catalog, /catalog1, /catalog-new, /catalog/clothes и др.).
    Использование $ это изменит. Disallow: /catalog$ запретит доступ к /catalog, но разрешит /catalog1, /catalog-new, /catalog/clothes и др.

Sitemap

При использовании файла sitemap.xml для описания структуры сайта, можно указать путь к нему с помощью соответствующей директивы:

User-agent: *
Disallow:
Sitemap: https://mydomain.com/путь_к_файлу/mysitemap.xml

Можно перечислить несколько файлов Sitemap, каждый в отдельной строке.

Host

Директива используется для указания роботам Яндекса основного зеркала сайта и полезна, когда сайт доступен по нескольким доменам.

User-agent: Yandex
Disallow: /catalog1$
Host: https://mydomain.com

Примечания:

  • Директива Host может быть только одна; если в файле указано несколько, роботом будет учтена только первая.
  • Необходимо указывать протокол HTTPS, если он используется. Если вы используете HTTP, зеркало можно записать в виде mydomain.com
  • Для корректного прочтения директивы, ее нужно указывать в блоке правил User-agent после директив Disallow и Allow.

Crawl-delay

Директива устанавливает минимальный интервал в секундах между обращениями робота к сайту, что может быть полезно для снижения создаваемой роботами нагрузки. Чем выше указанное значение, тем меньше страниц робот загрузит за сессию.

Значения можно указывать целыми или дробными числами (разделитель — точка).

User-agent: Yandex
Disallow:
Crawl-delay: 0.5

Примечания:

  • Для корректного прочтения директивы, ее нужно указывать в блоке правил User-agent после директив Disallow и Allow.
  • Для Яндекса максимальное значение в Crawl-delay — 2. Более высокое значение можно установить инструментами Яндекс.Вебмастер.
  • Для Google-бота установить частоту обращений можено в панели вебмастера Search Console.

Clean-param

Директива используется для робота Яндекса. Она позволяет исключить из индексации страницы с динамическими параметрами в URL-адресах (это могут быть идентификаторы сессий, пользователей, рефереров), чтобы робот не индексировал одно и то же содержимое повторно, повышая тем самым нагрузку на сервер.

Например, на сайте есть страницы:

www.mydomain.ru/news.html?&parm1=1&parm2=2
www.mydomain.ru/news.html?&parm2=2&parm3=3

По факту по обоим адресам отдается одна и та же страница — www. mydomain.ru/news.html, при этом в URL присутствуют дополнительные динамические параметры.

Чтобы робот не индексировал каждую подобную страницу, можно использовать директиву:

User-agent: Yandex
Disallow:
Clean-param: parm1&parm2&parm3 /news.html

Через знак & указываются параметры, которые робот должен игнорировать. Далее указывается страница, для которой применяется данное правило

С более подробной информацией о настройке директивы Clean-param рекомендуем ознакомиться в справочнике Яндекса.

 

примеры для различных CMS, правила, рекомендации

Правильная индексация страниц сайта в поисковых системах одна из важных задач, которая стоит перед владельцем ресурса. Попадание в индекс ненужных страниц может привести к понижению документов в выдаче. Для решения таких проблем и был принят стандарт исключений для роботов консорциумом W3C 30 января 1994 года — robots.txt.

Что такое Robots.txt?

Robots. txt — текстовый файл на сайте, содержащий инструкции для роботов какие страницы разрешены для индексации, а какие нет. Но это не является прямыми указаниями для поисковых машин, скорее инструкции несут рекомендательный характер, например, как пишет Google, если на сайт есть внешние ссылки, то страница будет проиндексирована.

На иллюстрации можно увидеть индексацию ресурса без файла Robots.txt и с ним.

Что следует закрывать от индексации:

  • служебные страницы сайта
  • дублирующие документы
  • страницы с приватными данными
  • результат поиска по ресурсу
  • страницы сортировок
  • страницы авторизации и регистрации
  • сравнения товаров

Как создать и добавить Robots.txt на сайт?

Robots.txt обычный текстовый файл, который можно создать в блокноте, следуя синтаксису стандарта, который будет описан ниже. Для одного сайта нужен только один такой файл.

Файл нужно добавить в корневой каталог сайта и он должен быть доступен по адресу: http://www. site.ru/robots.txt

Синтаксис файла robots.txt

Инструкции для поисковых роботов задаются с помощью директив с различными параметрами.

Директива User-agent

С помощью данной директивы можно указать для какого робота поисковой системы будут заданы нижеследующие рекомендации. Файл роботс должен начинаться с этой директивы. Всего официально во всемирной паутине таких роботов 302. Но если не хочется их все перечислять, то можно воспользоваться следующей строчкой:

User-agent: *

Где * является спецсимволом для обозначения любого робота.

Список популярных поисковых роботов:

  • Googlebot — основной робот Google;
  • YandexBot — основной индексирующий робот;
  • Googlebot-Image — робот картинок;
  • YandexImages — робот индексации Яндекс.Картинок;
  • Yandex Metrika — робот Яндекс.Метрики;
  • Yandex Market— робот Яндекс.Маркета;
  • Googlebot-Mobile —индексатор мобильной версии.

Директивы Disallow и Allow

С помощью данных директив можно задавать какие разделы или файлы можно индексировать, а какие не следует.

Disallow — директива для запрета индексации документов на ресурсе. Синтаксис директивы следующий:

Disallow: /site/

В данном примере от поисковиков были закрыты от индексации все страницы из раздела site.ru/site/

Примечание: Если данная директива будет указана пустой, то это означает, что весь сайт открыт для индексации. Если же указать Disallow: / — это закроет весь сайт от индексации.

Директива Sitemap

Если на сайте есть файл описания структуры сайта sitemap.xml, путь к нему можно указать в robots.txt с помощью директивы Sitemap. Если файлов таких несколько, то можно их перечислить в роботсе:

User-agent: *
Disallow: /site/
Allow: /
Sitemap: http://site.com/sitemap1.xml
Sitemap: http://site.com/sitemap2.xml

Директиву можно указать в любой из инструкций для любого робота.

Директива Host

Host является инструкцией непосредственно для робота Яндекса для указания главного зеркала сайта. Данная директива необходима в том случае, если у сайта есть несколько доменов, по которым он доступен. Указывать Host необходимо в секции для роботов Яндекса:

User-agent: Yandex
Disallow: /site/
Host: site.ru

В роботсе директива Host учитывается только один раз. Если в файле есть 2 директивы HOST, то роботы Яндекса будут учитывать только первую.

Директива Clean-param

Clean-param дает возможность запретить для индексации страницы сайта, которые формируются с динамическими параметрами. Такие страницы могут содержать один и тот же контент, что будет являться дублями для поисковых систем и может привести к понижению сайта в выдаче.

Директива Clean-param имеет следующий синтаксис:

Clean-param: p1[&p2&p3&p4&..&pn] [Путь к динамическим страницам]

Рассмотрим пример, на сайте есть динамические страницы:

  • https://site.ru/promo-odezhda/polo.html?kol_from=&price_to=&color=7
  • https://site. ru/promo-odezhda/polo.html?kol_from=100&price_to=&color=7

Для того, чтобы исключить подобные страницы из индекса следует задать директиву таким образом:

Clean-param: kol_from1&price_to2&pcolor /polo.html # только для polo.html
или
Clean-param: kol_from1&price_to2&pcolor / # для всех страниц сайта

Директива Crawl-delay

Если роботы поисковиков слишком часто заходят на ресурс, это может повлиять на нагрузку на сервер (актуально для ресурсов с большим количеством страниц). Чтобы снизить нагрузку на сервер, можно воспользоваться директивой Crawl-delay.

Параметром для Crawl-delay является время в секундах, которое указывает роботам, что страницы следует скачивать с сайта не чаще одного раза в указанный период.

Пример использования директивы Crawl-delay:

User-agent: *
Disallow: /site
Crawl-delay: 4

Особенности файла Robots.txt

  • Все директивы указываются с новой строки и не следует перечислять директивы в одной строке
  • Перед директивой не должно быть указано каких-либо других символов (в том числе пробела)
  • Параметры директив необходимо указывать в одну строку
  • Правила в роботс указываются в следующей форме: [Имя_директивы]:[необязательный пробел][значение][необязательный пробел]
  • Параметры не нужно указывать в кавычках или других символах
  • После директив не следует указывать “;”
  • Пустая строка трактуется как конец директивы User-agent, если нет пустой строки перед следующим User-agent, то она может быть проигнорирована
  • В роботс можно указывать комментарии после знака решетки # (даже если комментарий переносится на следующую строку, на след строке тоже следует поставить #)
  • Robots. txt нечувствителен к регистру
  • Если файл роботс имеет вес более 32 Кб или по каким-то причинам недоступен или является пустым, то он воспринимается как Disallow: (можно индексировать все)
  • В директивах «Allow», «Disallow» можно указывать только 1 параметр
  • В директивах «Allow», «Disallow» в параметре директории сайта указываются со слешем (например, Disallow: /site)
  • Использование кириллицы в роботс не допускаются

Спецсимволы robots.txt

При указании параметров в директивах Disallow и Allow разрешается использовать специальные символы * и $, чтобы задавать регулярные выражения. Символ * означает любую последовательность символов (даже пустую).

Пример использования:

User-agent: *
Disallow: /store/*.php # запрещает ‘/store/ex.php’ и ‘/store/test/ex1.php’
Disallow: /*tpl # запрещает не только ‘/tpl’, но и ‘/tpl/user’

По умолчанию у каждой инструкции в роботсе в конце подставляется спецсимвол *. Для того, чтобы отменить * на конце, используется спецсимвол $ (но он не может отменить явно поставленный * на конце).

Пример использования $:

User-agent: *
Disallow: /site$ # запрещено для индексации ‘/site’, но не запрещено’/ex.css’


User-agent: *
Disallow: /site # запрещено для индексации и ‘/site’, и ‘/site.css’

User-agent: *
Disallow: /site$ # запрещен к индексации только ‘/site’
Disallow: /site*$ # так же, как ‘Disallow: /site’ запрещает и /site.css и /site

Особенности настройки robots.txt для Яндекса

Особенностями настройки роботса для Яндекса является только наличие директории Host в инструкциях. Рассмотрим корректный роботс на примере:

User-agent: Yandex
Disallow: /site
Disallow: /admin
Disallow: /users
Disallow: */templates
Disallow: */css
Host: www.site.com

В данном случаем директива Host указывает роботам Яндекса, что главным зеркалом сайта является www.site.com (но данная директива носит рекомендательный характер).

Особенности настройки robots.

txt для Google

Для Google особенность лишь состоит в том, что сама компания рекомендует не закрывать от поисковых роботов файлы с css-стилями и js-скриптами. В таком случае, робот примет такой вид:

User-agent: Googlebot
Disallow: /site
Disallow: /admin
Disallow: /users
Disallow: */templates
Allow: *.css
Allow: *.js
Host: www.site.com

С помощью директив Allow роботам Google доступны файлы стилей и скриптов, они не будут проиндексированы поисковой системой.

Проверка правильности настройки роботс

Проверить robots.txt на ошибки можно с помощью инструмента в панели Яндекс.Вебмастера:

Также при помощи данного инструмента можно проверить разрешены или запрещены к индексации страницы:

Еще одним инструментом проверки правильности роботс является “Инструмент проверки файла robots.txt” в панели Google Search Console:

Но данный инструмент доступен только в том случае, если сайт добавлен в панель Вебмастера Google.

Заключение

Robots.txt является важным инструментом управления индексацией сайта поисковыми системами. Очень важно держать его актуальным, и не забывать открывать нужные документы для индексации и закрывать те страницы, которые могут повредить хорошему ранжированию ресурса в выдаче.

Пример настройки роботс для WordPress

Правильный robots.txt для WordPress должен быть составлен таким образом (все, что указано в комментариях не обязательно размещать):

User-agent: Yandex
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати
Host: www.site.ru

User-agent: Googlebot
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати
Allow: *. css # открыть все файлы стилей
Allow: *.js # открыть все с js-скриптами

User-agent: *
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати

Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap1.xml

Пример настройки роботс для Bitrix

Если сайт работает на движке Битрикс, то могут возникнуть такие проблемы:

  • попадание в выдачу большого количества служебных страниц;
  • индексация дублей страниц сайта.

Чтобы избежать подобных проблем, которые могут повлиять на позицию сайта в выдаче, следует правильно настроить файл robots.txt. Ниже приведен пример robots. txt для CMS 1C-Bitrix:

User-Agent: Yandex
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /personal/cart/
HOST: https://site.ru

User-Agent: *
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /personal/cart/
Sitemap: https://site.ru/sitemap.xml

User-Agent: Googlebot
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/tools/conversion/ajax_counter.php
Allow: /bitrix/components/main/
Allow: /bitrix/css/
Allow: /bitrix/templates/comfer/img/logo. png
Allow: /personal/cart/
Sitemap: https://site.ru/sitemap.xml

Пример настройки роботс для OpenCart

Правильный robots.txt для OpenCart должен быть составлен таким образом:

User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Host: site. ru

User-agent: Googlebot
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Allow: *.css
Allow: *.js

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index. php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login

Sitemap: http://site.ru/sitemap.xml

Пример настройки роботс для Umi.CMS

Правильный robots.txt для Umi CMS должен быть составлен таким образом (проблемы с дублями страниц в таком случае не должно быть):

User-Agent: Yandex
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out. php
Disallow: /images
Disallow: /files
Disallow: /users
Disallow: /admin
Disallow: /search
Disallow: /install-temp
Disallow: /install-static
Disallow: /install-libs
Host: site.ru

User-Agent: Googlebot
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out.php
Disallow: /images
Disallow: /files
Disallow: /users
Disallow: /admin
Disallow: /search
Disallow: /install-temp
Disallow: /install-static
Disallow: /install-libs
Allow: *.css
Allow: *.js

User-Agent: *
Disallow: /?
Disallow: /emarket/addToCompare
Disallow: /emarket/basket
Disallow: /go_out.php
Disallow: /images
Disallow: /files
Disallow: /users
Disallow: /admin
Disallow: /search
Disallow: /install-temp
Disallow: /install-static
Disallow: /install-libs

Sitemap: http://site.ru/sitemap.xml

Пример настройки роботс для Joomla

Правильный robots. txt для Джумлы должен быть составлен таким образом:

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/
Host: www.site.ru

User-agent: Googlebot
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/
Allow: *.css
Allow: *.js

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/

Sitemap: http://www. site.ru/sitemap.xml

Что такое файлы Sitemap в формате XML (расширяемый язык разметки)?

Что такое карта сайта XML?

Поисковая оптимизация (SEO) — один из важнейших компонентов стратегии цифрового маркетинга. Ведущие поисковые системы, такие как Bing и Google, используют чрезвычайно сложные алгоритмы для предоставления результатов поиска, когда пользователь вводит ключевое слово или фразу в поле поиска. Алгоритм Google использует более 200 сигналов для оценки достоверности и релевантности страниц на вашем веб-сайте, прежде чем определять, как они должны ранжироваться на страницах результатов поисковой системы. SEO — это процесс оптимизации вашего веб-сайта и его контента для более высокого ранжирования поисковыми системами в соответствии с этими сложными и постоянно меняющимися алгоритмами.

XML-карта сайта — важный компонент вашей общей SEO-стратегии. XML-карты сайта — это документы или файлы, содержащие информацию о наиболее важных страницах веб-сайта. Загрузка XML-карты сайта на ваш веб-сервер помогает поисковым системам, таким как Bing и Google, обнаруживать ваш веб-сайт и ранжировать ваши страницы в поисковых системах, где их могут найти ваши целевые клиенты.

Google предлагает некоторые рекомендации о том, какие типы веб-сайтов получают наибольшую выгоду от наличия XML-карты сайта, но на самом деле каждая компания, которая надеется генерировать органический поисковый трафик, должна иметь XML-карту сайта, загруженную на их веб-сервер.

Почему XML Sitemap важен?

Чтобы понять значение XML-карты сайта на вашем веб-сайте, вам необходимо понять несколько вещей о том, как поисковые компании, такие как Google, обнаруживают и ранжируют веб-сайты на страницах результатов своих поисковых систем.

Ценность Google как поисковой системы заключается в ее способности быстро связывать пользователей с информацией, предприятиями и контентом, которые они ищут в Интернете. Google собирает информацию о веб-страницах и применяет свой алгоритм, чтобы определить, как веб-страницы должны ранжироваться по определенным ключевым словам, но страница не может быть ранжирована в результатах поиска Google до того, как она будет проиндексирована Google. Индексация просто означает, что Google просмотрел веб-сайт и добавил его в свою базу данных.

Конечно, Google не индексирует веб-сайты вручную. С огромными объемами контента, публикуемого в Интернете каждый день, это было бы невозможно. Вместо этого Google программирует виртуальных роботов, известных как «сканеры», которые автоматически индексируют веб-страницы. Краулеры — это скриптовые программы, которые считывают и копируют контент из Интернета в базы данных Google, чтобы его можно было проиндексировать. Сканеры извлекают гиперссылки на каждой веб-странице, которую они посещают, затем переходят по этим ссылкам и продолжают рыскать в Интернете в поисках новых страниц для индексации.

Это возвращает нас к картам сайта XML. Карта сайта XML — это документ или файл, который может быть прочитан сканером. Он содержит список всех URL-адресов на вашем веб-сайте, что позволяет Google легко находить и индексировать каждую страницу вашего сайта (даже те, которые не имеют гиперссылок, указывающих на них). Файлы Sitemap в формате XML также содержат дополнительные данные, которые Google может использовать для оценки того, являетесь ли вы первоначальным автором какого-либо контента или как часто ваш веб-сайт обновляется.

Каким веб-сайтам нужна XML-карта сайта?

Личные и корпоративные веб-сайты любого размера могут выиграть от включения XML-карты сайта, которая помогает поисковым роботам Google проиндексировать каждую страницу сайта. Google предлагает четыре категории веб-сайтов, для которых настоятельно рекомендуется разработать и загрузить карту сайта в формате XML.

  1. Для очень больших веб-сайтов требуется XML-карта сайта. Чем больше у вас страниц, тем больше вероятность того, что поисковые роботы Google пропустят сканирование недавно опубликованных или обновленных страниц.
  2. Веб-сайты с большим архивом контента могут значительно выиграть от XML-карты сайта, особенно если архивное содержимое изолировано и плохо связано. Поисковые роботы Google могут найти страницу только в том случае, если на нее есть гиперссылки с других страниц, указывающие на нее, но XML-карта сайта может указать сканеру, какие именно URL-адреса на веб-сайте индексируются для ранжирования в поисковых системах.
  3. Новые веб-сайты могут не иметь внешних веб-страниц, ссылающихся на них. Поисковые роботы Google не смогут найти эти веб-сайты естественным образом. Если ваш веб-сайт новый, вы можете отправить свою XML-карту сайта непосредственно ведущим поисковым компаниям, таким как Google и Bing, чтобы помочь вам быстрее проиндексироваться, чтобы ваши клиенты могли начать вас находить.
  4. Веб-сайты с мультимедийным контентом могут создавать XML-карту сайта с изображениями или видеозаписями. Запись о видео может предоставить поисковым роботам Google дополнительную информацию, такую ​​как категория видео, продолжительность и возрастной рейтинг. Запись изображения может включать такие данные, как тема изображения, тип и творческая лицензия.

Какая информация содержится в карте сайта XML?

Карта сайта XML может быть опубликована либо в формате XML, либо в виде простого текста. Большинство XML-файлов, созданных компьютером, будут опубликованы в формате XML. Независимо от формата, у вас будут одни и те же параметры и требования к тому, какую информацию о каждом URL-адресе включать в карту сайта:

Местоположение

В языке XML тег используется для ссылки на местоположение определенного URL-адреса на вашем веб-сайте. URL-адрес должен начинаться с протокола, заканчиваться косой чертой (если этого требует ваш веб-сервер) и должен содержать не более 2048 символов.

Последнее изменение

Карта сайта XML может дополнительно включать дату последнего изменения для любой или всех страниц вашего веб-сайта. Поисковые роботы Google могут использовать информацию отсюда, чтобы определить, являетесь ли вы первоначальным автором, если ваш контент дублируется в других местах в Интернете. Даты здесь обычно записываются в формате W3C Datetime ГГГГ-ММ-ДД.

Частота изменений

Ваша XML-карта сайта может указывать поисковым роботам Google частоту, с которой вы ожидаете изменения данной страницы. Это может дать сканерам подсказку о том, как часто они должны сканировать ваши страницы, чтобы обнаруживать новые изменения. В формате XML на частоту изменений ссылается тег. Допустимые значения включают:

  • Никогда
  • Ежегодно
  • Ежемесячно
  • Еженедельно
  • Ежедневно
  • Ежечасно
  • Всегда
Приоритет

Приоритет — это последняя необязательная точка данных, которую вы можете включить в карту сайта XML. Значения приоритета варьируются от 0,0 до 1,0 со значением по умолчанию 0,5. Приоритет страницы — это ваша собственная относительная мера того, насколько важна конкретная страница на вашем веб-сайте. Это может помочь поисковым системам определить, какие из ваших страниц должны отображаться в рейтинге поисковых систем, если несколько страниц имеют высокий рейтинг по одним и тем же ключевым словам.

Технический SEO-аудит Directive Consulting оптимизирует вашу XML-карту сайта

Первым и наиболее важным аспектом поисковой оптимизации B2B является проведение технического SEO-аудита. Технический SEO-аудит, чтобы убедиться, что ваш веб-сайт технически оптимизирован для SEO, включая все, от анализа дублированного контента до правильного использования переадресации 301, исправления неработающих ссылок, оптимизации структуры ссылок, повышения скорости сайта и многого другого.

XML-карты сайта также являются важным элементом для технического SEO-аудита. Улучшение вашей XML-карты сайта, добавление дополнительной информации, определение приоритетов ключевых страниц, обеспечение правильного выполнения файла и отправка вашей XML-карты сайта в Google могут помочь проиндексировать больше ваших страниц и повысить ваш рейтинг в результатах поиска.

Хотите узнать больше о том, как Directive Consulting может помочь улучшить ваши XML-карты сайта для SEO? Получите бесплатное предложение прямо сейчас!

Полное руководство по XML-картам сайта для SEO

Карта сайта не является обязательной для функционирования вашего сайта, но ее добавление может положительно повлиять на сканирование и индексацию вашего сайта поисковыми системами.

С другой стороны, плохо оптимизированная карта сайта может негативно сказаться на вашем краулинговом бюджете и подвергнуть вас риску того, что поисковые системы не заметят ваш ценный контент.

Это руководство поможет вам понять, что такое карты сайта, что в них включать и зачем они вам нужны.

Что такое карта сайта

Карта сайта XML — это текстовый файл, в котором перечислены URL-адреса вашего веб-сайта. Он служит цифровой картой для роботов поисковых систем и помогает им находить ценные страницы, которые вы хотите проиндексировать поисковыми системами.

Файлы Sitemap имеют собственные URL-адреса и могут быть размещены в любом месте на сервере вашего сайта. Однако

они затрагивают только потомков родительского каталога. Таким образом, чтобы повлиять на все страницы, вам необходимо добавить карту сайта в корневой каталог:  

www.example.com/sitemap.xml

Ссылка на вашу карту сайта должна быть включена в файл robots. txt . Для этого используйте следующую директиву в начале или в конце файла: 

Карта сайта: http://www.example.com/sitemap.xml

Вам не обязательно помещать карту сайта в файл robots.txt, но это поможет большинству ботов найти ее, включая поисковые системы, отличные от Google и Bing. Например, и Seznam, и Яндекс могут читать директивы карты сайта из файла robots.txt.

источник: Рената Гвиздак, младший SEO-специалист Onely

Чем полезны карты сайта

Наличие карты сайта дает много преимуществ для вашего веб-сайта. Прежде всего,

помогает поисковым системам находить контент для индексации.

В идеальном мире хорошо продуманная архитектура сайта должна позволять пользователям и поисковым системам беспрепятственно открывать все ваши страницы.

К сожалению, структура веб-сайта может быть сложной и не всегда позволяет роботам поисковых систем легко найти все ваши страницы.

Карта сайта представляет URL-адреса в простом формате, исключая необходимость для сканеров переходить по ссылкам на вашем сайте, что облегчает поисковым системам обнаружение всех важных страниц на вашем сайте.

  1. Включение страницы в карту сайта не гарантирует, что она будет проиндексирована, но это может ускорить процесс индексации и сделать его более надежным с вашей стороны.
  2. Карта сайта помогает оптимизировать использование
    краулингового бюджета. Без этого ботам поисковых систем необходимо просканировать весь ваш веб-сайт, чтобы найти свежий, индексируемый контент. В результате они могут тратить краулинговый бюджет на посещение некачественных страниц и упускать из виду более ценные.
  3. Когда вы добавляете карту сайта в Google Search Console, вы можете получать отзывы об URL-адресах в вашей карте сайта . Так что, если есть проблема со страницей и Google не может ее просканировать, вы узнаете об этом, просмотрев отчет о покрытии в Google Search Console, и у вас будет возможность принять меры.

Кому нужна карта сайта

Карта сайта в формате XML может помочь любому веб-сайту, и на каждом веб-сайте она должна быть на всякий случай. Тем не менее, это может быть более полезным для некоторых, чем для других.

Карта сайта абсолютно необходима, если:

  • На вашем сайте много динамического контента. Если вы часто обновляете свои страницы, существует риск того, что роботы поисковых систем могут пропустить часть вашего нового или обновленного контента.
  • У вас большой сайт (более 500 страниц). Чем больше ваш веб-сайт, тем выше риск того, что роботы поисковых систем могут пропустить некоторые страницы.
  • У вас новый сайт. К сожалению, на новые сайты обычно мало внешних ссылок или они вообще не приходят. В результате поисковым роботам может быть трудно найти их.
  • У вас есть изолированные страницы или страницы с плохими внутренними ссылками. Если роботы поисковых систем не могут обнаружить ваши страницы по ссылкам, они могут не найти их все.
  • У вас много мультимедийного контента (изображения, видео). Файлы Sitemap позволяют предоставлять дополнительную информацию о вашем визуальном содержании для поисковых систем (например, время воспроизведения видео, значение объекта изображения).

Что включить в карту сайта

Не все ваши страницы должны быть включены в карту сайта. Если вы положите их все, вы рискуете тратит краулинговый бюджет на сканирование некачественных страниц. Это может привести к тому, что высококачественные страницы вашего сайта останутся непроиндексированными, поскольку у поисковых систем не было ресурсов для их сканирования.

Вот почему так важно убедиться, что вы включаете только индексируемые страницы с наиболее ценным контентом.  

Убедитесь, что страницы, которые вы включаете в карту сайта:

  • Ответьте кодом 200,
  • Не блокируются robots.txt,
  • Не включайте метатег noindex для роботов,
  • Каноническая версия страницы.

Кроме того, вот список страниц, которые не должны попадать в вашу карту сайта:

  • Страницы с недостаточным или дублирующимся контентом,
  • страниц с разбивкой на страницы,
  • URL-адреса на основе идентификатора параметра или сеанса,
  • Страницы результатов поиска по сайту,
  • страниц в архиве.

Компоненты карты сайта

Вот пример карты сайта с двумя URL-адресами:

 

 <ссылка>
https://www.example.com/page1
 2021-11-01
 еженедельно
 <приоритет>0,6
 
  <ссылка>
https://www.example.com/page2
 2021-11-03
 еженедельно
 <приоритет>1
 
 

Теперь давайте рассмотрим каждый элемент.

Теги

и

Теги и являются базовыми компонентами XML. Они определяют стандарт кодирования и версию XML.

Тег

Каждый тег описывает отдельный URL. Внутри вы можете найти следующие теги:

  • (обязательно),
  • <последний мод> (необязательно),
  • (необязательно),
  • <приоритет> (необязательно).
Тег
 https://www.example.com/page1 

Тег означает « местоположение, » и содержит URL-адрес страницы.

Необходимо не забыть указать протокол сайта (HTTP или HTTPS).

Если у вас есть международный веб-сайт и вы используете теги hreflang, это также место для уточнения. Ниже я расскажу об использовании тега hreflang.

Тег
 2020-02-23 

означает « last mod, » и включает информацию о последней модификации.

Для содержательных сайтов этот тег помогает Google установить, что вы являетесь первоначальным издателем. Если кто-то скопирует ваш контент и опубликует его на своей странице, может помочь вам остаться автором этого контента в глазах Google.

Примечание: Этот тег следует обновлять только в том случае, если вы внесли значимые изменения на страницу. Если вы попытаетесь «обмануть» Google, заставив его думать, что вы регулярно обновляете контент, когда это не так, Google потенциально может начать игнорировать этот тег.

Решите, будут ли изменения иметь значение для потенциального пользователя. Спросите себя: имеет ли смысл возвращаться на эту страницу после внесения изменений? Если все, что вы сделали, это переставили запятые, вероятно, это не стоило риска.

Тег
 еженедельно 

Тег означает « частота изменения ». Он информирует поисковые системы о том, как часто страница может меняться.

Может принимать следующие значения:

  • всегда (указывает, что страница меняется каждый раз при доступе к ней),
  • ежечасно,
  • ежедневно,
  • еженедельно,
  • ежемесячно,
  • ежегодно,
  • никогда (следует использовать для заархивированных страниц).

Примечание: Тег является лишь подсказкой для поисковых систем. Кроме того, некоторые из них, в том числе Google, вообще не учитывают это.

Тег
 0,6 

Тег Priority напрямую сообщает поисковым системам, насколько важна страница по отношению к другим URL-адресам на вашем сайте. Назначьте приоритет по шкале от 0,0 до 1,0.

Стоит отметить, что Google не учитывает этот тег:

Нет, Google не использует приоритет и частоту изменений.

— 🦇 johnmu: коты не люди 🦇 (@JohnMu) 13 сентября 2019 г.

Тег hreflang

Вы можете указать языковую версию своих страниц с помощью тега hreflang.

Для этого вам необходимо включить тег под каждым тегом , чтобы представить каждую языковую версию страницы, включая ее саму.

  

Вот пример страницы с версиями на английском и немецком языках.

 <ссылка>
https://www.example.com/page1/en


 

Добавление тега hreflang в карту сайта может помочь поисковым системам предоставить пользователям наиболее подходящую языковую версию. Однако рекомендуется добавлять тег в HTML-код и в карту сайта или только в HTML-код.

Хотя размещение hreflangs в карте сайта работает, это также усложняет их проверку. Во-первых, многие SEO-инструменты оптимизированы для тегов hreflang в HTML . Во-вторых, вы можете забыть о любых надстройках браузера, которые будут автоматически проверять для вас hreflangs при посещении страницы. Это работает только с hreflangs в HTML. Если ставить разметку в карту сайта, то все это удобство теряется. Вам придется сканировать карты сайта каждый раз, когда вы хотите увидеть какие-либо изменения, внесенные в ваши теги hreflang.

источник: Артур Боуша, SEO-специалист Onely

Если вы хотите узнать больше о тегах hreflang или международном SEO, ознакомьтесь с нашим Полным руководством по международному SEO.

Расширения карты сайта

В карту сайта можно добавить дополнительный синтаксис для указания информации о мультимедийном контенте, включая:

  • Изображение,
  • Видео,
  • Новости.

Карта сайта для изображений в формате XML

Вы можете добавить свои изображения в существующую карту сайта или создать отдельную карту сайта для изображений в формате XML.

Файл Sitemap для изображений помогает создать организованный индекс изображений на вашем веб-сайте, позволяя роботам поисковых систем сканировать его более эффективно. Это выгодно, если:

  • Ваш веб-сайт использует изображения для привлечения трафика (например, веб-сайт со стоковыми фотографиями),
  • Изображения могут быть трудно найти иначе (например, изображения, полученные с помощью JavaScript).

Вы можете добавить метаданные изображения и указать дополнительную информацию, например подпись к изображению, местоположение или лицензию. Вы можете узнать больше о доступных тегах изображений в документации Google.

Изображения, которые вы включаете в карту сайта, не обязательно должны находиться в том же домене, что и ваш веб-сайт. CDN подходит, если он проверен в Google Search Console.

XML Video Sitemap

Так же, как и Image Sitemap, вы можете добавлять свои видео в существующую карту сайта или создавать отдельный XML Video Sitemap.

Вы можете предоставить поисковым ботам дополнительную информацию о ваших видео, чтобы помочь ботам лучше находить и понимать ваш видеоконтент, особенно если этот контент было бы трудно найти другим способом.

Например, вы можете добавить продолжительность видео и указать, подходит ли оно для семейного просмотра. Вы можете узнать больше о доступных тегах видео в документации Google.

Если вы хотите узнать больше об индексации видео, ознакомьтесь с нашей новой статьей об отчете Google об индексации видео и последствиях его запуска.

Карта сайта Новостей Google

Карта сайта Новостей Google содержит список статей, опубликованных на вашем сайте, и помогает Google быстрее находить новые статьи.

Вы можете указать до 1000 URL-адресов в карте сайта Новостей Google и обновлять статьи в карте сайта сразу после их публикации.

Доступные новостные теги можно найти в документации Google.

Файл индекса карты сайта

Карта сайта может содержать 50 000 URL-адресов. Поэтому, если вы хотите включить больше URL-адресов, вам следует создать более одной карты сайта.

Если у вас более одной карты сайта, вы можете создать Индексный файл карты сайта для одновременной отправки всех ваших карт сайта. Вот пример файла индекса Sitemap с двумя файлами Sitemap:

 

  <карта сайта>
http://www.example.com/sitemap1.xml
  
  <карта сайта>
http://www.example.com/sitemap2.xml
  
 

Тег индекса Sitemap использует следующие теги:

  • Тег заголовка XML, указывающий версию и стандарт кодирования,
  • sitemapindex — родительский тег, окружающий файл (эквивалент тега ),
  • карта сайта — родительский тег, включающий каждый файл карты сайта (эквивалент тега ),
  • loc — тег местоположения, указывающий URL-адрес карты сайта.

Как создать карту сайта?

Вы можете создать свою карту сайта вручную или автоматически .

Создание карты сайта вручную

Вы можете создать карту сайта вручную в таких редакторах, как Windows NotePad, TextEdit или Visual Studio Code.

Таким образом, вы можете настроить его по своему вкусу, но я рекомендую его только для небольших веб-сайтов с меньшим количеством страниц. С большими веб-сайтами и сотнями страниц этот процесс займет очень много времени и может привести к ошибкам.

Автоматическое создание карты сайта

Для крупных веб-сайтов с сотнями страниц рекомендуется создавать карту сайта автоматически. Его можно сгенерировать, используя:

  • Встроенные функции CMS или платформ электронной коммерции,
  • Добавлены плагины,
  • Сторонние инструменты.
Карты сайта, сгенерированные CMS или платформами электронной коммерции

Некоторые CMS или платформы электронной коммерции, такие как Wix или Shopify, автоматически генерируют карты сайта.

Сгенерированную карту сайта можно найти в корневом каталоге вашего веб-сайта.

Карты сайта, созданные плагинами

Если вы используете CMS, например WordPress, вам может понадобиться плагин для создания карты сайта. Я рекомендую использовать Yoast SEO, так как это расширение упрощает процесс и предоставляет множество дополнительных функций SEO.

Сторонние инструменты

Многие сторонние инструменты могут создать для вас карту сайта, например Screaming Frog или XML-Sitemaps.com. Сначала вы должны загрузить его, но после этого это так же просто, как указать URL-адрес вашей домашней страницы.

Статическая и динамическая карта сайта

Карта сайта может быть сгенерирована статически или динамически .

Статическая карта сайта — это моментальный снимок индексируемого контента вашего веб-сайта, сделанный при создании карты сайта. Вы можете использовать сканер, например, Screaming Frog, чтобы легко создать статическую карту сайта.

Недостатком является то, что статические карты сайта необходимо обновлять каждый раз, когда на вашем веб-сайте происходят изменения. Поэтому, если вы регулярно добавляете или удаляете страницы, статическая карта сайта в формате XML скоро устареет и не будет служить своей цели.

Динамическая карта сайта создается каждый раз, когда она запрашивается. Это означает, что он остается актуальным и отражает текущее состояние вашего сайта.

Динамические карты сайта полезны, если ваш контент часто меняется. Примером может служить веб-сайт электронной коммерции, где товары часто появляются и исчезают со склада.

Для создания динамической карты сайта вам может понадобиться помощь разработчиков или использование плагинов, которые предлагают эту возможность.

Отправка карты сайта в поисковые системы

Вы можете пропинговать поисковые системы и сообщить им, что у вас есть новая карта сайта или внесены некоторые изменения в предыдущую.

Google не проверяет карту сайта при каждом сканировании сайта; карта сайта проверяется только в первый раз, когда мы ее замечаем, а затем только тогда, когда вы сообщаете нам об изменении карты. Оповещать Google о карте сайта только тогда, когда она новая или обновленная; не отправляйте и не проверяйте неизмененные карты сайта несколько раз.

источник: Google

Отправка карты сайта в Google Search Console

Войдите в свою учетную запись Google Search Console. Затем перейдите в Индекс > Файлы Sitemap на боковой панели.

Введите URL-адрес вашей карты сайта в поле и нажмите «Отправить».

Google Search Console сообщит вам, если в вашей карте сайта есть какие-либо ошибки.

Отправка карты сайта в Bing Webmaster Tools

Если вы уже прошли проверку в Google Search Console, этот шаг не составит труда. Перейдите в Инструменты Bing для веб-мастеров и импортируйте свои данные.

Если вы еще не прошли проверку в Google Search Console, вы можете перейти к «Картам сайта» на боковой панели. Затем нажмите кнопку «Отправить карту сайта» в верхней части страницы.

Поскольку Yahoo и Bing объединились, добавление карты сайта в Bing Webmaster Tools также гарантирует ее отправку в Yahoo.

Отправка карты сайта в Яндекс.Вебмастер

Чтобы отправить карту сайта в Яндекс, необходимо:

  1. Зайти в Яндекс Паспорт и Авторизоваться.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *