Sitemaps — Википедия
Материал из Википедии — свободной энциклопедии
Sitemaps — XML-файлы с информацией для поисковых систем (таких как Google, Яндекс, Bing, Поиск@Mail.Ru) о страницах веб-сайта, которые подлежат индексации. Sitemaps могут помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.
Использование протокола Sitemaps не является гарантией того, что веб-страницы будут проиндексированы поисковыми системами, это всего лишь дополнительная подсказка для сканеров, которые смогут выполнить более тщательное сканирование сайта.[1]
Формат протокола Sitemap состоит из XML-тегов. В файле необходимо использовать кодировку UTF-8.
Ниже приведен пример файла Sitemap, в котором содержится только один URL-адрес и использованы все необязательные теги.
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://example.com/</loc> <lastmod>2013-11-18</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url> </urlset>
Можно предоставить несколько файлов Sitemap, однако в каждом из этих файлов должно быть не более 50000 URL, а размер каждого из этих файлов не должен превышать 50 МБ. При необходимости файл Sitemap можно сжать с помощью архиватора gzip, чтобы его размер не превышал 50 МБ, и тем самым уменьшить требования к пропускной способности канала.
Если необходимо перечислить более 50000 URL, следует создать несколько файлов Sitemap, при этом необходимо перечислить каждый из этих файлов в файле индекса Sitemap (Sitemap index). Формат файла индекса Sitemap похож на формат файла Sitemap.
Подробная информация об использовании файлов индекса Sitemap на официальном сайте: sitemaps.org.
- Канал синдикации (RSS 2.0, а также Atom 0.3 или 1.0)
- Текстовый файл (в текстовом файле в каждой строке должен быть только один URL)
Рекомендуется располагать файл Sitemap в корневом каталоге сервера, чтобы ссылка выглядела примерно так: http://example.com/sitemap.xml (недоступная ссылка).
- Все ссылки, перечисленные в файле Sitemap, должны находиться в том же домене, что и сам Sitemap.
- Например, если файл Sitemap находится по адресу http://www.example.com/sitemap.xml, то он не может включать в себя ссылки страниц с доменов http://subdomain.example.com (недоступная ссылка) или http://example.com.
- Ссылки в файле Sitemap должны указывать на страницы, находящиеся в том же каталоге (или его подкаталогах), что и сам файл Sitemap.
- Например, если файл Sitemap находится на http://www.example.com/catalog/sitemap.xml (недоступная ссылка) то он не может включать в себя ссылки на страницы http://www.example.com/page.html (недоступная ссылка) или http://www.example.com/dir/page.html (недоступная ссылка).
- Ссылки, указанные в файле Sitemap, должны использовать тот же протокол (например, HTTP), по которому доступен файл Sitemap.
- Это значит, что если файл Sitemap находится на http://www.example.com/sitemap.xml, то он не может содержать ссылки типа https://www.example.com/page.html (недоступная ссылка) и ftp://www.example.com/file.doc (недоступная ссылка).
Для определения элементов и атрибутов, которые могут появляться в файлах Sitemap, используются следующие XML-схемы:
Уведомления для сканеров поисковых систем[править | править код]
После того, как файл Sitemap создан и размещен на веб-сервере, необходимо сообщить о местонахождении этого файла поисковым системам, поддерживающим этот протокол. Это можно сделать следующим образом:
- с помощью интерфейса поисковой системы
- указав местоположение файла Sitemap в файле robots.txt
- выслав HTTP-запрос
Затем поисковые системы смогут извлечь файл Sitemap и разрешить своим сканерам доступ к URL-адресам.
Использование файла robots.txt[править | править код]
Чтобы сообщить поисковым системам местоположение файла Sitemap, можно в robots.txt добавить строку вида:
Sitemap: <sitemap_location>
Где <sitemap_location> — полный URL файла Sitemap, например: www.site.ru/sitemap.xml .
Использование HTTP-запроса[править | править код]
Можно указать поисковым системам местонахождение файла Sitemap при помощи HTTP-запроса, используя таблицу:
, где <sitemap_location> необходимо заменить на полный URL файла Sitemap.
Например, чтобы добавить файл http://www.example.com/sitemap.xml в поисковик Google, нужно отправить HTTP-запрос:
https://google.com/ping?sitemap=http://www.example.com/sitemap.xml
ru.wikipedia.org
Sitemap XML: как создать карту сайта и угодить поисковым системам
Файл Sitemap XML, или карта сайта, – это мощный инструмент в сфере SEO-продвижения. Если говорить просто, то это служебный файл, который показывает систематизированный перечень страниц XML, рекомендованных для приоритетной поисковой индексации.
Сразу нужно упомянуть, что Sitemap XML совершенно не стимулирует увеличение скорости и периодичности индексации страниц – это самое распространенное заблуждение в этой теме. Нужно смириться с тем, что поисковые машины Google и «Яндекс» индексируют все, до чего могут «дотянуться», а не исключительно те страницы, которые им разрешили проанализировать.
Поисковые системы индексируют в следующих случаях:
Следовательно, если вы специально укажете определенную страницу в Sitemap XML, то это совсем не значит, что у нее появится приоритет в ранжировании. Для эффективного использования этого файла его рекомендуют рассматривать в качестве подсказки, содержимое которой дает понять алгоритмам поисковой системы, какие страницы вы считаете наиболее качественными. Но это только подсказка, а не руководство к действию.
Ошибки последовательности при расстановке приоритетов
Многие допускают серьезную ошибку, когда организовывают передачу поисковым системам информации о странице. Обычно проблема заключается в нарушении последовательности. К примеру, страницу можно закрыть от индексации в файле robots.txt, но при этом ссылку на нее добавить в Sitemap XML. Таким образом, мы говорим поисковой системе: «нужно заглянуть сюда, ведь здесь качественная тематическая страница», но при этом запрещаем ее индексацию в другом служебном файле.
Аналогично ситуация обстоит с метатегами robot noindex/follow. Если в коде страницы планируется использование этих тегов, то страницу нельзя включать в карту сайта, иначе она вообще не попадет в индекс.
Чтобы избежать ошибок при использовании карты сайта, нужно условно выделить следующие категории его страниц:
-
служебные. Страницы несут пользу для аудитории, но не являются целевыми с точки зрения конверсии;
-
посадочные. Высококачественные продающие страницы, адаптированные под прием трафика из поисковой выдачи.
Все страницы, которые вошли в последнюю категорию, должны присутствовать в карте сайта, но их нельзя блокировать. И наоборот, служебные страницы нужно заблокировать, а также исключить их из использования в карте сайта.
Sitemap XML и общее качество сайта
Сегодня поисковые системы «научились» давать комплексную оценку сайта. Определение качества веб-ресурса является важнейшим фактором поискового ранжирования. Влияние карты сайта на восприятие его качества можно понять на следующем примере. Допустим, на ресурсе есть хорошие страницы, при оптимизации которых были учтены все возможные факторы ранжирования. Но при этом сайт имеет 3000 страниц, из которых только 5 соответствуют высоким стандартам. В такой ситуации ресурс не получит приоритета в ранжировании, так как очевиден слишком большой разрыв в соотношении хороших и плохих страниц. Поисковые системы не любят рисковать лояльностью пользователей, поэтому сайт с плохим содержимым не попадет в топ.
С другой стороны, разработчики «Яндекса» и Google понимают, что для нормального функционирования сайта ему нужны служебные страницы, которые никак не связаны с целевым действием. К примеру, это может быть раздел с контактами или страница для заполнения регистрационной формы. Если в Sitemap XML включить все эти страницы, то таким образом мы сообщаем роботам, что просто отсутствуют подсказки относительно качественного контента и страниц с низким приоритетом.
Рассмотрим гипотетическую ситуацию. К примеру, сайт состоит из 2000 страниц, при этом в карте ресурса отмечено 900 страниц. Это значит, что именно этот контент вы рекомендуете проиндексировать, а остальные советуете считать служебными. Но алгоритмы поисковиков не верят обещаниям и в любом случае проводят проверку. В результате оказывается, что по внутренним метрикам качественных страниц есть только 200 штук. Такую ситуацию поисковая система понимает однозначно: сайт неплохой, но приоритета не заслуживает, так как владелец не может отличить качественную страницу от плохого контента.
Особенности «маскировки» ненужных страниц
Как мы выяснили, алгоритмы ранжирования используют данные из карты сайта в качестве шпаргалки, в которой указываются приоритетные для индексации страницы высокого качества. Однако отсутствие страниц в этом файле совершенно не исключает того, что рано или поздно они будут проиндексированы. Чтобы просмотреть все страницы, которые прошли индексацию, достаточно воспользоваться командой «site:». Методом исключения можно получить доступ к перечню страниц, которые почему-то не должны были оказаться в карте сайта, но присутствуют там. Это можно сделать с помощью метатегов noindex/follow в файле robots.txt. Поисковый запрос, выполненный с помощью оператора «site:», ранжирует страницы по мере снижения их качества и потенциала. Соответственно, страницы из нижней части поисковой выдачи можно доработать или исключить из показа.
Способы создания Sitemap XML
Интегрирование в CMS. Многие современные системы управления сайтами уже имеют встроенные функции генерации карты веб-ресурса. Чтобы узнать о наличии подобной функции в определенном движке, придется внимательно изучить техническую документацию. Обычно соответствующая опция находится в настройках администратора. Также всегда можно уточнить детали в службе поддержки программного продукта. Еще можно попробовать с помощью браузера перейти по адресу https://вашсайт.com/sitemap.xml. Есть большая вероятность, что файл Sitemap XML не только уже сгенерирован, но и динамически обновляется.
Отдельный скрипт. Если хорошо разобраться в протоколе XML-карты и технических спецификациях, то можно своими силами создавать код для генерации карты сайта. Это удобный и рациональный способ, но он подходит только для программистов. Если вы таковым не являетесь, то лучше пользоваться любыми другими методами.
Внешние плагины. Если ваша CMS не умеет самостоятельно генерировать карту сайта, то это всегда можно сделать посредством стороннего плагина. С помощью все тех же поисковиков можно без проблем найти дополнения практически для любой системы администрирования сайтами. В специфических случаях можно привлечь программистов для создания уникального плагина для конкретной платформы.
Компьютерные парсеры. Это специальное программное обеспечение, которое устанавливается на рабочем ПК. С помощью программы проводится глубокий технический аудит сайта. В том числе на основе его результатов можно получить доступ к файлу Sitemap XML, сформированному методом сканирования структуры проекта.
Генераторы карты сайта. Сегодня в открытом доступе работают десятки автоматических генераторов карты сайта. Они сканируют ресурс, после чего формируют файл в заданном формате, который можно быстро скачать. Главным минусом такого сервиса является то, что уже после следующего обновления приходится еще раз генерировать новый Sitemap.
Если речь идет об оптимизации крупного проекта, то стоит отдать предпочтение автоматизированным методам создания карты сайта. Важно понять, что Sitemap XML должен не просто присутствовать, но и передавать поисковой системе актуальные данные.
Ликвидация проблем с индексацией
Некоторым оптимизаторам кажется, что Sitemap XML – это малозначительная часть продвижения, которой можно даже пренебречь. Но это не так, более того, в некоторых случаях карта сайта становится незаменимым инструментом. К примеру, Sitemap помогает в тех ситуациях, когда с проекта регулярно отправляются в Сеть подборки страниц, но далеко не все из них успешно проходят индексацию. Это может быть крупный e-commerce-проект с каталогом на 200 тыс. товаров, 10 тыс. страниц категорий и 40 тыс. страниц подкатегорий. Но отправка в Google карты сайта с 250 тыс. адресов показывает, что в индексе находится только 174 тыс. из них.
Как мы уже говорили, поисковые алгоритмы сканируют то, что им нравится, или то, до чего они «дотянулись», но с меньшим энтузиазмом. Поэтому нужно выяснить причину, почему в индексацию не попало значительное количество товаров. Для этого стоит разделить товары по разным категориям, создав для каждой собственный Sitemap XML. Внесение изменений в карту сайта поможет методом исключения определить, почему некоторые страницы не проходят индексацию.
Для начала в качестве гипотез используем самые распространенные причины отказа поисковых систем от индексации. Итак, сканирование не проходит на страницах:
-
без графического изображения товара или иллюстрации услуги;
-
если описание в карточке товара имеет низкую уникальность или объем до 200 слов;
-
отсутствуют отзывы, комментарии или другие факты пользовательской заинтересованности.
В каждую карту сайта необязательно добавлять все ссылки категории. Главное – включить туда достаточно адресов для того, чтобы по итогам эксперимента можно было сделать однозначный вывод. Обычно для проверки гипотезы требуется 20–50 контрольных образцов для каждой подборки.
Сама проверка гипотез на основе Sitemap XML проводится таким образом. К примеру, у вас возникло предположение, что страницы не индексируются из-за отсутствия картинок в карточках товара. В контрольную группу новой карты сайта нужно добавить ссылки на страницы, где графический контент был добавлен. Если страницы будут проиндексированы, то нужно будет внести соответствующие изменения по всему ресурсу. Если опыт не дал результата, то стоит проверить другие гипотезы, которые получится придумать.
Подведем итоги
Работая над оптимизацией карты сайта, нужно не забывать о логике и последовательности действий. Если страница будет заблокирована с помощью robots.txt или метатега noindex, то ее адреса не должно быть в Sitemap XML. Карта сайта – это не список приказов, а перечень рекомендаций для алгоритмов поисковых систем. Этот инструмент лучше применять в качестве средства для удобного выявления ошибок и проблем в индексации. При работе с большими проектами настоятельно рекомендуется использовать программные средства синхронизации для карты сайта, файла robots.txt и метатега robots. Ручная поддержка порядка займет слишком много времени, а автоматические инструменты позволят сохранять уверенность в том, что нужные страницы находятся в карте сайта и не противоречат общей логике работы алгоритмов ранжирования.
www.rookee.ru
Sitemap xml — что это, зачем нужен и как создается
В предыдущих своих статьях я рассказывал об индексации сайта и в частности о Robots.txt. Сегодня будет продолжена данная тема и речь пойдет о файле Sitemap.xml.
Многие владельцы сайтов не знают о необходимости создания карты сайта или просто не придают большого значения этому этапу в продвижении, поэтому часто возникает вопрос: «sitemap xml зачем нужен?»
XML карта сайта предназначена, что бы прямо указывать поисковым роботам какие страницы ресурса следует обязательно проиндексировать.
Sitemap: нужен ли?
В древности поисковые роботы заходили на простые статические Html ресурсы и индексировали все до чего доберутся и это было нормально, поскольку фактически везде был контент проекта. Что имеем сейчас, используя CMS, робот обнаружит сотни, а то и тысячи файлов сразу после установки, при чем Вы не успели еще написать даже одной статьи.
К тому же в современных CMS весь контент хранится в базах данных, а не файлах. А робот не может напрямую индексировать БД, конечно используя внутреннюю перелинковку (если правильно настроена) или другие варианты, боты найдут статьи, что Вы написали, но вот когда это произойдет..?
Именно поэтому резонно создавать sitemap xml – для ускорения и упрощения индексации Вашего ресурса поисковыми системами. Ведь так, Вы ясно и четко объявляете роботам Google, Яндекса, Bing и прочим где именно содержится контент, который хотите донести в народ. Иначе бедняги боты уйдя в дебри сотни и тысяч файлов все свое время (на индексацию и количество просмотренных документов выделяется лимит!) потратят на не нужный мусор и пройдут мимо действительно важного контента.
Графическая структура sitemap.xml — пример
Создание файла Sitemap
Создать файл можно несколькими способами:
- написав все ручками;
- использовав расширения в CMS;
- воспользовавшись онлайн генератором.
Ручное создание файла
Итак, каким образом создавали правильный sitemap в «древние времена»? А все очень просто, зная простейший синтаксис написания sitemap этот файл можно создать в любом xml редакторе (читай текстовом редакторе: блокнот, Edit Plus, Notepad++). Структура карты сайта такова:
- начинаем со стандартной части:
- внутри urlset прописывается серия повторяющихся блоков, где собственно и указываются страницы сайта которые необходимо проиндексировать:
Пара тегов «loc» является обязательным в этом коде, поскольку прописывается адрес страницы.
В теги «lastmod» вписывается дата, когда последний раз обновлялась страница, это позволит роботам не заходить лишний раз на нее.
Тег «changefreq» необходим, чтобы указать, как часто нужно посещать данную страницу (раз в месяц, неделю, день).
В теге «priority» описываем приоритетность индексации этой страницы (от 0 до 1). По умолчанию стоит приоритет 0.5, но его можно (а иногда важно) менять.
Создание карты сайта xml с помощью CMS
Каждая CMS имеет в своем арсенале компоненты и плагины которые динамически генерируют карту сайта в xml или html формате. Зачем создается два типа файла? Один из них xml добавляется в поисковые системы для ускорения индексирования, а другой – html исключительно для пользователей и их удобства.
Такие плагины и компоненты дополнительно скачиваются и интегрируются в CMS вручая Вам удобный инструмент для работы с картой сайта sitemap. По мере добавления новых страниц, данный инструмент в автоматическом режиме обновляет файл sitemap и добавляет URL новых материалов.
В своей CMS при работе с плагинами карты сайта, можете производить настройки, так сказать «под себя». Во-первых указываете какие материалы вашего ресурса необходимо выкинуть из карты, во-вторых задаете частоту обновления, а также самостоятельно можете задаете путь до Вашего файла и придумать имя (оно может быть отличным от sitemap.xml).
В отдельных статьях подробно опишу наиболее распространенные плагины, их установку и использование:
Создание правильного sitemap с помощью онлайн генератора
Если у Вас нет желания устанавливать дополнительные плагины на свою CMS можете использовать онлайн генераторы. Но появляется недостаток – при добавлении новых материалов карта в автоматическом режиме не будет обновляться, а значит придётся каждый раз идти на такие сервисы, создавать заново карту и забрасывать на свой сайт.
Расскажу об самом известном это Sitemap Generator. Широкий функционал и возможность создавать карту на 1500 страниц позволяет засчитать данный онлайн генератор в разряд лучших.
Если Вы решите использовать данный вид создания файла Sitemap, обращаю внимание, что должен присутствовать robots.txt в корне сайта и быть правильно написан, поскольку при создании карты генератором будет учитываться robots для выяснения какие страницы не должны быть включены в карту.
Чтобы с помощью Sitemap Generator создать карту необходимо указать URL Вашего сайта и написать свой E-mail, дальше попадаете в очередь на генерацию:
Когда наступить Ваша очередь на указанную почту придет сообщение с указанной ссылкой на готовую xml карту сайта, и останется лишь разместить данный файл в корневой каталог.
Sitemap: куда поместить?
Файл robots.txt должен обязательно присутствовать в корне сайта, а sitemap xml файл где угодно. Конечно хорошим тоном считается размещать карту в корень, в противном же случае придётся напрямую «рассказать» роботам о местоположении файла прописав соответствующую строку в robots. Иначе для поисковых систем окажется, что файл sitemap недоступен.
Однако Гуглу и Яндексу можно сообщить о том, где находится sitemap через панель инструментов Google и интерфейс Яндекс Вебмастера. Если Вы еще не знакомы с данными инструментами веб-мастеров, немедленно отправляйтесь на их изучение, после чего добавьте свои проэкты в Яндекс и Googl, и в соответствующих вкладках укажите путь к вашей карте формате Xml.
Форма добавления в Google:
Форма добавления в Яндекс:
Не устаю напоминать, что файл sitemap.xml очень важен для правильной работы, оптимизации и продвижения Вашего проекта.
Проверка sitemap xml
Если Вы желаете знать, как посмотреть карту сайта, чтобы проверить, правильно ли она добавлена, следует в браузере прописать следующую строку: http://site.com/sitemap.xml.
Также можно воспользоваться вебмастерами Yandex и Google для проверки sitemap xml.
Sitemap xml — что это? (видео)
guland.biz