Как правильно изменить правила генерации sitemap.xml? — Хабр Q&A
нужна помощь касающаяся файла Sitemap.xml. У меня есть свой сайт, и сейчас карта сайта на нём такова:
urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>http://pro-basket.ru/</loc> <changefreq>daily</changefreq> <priority>0.5</priority> </url> <url> <loc>http://pro-basket.ru/info/</loc> <changefreq>daily</changefreq> <priority>0.5</priority> </url> <url> <loc>http://pro-basket.ru/contacts/</loc> <changefreq>daily</changefreq> <priority>0.5</priority> </url> <url> <loc>http://pro-basket.ru/price/</loc> <changefreq>daily</changefreq> <priority>0.5</priority> </url> </urlset>
Это всё статические страницы, за исключением первой (всё же на ней располагается список предстоящих матчей, которые обновляются ежедневно).
sitemap.py:
from django.contrib import sitemaps from django.urls import reverse class StaticViewSitemap(sitemaps.Sitemap): priority = 0.5 changefreq = 'daily' def items(self): return ['index', 'post', 'contacts', 'price',] def location(self, item): return reverse(item)
urls.py:
from django.urls import path from . import views from django.views.generic.base import TemplateView from django.contrib.sitemaps.views import sitemap from .sitemaps import StaticViewSitemap sitemaps = { 'static': StaticViewSitemap, } urlpatterns = [ path('', views.index, name='index'), path('events/<country>/<liga>/', views.liga_detail, name='liga_detail'), path('accounts/login/', views.accounts), path('events/<int:index_id>/', views.match_detail, name='match_detail'), path('overall/<home>&<away>/<int:index_id>/', views.match, name='match'), path('separately/<home>&<away>/<int:index_id>/', views. match_sap, name='match_sap'), path('personal/<home>&<away>/<int:index_id>/', views.match_per, name='match_per'), path('quater/<home>&<away>/', views.QuaterListView.as_view(), name='quater'), path('live/<home>&<away>/', views.LiveListView.as_view(), name='live'), path('livestat/', views.JsonFilterLiveView.as_view(), name='live_filter'), path('statistica/', views.JsonFilterMoviesView.as_view(), name='json_filter'), path('modeling/<home>&<away>/', views.Monte, name='modeling'), path('price/', views.price, name='price'), path('contacts/', views.contacts, name='contacts'), path('info/', views.post, name='post'), path( "robots.txt", TemplateView.as_view(template_name="robots.txt", content_type="text/plain"), ), path('sitemap.xml', sitemap, {'sitemaps': sitemaps}, name='django.contrib.sitemaps.views.sitemap'), ]
На сайте есть раздел по каждой лиге, у каждой свой адрес, например: https://pro-basket. ru/events/Europe/Euroleague/ и по каждому матчу, например: https://pro-basket.ru/overall/FC%20Barcelona&Bilba… . И вот мне нужно настроить генерацию файла sitemap, чтобы в него попадали все ссылки на все матчи и на все лиги (с ежедневным обновлением), перепробовал уже многое по различным инструкциям и туториалам в интернете, при попытке что-то изменить — сайт «падает». Сразу хочу сказать, что данный сайт перешел ко мне «по наследству» и я пока не супер-знаток языка Python. Если какие-то файлы забыл показать — напишите об этом.
Sitemap.xml
Sitemap.xml
Для эффективного продвижения сайта необходима его полная и регулярная индексация поисковыми системами. Указания роботам о доступных для сканирования страницах размещают в файле Sitemap. Он представляет собой XML-документ (реже txt), перечисляющий URL-адреса ресурса, каждому из которых соответствуют метаданные (частота изменений, дата последних обновлений, приоритетность страницы для сканирования относительно сайта). Использование протокола Sitemap не гарантирует полной индексации сайта, но позволяет роботам произвести более тщательное сканирование. Его версию 1.0 поддерживают Google, Yandex, Yahoo!, Bing и Ask.com.Файл Sitemap полезен для эффективной раскрутки сайта, если ресурс:
— содержит страницы с изображениями или мультимедийным AJAX-контентом, которые не могут быть обнаружены поисковыми роботами при сканировании, динамическую составляющую или большой архив документов, не перелинкованных между собой;
Формат
В файле Sitemap необходимо использование кодировки UTF-8, маскирование символов ‘, “, <, > и &. Формат протокола состоит из XML-тегов.
Обязательные теги:
— <urlset> указывает стандарт протокола и инкапсулирует файл. Открывающий необходим в начале документа, закрывающий — в конце,
— <url> — родительский тег для каждого URL,
— <loc> — URL-адрес веб-страницы, начинается с префикса и заканчивается символом /. Его длина ограничивается 2048 символами.
Необязательные теги: <lastmod> — дата последнего изменения в формате W3C Datetime, позволяющем опустить сегмент времени и при необходимости использовать вид ГГГГ-ММ-ДД. <changefreq> — предполагаемая частота обновлений данной страницы. Допустимы значения always (для описания документов, изменяющихся при каждом доступе к ним), hourly, daily, weekly, monthly, yearly и never (для архивных адресов). <priority> — приоритетность данного URL-адреса относительно других на ресурсе. Позволяет выделить страницы с наиболее важными для поисковой оптимизации сайта запросами. Стандартный диапазон значений от 0 до 1 (по умолчанию 0.5).
Простейший файл Sitemap имеет следующий вид:
<?xml version= «1.0» encoding=»UTF-8″?>
<url>
<loc> https://stdgrand.ru/site.ru/ </loc>
<lastmod> 2010-09-09 </lastmod>
<changefreq> weekly </changefreq>
<priority> 0.9 </priority>
</url>
</urlset>
Количество адресов в файле Sitemap не должно превышать 50 000, максимальный размер — 10 МБ. Допускается сжимать файл архиватором gzip для уменьшения требований к пропускной способности канала. При необходимости описания более 50 000 адресов создают несколько файлов Sitemap.
Sitemap.XML — почему важны Changefreq и Priority
Если на вашем веб-сайте есть XML-карта сайта (и она должна использоваться для целей индексации в соответствии с нашими элементами аудита передовой практики SEO 2014 г. ), Changefreq и Priority — это два важных тега карты сайта для предоставления данных поисковые системы. Они влияют на то, когда и как часто «пауки» поисковых систем (также называемые «роботами» или «краулерами») посещают отдельные страницы вашего сайта, что имеет различные последствия.
Хотя использование тегов Changefreq и Priority XML карты сайта является добровольным, они остаются важными по нескольким причинам. Прочтите краткий и удобный обзор рекомендаций Priory и Changefreq для карты сайта Google…
Настройки приоритета Changefreq и Sitemap.XML
Согласно Google, тег XML Changefreq может быть установлен на одну из семи частот:
- «никогда»
- «ежегодно»
- «ежемесячно»
- «еженедельно»
- «ежедневно»
- «ежечасно»
- «всегда»
Сообщает поисковым системам, как часто обновляется каждая страница. Под обновлением понимаются фактические изменения кода HTML или текста страницы, а не обновленное содержание Flash или измененные изображения.
Рекомендации и примеры Changefreq- НИКОГДА : Старые новости, пресс-релизы и т. д.
- ЕЖЕГОДНО : Контакты, «О нас», вход, страницы регистрации
- ЕЖЕМЕСЯЧНО : часто задаваемые вопросы, инструкции, периодически обновляемые статьи
- ЕЖЕНЕДЕЛЬНО : страницы с информацией о продуктах, каталоги веб-сайтов
- ЕЖЕДНЕВНЫЙ : Указатель записей в блогах, объявления, небольшая доска объявлений
- ЕЖЕМЕСЯЧНО : Главный новостной сайт, информация о погоде, форум
- ВСЕГДА : данные фондового рынка, категории социальных закладок
Priority XML
Тег Priority XML для карты сайта полезен, хотя и не так важен. Он устанавливается равным числу от нуля до единицы; если число не назначено, приоритет страницы обычно устанавливается равным 0,5, однако это может варьироваться в зависимости от вашего конкретного сайта и плагина. Страница с высоким приоритетом может индексироваться чаще и/или отображаться выше других страниц того же сайта в результатах поиска.
Вот несколько примеров различных типов страниц и того, как может быть установлено значение их XML-тега Priority sitemap, в зависимости от их важности…
- 0.8-1.0: Домашняя страница, субдомены, информация о продукте, основные функции, страницы основных категорий .
- 0.4-0.7: статьи и записи в блогах, страницы второстепенных категорий, страницы подкатегорий, часто задаваемые вопросы
- 0.0-0.3: Устаревшие новости, информация, ставшая неактуальной
ПРИМЕЧАНИЕ. XML Changefreq и Priority для крупных сайтов
Важно отметить, что эти настройки обычно более важны для крупных веб-сайтов. Для небольших веб-сайтов (скажем, менее 100 страниц для примера) Google хорошо справляется с определением относительных приоритетов контента и изменений самостоятельно. Поскольку сайт меньше, его содержимое легко сканировать чаще. Кроме того, небольшой сайт (обычно) имеет более простую иерархию, что облегчает интерпретацию относительных приоритетов любой данной страницы.
Однако для больших или очень больших сайтов (например, тысячи или сотни тысяч страниц) XML-теги Changeqfreq и Priority становятся гораздо более важными. С таким количеством страниц мы хотим сделать все возможное, чтобы помочь поисковым системам понять и просканировать наш контент. И эти два тега — отличный способ сделать это.
Будут ли поисковые системы соблюдать эти настройки?
Насколько строго они хотят следовать спецификациям карты сайта Priority и Changefreq, зависит от поисковых систем; эти теги XML считаются предпочтениями, а не заказами. Это не означает, что поисковые системы не считают Priority и Changefreq важными, просто они не будут ставить инструкции карты сайта выше своих собственных интересов (например, следить за тем, чтобы сайт не изменил свою тему или не стал порнографическим).
Но почему так важно, когда и как часто поисковые системы индексируют ваши страницы? Когда «паук» посещает веб-страницу, он записывает информацию о содержании страницы, заголовке, мета-тегах, ссылках и других характеристиках. Это гарантирует, что результаты поиска отражают его последний контент и учитывают все последние улучшения (например, новые META-теги или восстановленные ссылки).
Однако «паукам» не нужно регулярно сканировать страницы, которые редко или никогда не обновляются. Индексация паука потребляет пропускную способность (что может увеличить стоимость работы вашего веб-сайта) и может ненадолго замедлить доступ к вашему сайту, если он работает на сервере с низкой пропускной способностью. Поэтому важно установить тег карты сайта Changefreq, чтобы точно отражать частоту обновления отдельных страниц.
Что теперь?
Как мы упоминали ранее, настройки Changefreq и Priority — это всего лишь руководство для Google или любой другой поисковой системы, которому следует следовать при индексировании вашего сайта. Если у вас есть возможность сделать это самостоятельно или вам нужна небольшая помощь доверенного эксперта, настоятельно рекомендуется глубоко погрузиться в общую структуру вашего сайта. Запланируйте SEO-аудит сайта с Volume Nine уже сегодня.
Октябрь 2018 г. Обновление:
По мере развития Google за последние несколько лет они сделали несколько важных комментариев о том, как они предпочитают обрабатывать теги Changefreq и Priority.XML в вашем файле Sitemap.XML. В этом чате для веб-мастеров Google Hangout 2015 года Джон Мюллер из Google прокомментировал снижение важности этих двух тегов.
По сути, Google подчеркнул, что одним из наиболее современных элементов, на который действительно стоит обратить внимание, является метка времени для любой данной страницы. Это помогает сообщить Google, когда страница была обновлена в последний раз. Google, кажется, заботится о том, чтобы они могли легко видеть, когда и как часто обновляется контент, и чтобы вы последовательны в том, как вы сообщаете им об этом. Отметка времени — отличный способ сделать это.
Для наших целей мы по-прежнему считаем, что настройки приоритета Changefreq и Sitemap. XML являются еще одним важным способом сделать это (особенно для крупных сайтов — см. примечание ниже), при условии, что вы следуете рекомендациям, изложенным в этом посте. И, конечно же, в свете новых комментариев, обновление метки времени для новых изменений также будет иметь первостепенное значение.
Вот полные вопросы и ответы от Google:
XML Sitemap Приоритет и частота изменений карты сайта: необходимо для SEO?
Мы снова вернулись к другой горячо обсуждаемой теме; тот, что даже у ботов есть мнение по этому поводу; приоритет карты сайта. Есть много мнений по этому поводу, однако мы здесь не для того, чтобы пытаться убедить вас в том или ином виде. Мы будем , с другой стороны, предоставим вам факты, чтобы вы могли принять решение. Давайте взглянем.
Это лучшее обслуживание клиентов, которое я когда-либо испытывал. Слава и спасибо!
Калеб Фриман, директор по работе с клиентами Peppercomm
Подробнее
Что такое приоритет карты сайта?
В мире, где у каждого есть свое мнение, значение приоритета карты сайта — это то, с чем на самом деле согласны массы… по большей части. Кажется, есть два основных мнения, но, в конце концов, выбор за вами; мы обсудим детали, чтобы вы могли принять решение.
Один из многих инструментов, находящихся в распоряжении веб-мастера, функция приоритета карты сайта заключается в назначении уровня важности или приоритета с числовым значением для страницы или страниц, которые указывают поисковым системам, насколько важны некоторые страницы в пределах только ваш сайт .
Как выглядит тег приоритета XML карты сайта?
Теги приоритета XML, выделенные ниже жирным шрифтом, записываются как таковые. Сначала идентифицируем тег, записываем числовое значение (подробнее объяснено ниже) и закрываем его.
<ссылка>https://slickplan.com/blog еженедельно <приоритет>0,7приоритет> <ссылка>https://slickplan.com/ <приоритет>1.0приоритет>
Каковы значения и уровни приоритета карты сайта?
В числовом виде значения приоритета или уровни карты сайта варьируются от 1,0 до 0,0. Самые важные, заметные и качественные страницы будут помечены цифрой 1.0 — обычно это главная страница. Затем числа уменьшаются, указывая на менее важные страницы. Это не значит, что страница с пометкой 0.0 бесполезна; это просто означает, что он не так важен, как домашняя страница.
Итак, еще раз — 1,0, 0,9, 0,8, 0,7, 0,6, 0,5, 0,4, 0,3, 0,2, 0,1 и 0,0.
При работе с создателем карты сайта вы можете рассмотреть возможность использования этих тегов атрибутов. В зависимости от того, какой XML-генератор карты сайта вы используете, он может фактически автоматически размещать теги приоритета в файле для вас. Если оставить его неназначенным, по умолчанию домашней странице будет присвоен уровень 1,0, а всем остальным страницам — уровень 0,5. Тем не менее, вы можете сделать это вручную в зависимости от размера вашего сайта и того, насколько вы контролируете этот процесс. Вот несколько общих рекомендаций относительно того, каковы типичные уровни, присваиваемые различным частям сайтов. Имейте в виду, что вы рассматриваете это как начало сверху и обратный отсчет до менее приоритетного.
1.0-0.8
Домашняя страница, информация о продукте, целевые страницы.
0,7-0,4
Новостные статьи, некоторые метеослужбы, посты в блогах, страницы, без которых сайт был бы неполным.
0.3-0.0
Часто задаваемые вопросы, устаревшая информация, старые пресс-релизы, полностью статические страницы, которые все еще достаточно актуальны, чтобы их нельзя было удалить полностью.
Приоритет XML-карты сайта SEO: какую пользу это принесет вашему сайту?
Обычно здесь начинаются разногласия между двумя сторонами. Некоторые люди используют их в религиозных целях, а некоторые считают их ерундой. Как уже упоминалось, мы будем держать свое мнение при себе и просто сообщать факты. Эти атрибуты — приоритет, changefreq, lastmod, urlset xmlns, отсутствие индекса и т. д. — подпадают под так называемый протокол карты сайта. Приоритет карты сайта позволяет поисковой системе сравнивать ценность страниц на одном сайте. Важно отметить, что он не сравнивает значения этих страниц со значениями страниц на других сайтах. Перепроверки нет. При этом это никак не повлияет на ранжирование страницы в результатах поиска. Однако теоретически он будет предлагать страницы, которые вы считаете более важными, чаще, чем другие страницы, предлагаемые вашим сайтом.
Обратите внимание, что это отличается от канонических URL-адресов, поскольку важность страницы может зависеть от многих факторов. Например, может быть несколько версий страницы для различных типов устройств, которые мы используем, т. е. для настольных компьютеров, мобильных устройств и AMP. Но это не имеет ничего общего с выбором значения важности, и Google может выбрать для вас каноническую страницу, если вы решите не делать этого вручную.
Другая проблема здесь — та, к которой Джон Мюллер из Google обратился напрямую, отметив, что теги приоритета и changefreq на самом деле не имеют значения для Google Search Console и, в свою очередь, не играют реальной роли в индексировании и страницах результатов поисковой системы (SERP). . Google даже написал об этом, добавив, что «в настоящее время они не используют атрибут
Хотя поисковые системы не обращают внимания на эти атрибуты, многие люди по-прежнему считают, что добавление тегов приоритета в файл карты сайта, по крайней мере, мотивирует поисковые системы индексировать и сканировать все страницы и, в свою очередь, сначала индексировать некоторые страницы. Теоретически это влияет на результаты поиска.
Что такое частота изменения карты сайта (changefreq)?
В XML-файлах частота изменений указывает (и теоретически заставляет Google действовать в соответствии с этим), как часто обновляются определенные страницы в HTML-коде или тексте вашего сайта. Это не включает в себя изменения во Flash или изменение изображений. Это действительно так просто.
Что такое 7 атрибутов частоты смены карты сайта XML?
1. Всегда
Эти типы страниц постоянно меняются и будут включать индексные страницы основных новостных изданий, Новости Google, данные фондового рынка и категории социальных закладок.
2. Ежечасно
Эти страницы обновляются каждый час и включают в себя основные новостные публикации, метеорологические службы и форумы.
3. Ежедневно
Страницы обновляются в среднем один раз в день и включают такие вещи, как сообщения в блогах, небольшие страницы веб-форумов, доски объявлений и тематические объявления.
4. Еженедельно
Обновления обычно происходят один раз в неделю, эти страницы будут включать каталоги веб-сайтов, страницы с ценами на продукты и небольшие блоги.
5. Ежемесячно
Они обновляются один раз в месяц, плюс-минус, и включают страницы категорий, часто задаваемые вопросы, а иногда и статьи службы поддержки, которые немного меняются. Обратитесь к разделу выше, чтобы узнать, что считается триггером изменения частоты.
6. Ежегодно
Обновления на этих страницах происходят ежегодно, и обычно это ваша контактная страница, страница «О нас», страницы входа и страницы регистрации.
7. Никогда
Как следует из названия, эти страницы никогда не обновляются. Это действительно старые записи в блогах, пресс-релизы, уведомления об обновлениях, которые никогда не нуждаются в обновлении, и полностью статичные страницы.
XML-теги частоты изменений или changefreq, выделенные ниже жирным шрифтом, записываются как таковые. Во-первых, идентифицируйте тег, запишите скорость его изменения, используя значение, указанное в разделе выше, и закройте его. После этого вы всегда можете использовать валидатор карты сайта, чтобы проверить свою работу.
<ссылка>https://slickplan.com/blog еженедельно <приоритет>0,7приоритет>
Частота изменения карты сайта SEO: какую пользу это принесет вашему сайту?
Частота изменений, как ранее упоминал Джон Мюллер, просто не является тем, на что Google обращает внимание, что делает включение атрибутов changefreq неуместным. Наоборот, мы также упоминали, что многие люди по-прежнему считают эти XML-теги актуальными и полезными, поскольку они сообщают сканерам, как часто в страницы вносятся изменения и когда их необходимо перепроверять. Будь то почасовая работа, одна и сделанная за год, или что-то среднее между ними. Это полезно для вашего сайта, потому что дает Google гораздо более полное представление о вашем сайте, позволяя поисковой системе правильно предлагать страницы. Кроме того, это помогает вам (и Google) расставлять приоритеты для новых и обновленных страниц, а не для старых или менее актуальных страниц.
Шаблоны Sitemap и импортированные большинством поисковых роботов не включают эти теги атрибутов, поскольку они специфичны для вашего сайта и могут быть добавлены позже по мере необходимости.
Заключительные пункты
Мы упоминали, что не будем высказывать конкретное мнение по этому поводу, , но мы бы предоставили факты. Некоторые утверждают, что факты приводят вас к довольно прямому выводу. Считаете ли вы, что некоторые из этих тегов делают что-то стоящее, полностью зависит от вас, но мы надеемся, что вы получили больше информации и лучшую перспективу, чем раньше. С другой стороны, существует довольно прямая корреляция между частотными метками и номерами приоритета, что на самом деле может быть вам на пользу, потому что вы только что определили самые важные страницы, наиболее обновленные страницы, менее важные и, возможно, даже некоторые тупики тоже.