Исправляем распространенные ошибки в карте сайта
16 мин — время чтения
Апр 29, 2021
Поделиться
Вы создали карту сайта, загрузили ее в Google Search Console, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковикиигнорирует ваш файл Sitemap и не собирается индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и даже расскажем, как это сделать.
Если у вас еще нет карты сайта и вы хотите узнать, зачем она нужна, ознакомьтесь с нашим вводным интенсивом по созданию файла Sitemap. Здесь мы расскажем о преимуществах использования карты сайта и действенных рекомендациях по работе с ней. Если вы пока не знаете, для чего используют теги <loc> и <lastmod>, что такое карта сайта для видео или файл индекса Sitemap, вводное руководство вам точно пригодится.
В первой части этой статьи перечислены все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console. Если же вы ищете способ устранить конкретные проблемы, воспользуйтесь содержанием, чтобы перейти к интересующим вас ошибкам.
Во второй части — рекомендации, которые помогут вам извлечь максимальную выгоду из карты сайта. Вы узнаете, как найти мусорные страницы в файле Sitemap, где искать страницы, которые вы могли пропустить и не добавить в карту сайта, и как заставить поисковик проиндексировать как можно больше страниц из файла Sitemap. Поэтому очень советую всем внимательно ознакомиться со второй главой этой статьи.
Исправление ошибок в отчете Sitemap
После загрузки карты сайта в Google в столбце «Статус» можно увидеть, удалось ли поисковику обработать файл. Если ваш файл соответствует всем правилам, появится статус «Успешно». В этой главе мы рассмотрим другие статусы, а именно «Не получено» и «Обнаружены проблемы».
Проблемы со сканированием вашего файла Sitemap
Начнем с самого худшего сценария, когда поисковик не может обработать файл Sitemap. Сначала разберемся с Google — что делать, если статус вашей карты сайта «Не получено».
В этом случае вам придется использовать «Инструмент проверки URL», чтобы выяснить, что может быть причиной проблемы. В инструменте нажмите кнопку «Проверить страницу на сайте» и посмотрите статус получения страницы. Если написано «Успешно», значит ошибка на стороне Google.
Если Google не удалось получить вашу карту сайта, убедитесь, что ничто не блокирует доступ к файлу Sitemap — будь то директивы robots.txt или плагины CMS (да, иногда виноваты они!). Также проверьте, правильно ли введен URL-адрес карты сайта — обратите внимание на протокол и префикс www.
Ошибка «Не получено» может возникнуть как при загрузке отдельной карты сайта, так и в случае загрузки в Google Search Console файла индекса Sitemap. Проблему нужно решить так же, как и с одной картой сайта.
Ошибки в файле индекса Sitemap
Теперь перейдем к случаям, когда поисковики просканировали добавленный вами файл и обнаружили ошибки. И начнем мы с ошибок файла индекса Sitemap.
Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.
Кроме того, в вашем файле индекса Sitemap не должны быть указаны другие файлы индекса Sitemap, а только карты сайта. Если вы сделаете так, то получите сообщение «Вложенные файлы индекса Sitemap» в Google Search Console.
И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.
Недопустимый размер файла Sitemap и ошибки сжатия
Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google. Узнать больше о том, как разделить карту сайта на несколько файлов, можно из нашего полного руководства по созданию файла Sitemap.
Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в консоли.
Я говорила, что допустимый размер карты сайта в несжатом виде должен быть меньше 50 МБ, но часто файлы Sitemap сжимают для экономии пропускной способности канала. Обычно для этой цели используют инструмент gzip, который добавляет расширение gz к файлу. Сообщение об ошибке сжатия или разархивирования в отчете означает, что что-то пошло не так во время процесса сжатия, и вам нужно сделать это еще раз.
Проблемы со сканированием URL-адресов в карте сайта
По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.
«Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.
Еще одна довольно очевидная проблема, которая не позволяет Google сканировать страницу, — это код ответа, отличный от 200 ОК. В отчете поисковиков это называется ошибкой HTTP, и точный код указывается для каждой отдельной страницы. Кроме консолей вебмастеров, проверить коды ответа URL-адресов из вашей карты сайта можно с помощью инструмента «Аудит сайта» от SE Ranking.
Всю необходимую информацию ищите в разделе «Код ответа сервера».
Google также выделяет другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.
Ошибка «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.
Ошибка «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.
Google Search Console не указывает, что именно может быть причиной проблемы. Поэтому вам нужно использовать другие инструменты, чтобы понять, какие ошибки необходимо исправить. Например, в инструменте «Аудит сайта» SE Ranking есть специальный раздел «Редиректы», где можно проверить, есть ли на вашем сайте какие-либо проблемы с перенаправлениями.
Если инструмент обнаружит какие-либо ошибки, вы получите всю необходимую информацию по каждой из них — щелкнув на количество страниц, можно узнать, на какой странице есть проблема и как она связана с другими страницами сайта.
Ошибка «Нельзя использовать URL» означает, что ваша карта сайта содержит URL-адреса, которые находятся на более высоком уровне или в другом домене по сравнению с файлом Sitemap. Например, если ваша карта сайта находится по адресу: vashsajt.com/category1/sitemap.xml и вы добавили в нее страницу, адрес которой: vashsajt.com/stranitsa1, поисковики не смогут получить к ней доступ.
Что касается разных доменов, помните, что для Google версии сайта на HTTP и HTTPS, а также с www и без www считаются разными. Поэтому, если ваша карта сайта находится по адресу http://www.vashsajt.com/sitemap.xml, URL вида https://vashsajt.com/stranitsa1 будет считаться некорректным.
Если вы недавно перешли на HTTPS, обязательно создайте новую карту сайта с HTTPS URL-адресами. Инструмент «Аудит сайта» SE Ranking напомнит вам об этом.
Google считает, что вы указали неправильные URL
Также стоит обратить внимание на еще одну ошибку, которую выделяет Google. Если вы добавите URL без префикса www в свою карту сайта, адрес которой содержит www, вы получите ошибку «Несоответствующий путь». То же самое касается файла Sitemap с www и URL-адресом без соответствующего префикса. Даже если ваш сайт доступен как с префиксом www, так и без него, не нужно путать эти вещи в карте сайта. Если ваш файл Sitemap находится по адресу: https://example.com/sitemap.xml, ни один из URL-ов, которые она содержит, не должен включать www. Если ваша карта сайта находится по адресу: https://www. example.com/sitemap.xml, все перечисленные в ней URL-ы должны включать www.
Синтаксические ошибки в карте сайта
В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок.
- «Недопустимое значение тега». Значение тега — это то, что вы указываете между начальным и конечным тегами — URL-адрес между тегами <loc>, или дата, которую вы определяете с помощью тега <lastmod>. Ошибка возникает, когда вы указываете недопустимое значение в карте сайта, например, устанавливаете приоритет вне диапазона от 0,0 до 1,0.
- «Неверное значение атрибута». Значение атрибута указывается после знака равенства (=) в кавычках. В следующей строке кода перечислены различные языковые версии страницы в файле Sitemap.
<url><loc>https://example.com</loc><xhtml:link rel=”alternate” hreflang=”gb” href=”https://example.com”/><xhtml:link rel=”alternate” hreflang=”fr” href=”https://example.com/fr”/></url>
Здесь “alternate”, “gb” и “fr” являются значениями атрибутов, но “gb” используется неправильно. Вы не можете указать в hreflangs только код страны — он должен сочетаться с кодом языка, например, “en-gb”.
- «Неправильно введена дата». Все довольно просто — вы использовали неправильный формат даты для тега <lastmod>. Единственный допустимый формат:
2005-02-21 2005-02-21T18:00:15+00:00
- «Недопустимый URL». Как вы могли догадаться, эта ошибка означает, что нужно искать опечатки в добавленных URL-адресах. Напомню, что все URL-ы в вашей карте сайта должны быть абсолютными.
- Ошибки «Отсутствует атрибут XML» и «Отсутствует тег XML» тоже довольно очевидны. Отсутствие обязательных тегов и атрибутов (urlset, url, loc, xmlns) недопустимо — их нужно добавить, чтобы ваша карта сайта работала должным образом.
- «Недопустимый XML: слишком много тегов». Эта ошибка может возникнуть, если вы используете один из тегов несколько раз. Например, вы указали два разных адреса или две даты изменения для одного URL. В этом случае вам необходимо удалить повторяющийся тег.
<url> <loc>http://www.example.com/</loc> <lastmod>2021-01-01</lastmod> <lastmod>2021-02-01</lastmod> <changefreq>monthly</changefreq> <priority>0.8</priority> </url>
- «Неправильно указано пространство имен».
Обычные файлы Sitemap — xmlns=”http://www.sitemaps.org/schemas/sitemap/0. 9”
Файлы Sitemap для новостей — xmlns:news=”http://www.google.com/schemas/sitemap-news/0.9″
Файлы Sitemap для видео — xmlns:video=”http://www.google.com/schemas/sitemap-video/1.1″
Файлы Sitemap для изображений — xmlns:image:=”http://www.google.com/schemas/sitemap-image/1.1″
Напомню, что специальные карты сайта для новостей, картинок и видео поддерживает только Google.
Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8.
Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.
Чтобы избежать синтаксических ошибок, перед отправкой файла Sitemap используйте один из сервисов проверки карты сайта, подобных этому. Инструменты будут выделять проблемы, которые необходимо исправить.
После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.
Такие действия заставят Google повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок.
Загруженные vs проиндексированные URL-адреса
Ваша карта сайта и файл индекса Sitemap могут получить статус «Успешно» или «Ок», но на этом ваша работа не заканчивается.
Давайте сначала разберем, что делать дальше в Google Search Console. Щелкните на значок диаграммы рядом с количеством выявленных URL-адресов, чтобы перейти к отчету об индексировании. Как только вы начнете анализировать его, вы скорее всего заметите, что не все отправленные страницы были проиндексированы.
Это нормально, когда страницы исключаются из индексации — Google не может оценить и проиндексировать все страницы вашего сайта, о которых он знает. Более того, почти на каждом сайте есть страницы, которые вебмастера не хотят индексировать: страницы защищенные паролем, служебные страницы и дубли. Что не нормально, так это наличие ошибок и предупреждений в вашем отчете об индексировании. Также недопустимо, чтобы количество исключенных страниц во много раз превышало количество страниц без ошибок.
Так почему же поисковики не могут проиндексировать страницы, которые были добавлены в карту сайта? В большинстве случаев это происходит, когда вы добавляете туда страницы, которых в карте сайта быть не должно. Возможно, поисковики просто не могут проиндексировать страницу из-за директивы noindex. Кроме того, поисковики могут запутаться, действительно ли вы хотите, чтобы страница была проиндексирована — например, когда вы добавляете неканонические страницы в карту сайта.
Все подобные ошибки можно найти в разных вкладках «Отчета об индексировании» в Google Search Console. Но их удобнее проверять с помощью инструмента «Аудит сайта» SE Ranking — если на вашем сайте есть подобные проблемы, вы легко найдете их все в разделе «Сканирование» в «Отчете об ошибках».
Удалите из карты сайта неиндексируемые и неканонические страницы. А если страницы были по ошибке помечены как неиндексируемые и неканонические, решите эту проблему.
Оптимизируйте карту сайта с подсказками от Google
Убедившись, что с вашей картой сайта все в порядке, изучите «Отчет об индексировании», чтобы найти случаи, когда ваше мнение о странице расходится с Google.
- На вкладке «Без ошибок, есть предупреждения» обратите внимание на страницы, которые были проиндексированы, несмотря на директиву noindex. Скорее всего, Google был прав, и вам нужно удалить тег noindex из этих страниц или из вашего X-Robots-Tag.
- На вкладке «Страница без ошибок» посмотрите внимательно на проиндексированные, но не отправленные в файл Sitemap страницы — вы можете добавить их в карту сайта, так как Google считает их качественными. В то же время, если Google проиндексировал ваше «Пользовательское соглашение», которое вы не включили в карту сайта, можно ничего не делать. Также следите за дублями страниц, которые были проиндексированы, но отсутствовали в вашей карте сайта — такие случаи часто возникают из-за проблем с пагинацией и обработкой параметров URL-адресов.
- Наконец, перейдите на вкладку «Исключено». Большинство страниц здесь исключены из индексации в соответствии с вашими собственными директивами, например старые страницы 404, страницы, заблокированные robots.txt, неиндексируемые и неканонические страницы. Обратите внимание на канонические страницы, которые Google решил не индексировать, — поисковая система считает, что на вашем сайте есть альтернативы получше. Тщательно изучите каждый случай и решите, действительно ли страница более ценна, чем ее дубли — исправьте свои теги canonical, если Google был прав. Если вы по-прежнему считаете, что страницу нужно проиндексировать, вам придется поработать над ее содержанием, профилем бэклинков и внутренней линковкой, чтобы убедить Google в обратном.
На вкладке «Исключено» можно увидеть еще две интересные категории страниц: «Просканированы, но пока не проиндексированы», и «Обнаружены, не проиндексированы». Оба типа обычно определяют некачественные страницы с малым содержанием, которые Google не хочет показывать пользователям. В первом случае страница была по крайней мере просканирована, а затем признана некачественной. А во втором случае поисковик даже не потратил краулинговый бюджет на страницу. Тщательно проанализируйте все такие страницы и посмотрите, что вы можете сделать, чтобы повысить их ценность: поработайте над контентом, взаимодействием с пользователем, внутренней линковкой и т. д.
Заключение
Благодаря разнообразию инструментов для создания карты сайта сделать файл Sitemap очень легко. Однако, если вы просто воспользуетесь одним из случайных инструментов и проигнорируете рекомендации по созданию карты сайта, то наверняка получите отчет о файле Sitemap с большим количеством ошибок, или отправите через карту сайта множество некачественных страниц на рассмотрение поисковикам.
Я надеюсь, что это руководство помогло вам исправить каждую ошибку в отчете о файле Sitemap. А воспользовавшись советами из второй части этого руководства, вы сможете оставить в карте сайта только качественные страницы и убрать все те, которые поисковики все равно не захотят индексировать. Если у вас остались вопросы, не стесняйтесь оставлять их в комментариях ниже.
3631 views
Ошибки в карте сайта файле sitemap.xml. Проблема неизвестного тега, 404. Список страниц, проиндексированных Яндекс
Декабрь 7, 2017
Основы SEO Инструкции к Labrika Алгоритмы CMS
Sitemap.xml — это карта сайта для поисковых роботов, которая находится в корне сайта и содержит рекомендации того, какие страницы необходимо обходить в первую очередь и с какой частотой. Это ускоряет и упрощает процесс индексации. Создание карты сайта sitemap.xml
не является обязательным правилом. Такая карта должна быть на сайтах, которые имеют большое количество страниц, и в тех случаях, когда контент на страницах часто обновляется. В некоторых CMS есть возможность карту сайта создать автоматически, сделать это можно с помощью специального плагина. Однако это не исключает появление ошибок.
Ошибки в sitemap.xml
существенно снижают скорость попадания сайта в индекс и затрудняют работу поисковых роботов Яндекс и Google. Поэтому их необходимо вовремя находить и устранять. Однако, если на вашем сайте большое количество страниц, найти неисправности в sitemap вручную будет непросто из-за большого объема данных. На помощь приходит сервис Labrika, в котором есть полезный инструмент для работы с sitemap.xml
. Он поможет вам своевременно проверить ошибки и исправить их автоматически, в один клик.
Находится этот инструмент в разделе «Технический аудит» левого бокового меню:
Рассмотрим подробнее, как пользоваться этим подразделом и какие данные можно в нем увидеть:
- Здесь представлены данные о страницах, которые есть в
sitemap.xml
, но которых нет на сайте. Эти страницы перечислены ниже, в виде списка. Возможно, они были удалены с сайта и отдают ошибку 404, но в sitemap информацию о них не убрали. - Далее мы можем видеть страницы, которые доступны для индексации поисковых роботов, но отсутствуют в sitemap. Чтобы роботы своевременно посещали эти страницы, их необходимо добавить в
sitemap.xml
. - И наконец, страницы, которые есть в sitemap, но при этом закрыты от индексации. Вероятно, такие страницы были добавлены в карту сайта, но потом их закрыли от индексации в файле
robots.txt
.Продемонстрируем данные, которые выводятся во вкладках, описанных во втором и третьем пунктах, на следующих скриншотах:
- При нажатии на клавишу «Перепроверить
sitemap.xml
» Лабрика проанализирует карту сайта и выдаст информацию об ошибках, описанных в первых трех пунктах. - После нажатия кнопки «Скачать исправленный
sitemap.xml
» Лабрика самостоятельно исправит все обнаруженные ошибки и сохранит правильную обновленную версиюsitemap. xml
на ваш компьютер. Вам останется только выгрузить ее на сайт взамен старого файла. - Не забудьте подгрузить новый xml файл sitemap без ошибок в Яндекс Вебмастер и Google Search Console.
Читать дальше подобные статьи
- Оптимизация скорости загрузки страниц. Как ускорить загрузку страниц сайта
- Исправляем ошибки и правильно настраиваем файл robots.txt
- 5 методов ускорить индексацию страниц сайта в Яндекс и Google
- Требования к CMS для SEO сайта интернет-магазина или форума
Online SEO-инструменты для продвижения сайтов
Исправление ошибок карты сайта для лучшего индексирования отправленных URL-адресов
Чтение: 16 мин
31 марта 2021 г.
Индексирование
Сканирование веб-сайта Успех ? Или, может быть, ваш отчет Sitemap выглядит хорошо, но вы решили также проверить отчет Покрытие индекса , , и похоже, что Google игнорирует вашу вежливую просьбу и не будет индексировать многие страницы из вашей карты сайта. Итак, теперь вы задаетесь вопросом, можете ли вы что-то сделать, чтобы улучшить свою статистику индексации. В любом случае, не ищите дальше, потому что все ответы вы найдете в этом посте.
Если у вас еще нет карты сайта и вы хотите узнать, что такое хорошая карта сайта, ознакомьтесь с нашим вводным ускоренным курсом по созданию карты сайта. Там вы узнаете о преимуществах карты сайта и лучших методах работы с ней. Кроме того, вам следует обратиться к руководству, если вы еще не знаете, для чего используются теги
В первой части этого поста перечислены все ошибки, с которыми вы можете столкнуться в GSC 9. 0012 Карта сайта отчет. Итак, если вы ищете способ исправить некоторые проблемы, воспользуйтесь оглавлением, чтобы перейти к интересующим вас ошибкам.
вы узнаете, как найти мусорные страницы в карте сайта, где искать страницы, которые вы, возможно, не включили в файл карты сайта, и как побудить Google индексировать больше страниц вашей карты сайта. Таким образом, я настоятельно рекомендую всем внимательно изучить вторую главу этого поста.
Исправление ошибок отчета Sitemap
После отправки карты сайта в Google вы увидите, удалось ли ему обработать файл, в столбце Статус. Если ваш файл соответствует всем правилам, статус должен быть Success . В этой главе мы обсудим два других кода состояния, а именно Не удалось получить и Имеются ошибки.
У Google проблемы со сканированием файла карты сайта
Давайте начнем с наиболее неблагоприятного сценария, когда Google не может получить файл карты сайта — в этом случае вам придется использовать инструмент проверки URL, чтобы выяснить, что может быть вызывая проблему.
В инструменте проверки URL-адресов нажмите кнопку Live test и проверьте состояние выборки страницы. Если он говорит Successful , это должно быть ошибка на стороне Google.
Если ваша карта сайта действительно не может быть получена, убедитесь, что ничего не мешает Google получить доступ к вашей карте сайта, будь то директивы robots.txt или плагины CMS (да, иногда они виноваты!) Также убедитесь, что вы ввели правильный URL-адрес карты сайта — обратите внимание на протокол и www.
Ошибка «Невозможно получить» также может возникнуть, если вы отправили файл индекса карты сайта, а не одну карту сайта в GSC — проблема должна быть решена так же, как и с одной картой сайта.
Ошибки файла индекса Sitemap
Теперь давайте перейдем к случаям, когда Google получил ваш отправленный файл и обнаружил некоторые ошибки.
С файлом индекса карты сайта Google необходимо дополнительно обработать все отдельные карты сайта, которые вы указали, чтобы наконец получить URL-адреса вашего веб-сайта. Если Google не сможет обработать URL-адреса, указанные в индексном файле карты сайта, вы получите 9 баллов.0011 Недопустимый URL-адрес в файле индекса карты сайта. Ошибка . Обычно это означает, что Google не может найти одну или несколько ваших карт сайта в указанных местах, потому что вы использовали неполные URL-адреса. Все URL-адреса, указывающие на отдельные карты сайта в файле индекса карты сайта, должны быть полностью определенными, иначе Google может не найти их.
Кроме того, в файле индекса карты сайта не должны быть указаны другие файлы индекса карты сайта, только карты сайта. Если вы сделаете это, вы получите Неверный формат индекса карты сайта: Вложенные индексы карты сайта ошибка.
Последняя ошибка Слишком много карт сайта в файле индекса карты сайта. Это может произойти с огромными веб-сайтами, на которых перечислено более 50 000 файлов Sitemap в одном файле.
Ошибки размера и сжатия карты сайта
Ограничения по размеру применяются как к индексным файлам карты сайта, так и к отдельным картам сайта. Размер файла карты сайта не должен превышать 50 МБ в несжатом виде, а файл не должен содержать более 50 000 URL-адресов. Если вы не будете следовать этим рекомендациям, вы получите файл Sitemap размером 9.0014 ошибка. Вы можете узнать больше о разделении карты сайта на несколько файлов из нашего окончательного руководства по карте сайта.
Теперь, хотя ваша карта сайта не должна быть огромной, она, естественно, не должна быть и пустой. Если вы отправите пустую карту сайта , вы получите соответствующую ошибку.
Кроме того, я упомянул, что размер карты сайта в несжатом виде не должен превышать 50 МБ, но обычно сжимают карты сайта для экономии пропускной способности. Обычно для этой цели используется инструмент gzip, который добавляет расширение gz к карте сайта. Если вы получаете ошибку сжатия в отчете GSC, это означает, что что-то пошло не так в процессе сжатия, и вы должны сделать это еще раз.
У Google проблемы со сканированием URL-адресов вашей карты сайта
По ряду причин Google не может сканировать некоторые URL-адреса, указанные в вашей карте сайта. Давайте рассмотрим все такие ошибки.
Карта сайта содержит URL-адреса, заблокированные robots.txt. Ошибка довольно очевидна, поскольку GSC укажет вам на заблокированные URL-адреса. В зависимости от того, хотите ли вы, чтобы эти URL-адреса были проиндексированы, вам придется либо снять блокировку, либо удалить их из карты сайта.
Другие ошибки, такие как URL-адреса недоступны, URL-адреса не отслеживаются, URL-адрес не разрешен , не столь очевидны. Кратко пройдемся по каждому из них.
URL-адреса недоступны Ошибка означает, что Google нашел вашу карту сайта в указанном месте, но не смог получить некоторые URL-адреса в вашем списке. В этом случае вам снова нужно использовать инструмент проверки URL, как если бы Google вообще не мог получить вашу карту сайта.
URL-адреса не отслеживаются Ошибка возникает либо из-за того, что вы использовали относительные URL-адреса в своей карте сайта вместо полных URL-адресов, либо из-за проблем с перенаправлением. Цепочки и циклы перенаправления, временные перенаправления, используемые вместо постоянного перенаправления, перенаправления HTML и JS — все это может привести к этим ошибкам.
Google Search Console не указывает, что именно вызывает проблему, поэтому вам придется использовать другие инструменты, чтобы понять, какие проблемы необходимо исправить. Например, в Site Audit by SE Ranking есть специальный раздел Redirects, где вы можете проверить свой сайт на наличие проблем с переадресацией.
Если инструмент обнаружит какие-либо проблемы, вы сможете получить всю необходимую информацию о каждой ошибке, нажав на количество страниц — вы узнаете, на какой странице обнаружена ошибка и как эта страница связана с другими страницами веб-сайт.
URL-адрес не разрешен. Ошибка указывает на то, что ваша карта сайта содержит URL-адреса на более высоком уровне или в другом домене, чем файл карты сайта. Например, если ваша карта сайта находится по адресу yoursite. com/category1/sitemap.xml. и вы добавили на него страницу, расположенную по адресу yoursite.com/page1, Google не сможет получить доступ к этой странице.
Говоря о разных доменах, имейте в виду, что Google рассматривает HTTP и HTTPS, а также версии вашего сайта с www и без www как разные объекты. Итак, если вы недавно перешли на HTTPS, обязательно создайте новую карту сайта с URL-адресами HTTPS.
Инструмент SE Ranking Website Audit также предупредит вас о таких случаях.
Наконец, есть еще одна вещь, которая не позволит Google просканировать страницу — код состояния, отличный от 200. В отчете GSC она называется HTTP error , и точный код указывается для каждого отдельного экземпляра. Кроме того, вы можете найти всю необходимую информацию в разделе HTTP аудита веб-сайта SE Ranking .
Google подозревает, что вы указали неправильные URL-адреса.0011 Ошибка несоответствия пути
. То же самое касается карты сайта без www с URL-адресами www. Даже если ваш сайт доступен как с www, так и без него, вы не должны смешивать вещи в своей карте сайта. Если ваша карта сайта расположена по адресу https://example.com/sitemap.xml, , ни один из ее URL-адресов не должен содержать www. Если ваша карта сайта расположена по адресу https://www.example.com/sitemap.xml, , то все указанные в ней URL-адреса должны включать www.Ошибки карты сайта на основе синтаксиса
Теперь в большинстве случаев вам не нужно беспокоиться об ошибке карты сайта на основе синтаксиса, потому что, если вы создаете карту сайта с помощью одного из специальных инструментов, они не должны смешиваться с тегами. и атрибуты. Однако если у вас есть пользовательский файл Sitemap, созданный вручную, вы можете столкнуться с одной из следующих проблем:
- Недопустимое значение тега. Значение тега — это то, что вы ставите между открывающим и закрывающим тегом — URL между тегами
, дату, которую вы указываете с помощью тега - Недопустимое значение атрибута. Значением атрибута является то, что вы указываете после знака равенства (=) в кавычках. Следующая строка кода перечисляет различные языковые версии страницы в карте сайта 9.0158
https://example.com
Здесь «alternate», «gb» и «fr» являются значениями атрибутов, а «gb ” неверен, так как вы не можете указать только код страны в hreflangs — он должен быть в паре с кодом языка, как в «en-gb».
- Неверный URL-адрес. Как вы должны были догадаться, эта ошибка означает, что вам нужно искать опечатки в перечисленных вами URL-адресах. Позвольте мне напомнить вам здесь, что все URL-адреса в вашей карте сайта должны быть полностью определенными.
- Неверная дата. Это довольно просто — это означает, что вы использовали неправильный формат даты для тега
. Единственным приемлемым форматом является следующий: .
21 февраля 2005 г. 2005-02-21T18:00:15+00:00
- Отсутствует XML-атрибут и Отсутствует XML-тег , ошибки также довольно очевидны. Опускать обязательные теги и атрибуты (urlset, url, loc, xmlns) нельзя — вам нужно указать их, чтобы ваша карта сайта функционировала должным образом.
- Недопустимый XML: слишком много тегов. Эта ошибка возникает, если вы используете один из тегов несколько раз, например. вы указываете два разных местоположения URL-адресов или две разные даты модификации для одного URL-адреса. Таким образом, вам придется удалить повторяющийся тег.
<ссылка>http://www. example.com/ 2021-01-01 2021-02-01 ежемесячно <приоритет>0,8приоритет>
- Неверное пространство имен. Пространство имен, указанное в вашем теге
Для обычных карт сайта — xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9″
Для карт сайта новостей — xmlns:news=»http://www.google.com/schemas/sitemap- news/0.9″
Для карт сайта для видео — xmlns:video=”http://www.google.com/schemas/sitemap-video/1.1″
Для карт сайта для изображений — xmlns:image:=»http://www .google.com/schemas/sitemap-image/1.1″
- Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку Неподдерживаемый формат . Ошибка также может возникать из-за всевозможных других синтаксических ошибок, таких как использование неправильных кавычек (допускаются только прямые одинарные или двойные кавычки) или отсутствие тега кодировки.
Существует также несколько ошибок, связанных с файлом Sitemap для видео: Миниатюра слишком большая/маленькая, Местоположение видео и страница воспроизведения совпадают, URL-адрес местоположения видео выглядит как URL-адрес страницы воспроизведения. Подробнее об этих ошибках можно узнать здесь.
Во избежание синтаксических ошибок используйте один из валидаторов карты сайта, подобных этому, перед отправкой карты сайта — инструменты выявят проблемы, которые необходимо исправить.
После исправления всех ошибок карты сайта, упомянутых в отчете GSC, повторно отправьте обновленную карту сайта. Это побудит Google повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые он не смог просканировать из-за ошибок.
Чтобы узнать все тонкости индексации веб-сайтов, я рекомендую вам ознакомиться с этим полным руководством.
Соотношение отправленных URL и проиндексированных URL
Состояние вашей карты сайта или файла индекса карты сайта может быть Успех , но это не означает, что вы закончили работу с картой сайта. Щелкните значок покрытия индекса рядом с количеством обнаруженных URL-адресов, чтобы перейти к соответствующему отчету. Как только вы начнете исследовать это, вы можете заметить, что не все страницы, которые вы отправили, были проиндексированы.
Теперь можно исключить страницы из индексации — Google не может поставить лайк и проиндексировать все известные ему страницы вашего веб-сайта. Более того, почти на каждом веб-сайте есть страницы, которые веб-мастера не хотят индексировать — области администрирования, служебные страницы, дубликаты и альтернативные страницы. Что не нормально, так это иметь Ошибки и Действительно с предупреждениями проблем в отчете Покрытие индекса . Также ненормально, когда количество исключаемых из индексации страниц в разы превышает количество действительных страниц.
Так почему Google не может проиндексировать ваши страницы, представленные для индексации? В большинстве случаев это происходит, когда вы добавляете страницы, которых не должно быть в вашей карте сайта. Возможно, Google просто не может индексировать и сканировать страницу из-за директивы noindex. Кроме того, может возникнуть путаница, действительно ли вы хотите, чтобы страница была проиндексирована или нет, например, когда вы добавляете неканонические страницы в свою карту сайта. Все такие экземпляры можно найти на разных вкладках GSC 9.0012 Index Coverage , но удобнее проверять их с помощью инструмента SE Ranking Website Audi t — если на вашем веб-сайте есть подобные проблемы, вы найдете их в разделе Crawling отчета Issue.
Удалите неиндексные и неканонические страницы из вашей карты сайта или, если страницы были помечены как неиндексированные и неканонические по ошибке, исправьте проблемы с неправильными тегами.
Убедившись, что ваша карта сайта не посылает в Google неверные сигналы, пройдите 9 шагов.0012 Покрытие индекса отчет, чтобы найти случаи, когда вы и Google расходитесь во мнениях относительно ценности страницы.
- На вкладке Действительно с предупреждениями обратите внимание на страницы, которые были проиндексированы несмотря на директиву noindex — скорее всего, Google был прав, и вам нужно удалить тег noindex с этих страниц или ваш тег X-Robots.
- На вкладке Действительный взгляните на Проиндексировано, не представлено на страницах карты сайта — вы можете добавить их в свою карту сайта, так как Google считает, что это страницы высокого качества. В то же время, если Google проиндексировал вашу страницу с Условиями использования, которая не была включена в вашу карту сайта, вы также можете ничего не делать. Кроме того, следите за дубликатами страниц, которые были проиндексированы, но не были в вашей карте сайта — такие случаи часто возникают из-за плохой пагинации и обработки параметров.
- Наконец, перейдите на вкладку Исключено . Большинство страниц здесь должны быть исключены из индексации в соответствии с вашими собственными директивами, например. старые страницы 404, страницы заблокированы robots.txt, noindex и канонизировали страниц. Обратите внимание на канонические страницы, которые Google решил не индексировать, потому что поисковая система считает, что на вашем сайте есть лучшие альтернативы. Скрупулезно изучите каждый случай и решите, действительно ли страница ценнее своих дубликатов — исправьте свои канонические теги, если Google был прав. Если вы все еще считаете, что страница должна быть проиндексирована, вам придется поработать над ее содержанием, профилем обратных ссылок и внутренними ссылками, чтобы убедить Google, что она более достойна, чем другие.
На вкладке Исключенные представлены еще две интересные категории страниц: Просканировано – в настоящее время не проиндексировано и Обнаружено – в настоящее время не проиндексировано. Оба типа обычно помечают некачественные страницы с неполноценным содержанием, которые Google не хочет показывать пользователям. В первом случае страницу как минимум просканировали и потом признали некачественной, а во втором поисковик даже не удосужился потратить краулинговый бюджет на страницу. Присмотритесь повнимательнее ко всем таким страницам и посмотрите, что вы можете сделать, чтобы повысить их ценность — поработать над контентом, взаимодействием с пользователем, внутренними ссылками и т. д.
Заключение
Благодаря разнообразию инструментов для создания карты сайта создание карты сайта очень просто. Однако, если вы просто используете один из случайных инструментов и игнорируете передовые методы картирования сайта, вы можете получить отчет Sitemap, полный ошибок, или отправить в Google множество некачественных страниц через свою карту сайта.
Я надеюсь, что это руководство помогло вам исправить каждую ошибку в вашем отчете карты сайта GSC, и вам также удастся сохранить только сочные высококачественные страницы в вашей карте сайта и удалить все страницы, которые производят плохое впечатление на поисковые системы. Если у вас остались какие-либо вопросы, не стесняйтесь оставлять их в разделе комментариев ниже.
Индексирование
Сканирование веб-сайта
10805 просмотров
Как исправить ошибки формата XML Sitemap
Карта сайта — это файл, который предоставляет Google наиболее важные страницы вашего сайта. Однако иногда вы сталкиваетесь с ошибками в статусе карты сайта. Вы можете посмотреть следующее видео Даниэля Вайсберга из Google, чтобы узнать больше о том, что такое карты сайта и как они работают.
Иногда проблема связана с простым управлением. Узнайте больше об управлении картой сайта прямо сейчас, чтобы определить, связана ли ваша проблема с управлением.
Что такое ошибка неправильного формата файла Sitemap?
Подумайте о страницах, связанных между собой в домене — это карта сайта. Это индекс содержимого веб-сайта, и его часто недооценивают, потому что посетители не видят его. С повышенным удобством создания карт сайта с помощью плагинов и генераторов количество ошибок также увеличивается.
Что вызывает проблему?
Ошибка формата карты сайта обычно возникает, когда на вашем веб-сайте отсутствуют теги XML, слишком много тегов или видео без тегов.
Ошибка форматирования обычно возникает при использовании плагина Yoast SEO. Инструмент Yoast SEO не поддерживается, как и другие плагины. Если вы уже используете Yoast и у вас возникла проблема с форматом карты сайта, вы больше ничего не можете сделать, чтобы изменить ее или найти решение.
Как проверить проблему
Чтобы проверить наличие ошибок в карте сайта и избежать ошибок 301 и 404, вы можете использовать поисковые роботы для подтверждения URL-адресов и выделения любых возможных проблем.
Проанализируйте не только файл Sitemap.xml с ошибками формата, но и весь сайт!
Проведите полный аудит, чтобы выяснить и исправить ваше техническое SEO, чтобы улучшить результаты поисковой выдачи.
Почему это важно?
Оптимизированная и организованная карта сайта имеет решающее значение, поскольку она не позволяет поисковым роботам упускать важные ссылки на вашей странице при кэшировании информации. Файлы Sitemap помогают поисковым роботам следить за тем, чтобы новые обновления вашего веб-сайта отображались в поисковой системе.
Как исправить ошибку формата
Устраните проблему, перейдя на панель управления с помощью универсального плагина SEO.
- Нажмите кнопку Карта сайта XML.
- Первое, что вам нужно сделать, это воссоздать карту сайта, внеся небольшие изменения в карту. Изменение может быть таким же простым, как удаление запланированных обновлений или переключение их на другую частоту обновления. После этого обновите карту сайта, чтобы сгенерировать и восстановить ее.
- После обновления проверьте карту с помощью инструмента аудита. Если ошибка формата все еще возникает, перейдите к следующему шагу.
- Второй шаг — снимите флажки для всех типов таксономий. Вы также должны найти поле «динамически генерировать карту сайта» и снять его. Наконец, выберите страницы и сообщения, которые вы можете найти в разделе «Типы сообщений». Отключите или снимите флажки для всех остальных типов сообщений, кроме двух упомянутых выше (страниц и сообщений).
- Обновите карту сайта, нажав кнопку «Обновить».