Как найти дубли страниц на сайте: как быстро найти дубли страниц — SEO на vc.ru | Дропшиппинг

Содержание

как быстро найти их и удалить, основные способы и методы — руководство от SEO.RU

Почему дубли страниц — это плохо?

Дубли — это страницы с одинаковым содержимым, т.е. они дублируют друг друга.

Причины, по которым страницы дублируются, могут быть разными:

автоматическая генерация;
ошибки в структуре сайта;
некорректная разбивка одного кластера на две страницы и другие.

Дубли страниц — это плохо для продвижения и раскрутки сайта, даже несмотря на то, что они могут появляться по естественным причинам. Дело в том, что поисковые роботы хуже ранжируют страницы, контент которых мало чем отличается от других страниц. И чем больше таких страниц, тем больше сигналов поисковым ботам, что это сайт не достоин быть в топе выдачи.

Что происходит с сайтом, у которого есть дубликаты страниц?

Снижается его релевантность. Обе страницы с одинаковым контентом пессимизируются в выдаче, теряют позиции и трафик.
Снижается процент уникальности текстового контента. Из-за этого понизится уникальность всего сайта.
Снижается вес URL-адресов сайта. По каждому запросу в выдачу поиска попадает только одна страница, а если таких одинаковых страниц несколько, все теряют в весе.
Увеличивается время на индексацию. Чем больше страниц, тем больше времени нужно боту, чтобы индексировать ваш сайт. Для крупных сайтов проблемы с индексацией могут сильно сказаться на трафике из поиска.
Бан от поисковых систем. Можно вообще вылететь из выдачи на неопределенный срок.

В общем, становится понятно, что дубли никому не нужны. Давайте разбираться, как найти и обезвредить дублирующиеся страницы на сайте.

Как найти дубли страниц?

Кирилл Бузаков,
SEO-оптимизатор компании SEO.RU:

«Когда мы получаем в работу сайт, мы проверяем его на наличие дублей страниц, отдающих код 200. Разберем, какие это могут быть дубли.

Возможные типы дублей страниц на сайте

Дубли страниц с протоколами http и https.

Например: https://site.ru и http://site.ru
Дубли с www и без.

Например: https://site.ru и https://www.site.ru
Дубли со слешем на конце URL и без.

Например: https://site.ru/example/ и https://site.ru/example
Дубли с множественными слешами в середине либо в конце URL.

Например: https://site.ru/////////, https://site.ru/////////example/
Прописные и строчные буквы на различных уровнях вложенности в URL.

Например: https://site.ru/example/ и https://site.ru/EXAMPLE/
Дубли с добавлением на конце URL:
- index.php;
- home.php;
- index.html;
- home.html;
- index.htm;
- home.htm.
Например: https://site.ru/example/ и https://site.ru/example/index.html
Дубли с добавлением произвольных символов либо в качестве нового уровня вложенности (в конце или середине URL), либо в существующие уровни вложенности.

Например: https://site.ru/example/saf3qA/, https://site.ru/saf3qA/example/ и https://site.ru/examplesaf3qA/
Добавление произвольных цифр в конце URL в качестве нового уровня вложенности.

Например: https://site.ru/example/ и https://site.ru/example/32425/
Дубли с добавлением «звездочки» в конце URL.

Например: https://site.ru/example/ и https://site.ru/example/*
Дубли с заменой дефиса на нижнее подчеркивание или наоборот.

Например: https://site.ru/defis-ili-nizhnee-podchyorkivanie/ и https://site.ru/defis_ili_nizhnee_podchyorkivanie/
Дубли с некорректно указанными уровнями вложенности.

Например: https://site.ru/category/example/ и https://site.ru/example/category/
Дубли с отсутствующими уровнями вложенности.

Например: https://site.ru/category/example/ и https://site.ru/example/

Как обнаружить дубли страниц?

Поиск дублей страниц можно произвести разными способами. Если вы хотите собрать все-все дубли и ничего не упустить, лучше использовать все нижеперечисленные сервисы совместно. Но для поиска основных достаточно какого-то одного инструмента, выбирайте, какой вам ближе и удобнее.

Парсинг сайта в специализированной программе

Для поиска дубликатов подходит программа Screaming Frog SEO Spider. Запускаем сканирование, а после него проверяем дубли в директории URL → Duplicate:

Кроме того, в директории Protocol → HTTP проверяем страницы с протоколом http — есть ли среди них те, у которых Status Code равен 200:
Онлайн-сервисы.

Первый, подходящий нашим целям сервис, — это ApollonGuru.
- Выбираем 5-7 типовых страниц сайта. Например, набор может быть таким: главная, разводящая, карточка товара/страница услуги, статья в блоге, а также другие важные страницы в зависимости от типа сайта.
- Вносим их в поле «Поиск дублей страниц» и нажимаем кнопку «Отправить»:
- Дубли с 200 кодом ответа сервера (смотрим столбец «Код ответа сервера») берем в работу:
  
  Кроме того, необходимо проверять, что с дублей настроены прямые 301 редиректы на основные версии этих же страниц.

Также проверка дублей сайта возможна онлайн-сервисом Check Your Redirects and Statuscode, но он подходит только в том случае, если нужно проанализировать один URL-адрес:

Панели веб-мастеров Яндекса и Google.

Найти дублирующиеся страницы можно с помощью собственных инструментов поисковиков — Яндекс.Вебмастера и Google Search Console.

В Яндекс.Вебмастере анализируем раздел «Индексирование», далее — «Страницы в поиске»:

Там можно увидеть текущую индексацию сайта и искомые дубли страниц:

В Search Console анализируем раздел «Покрытие», а именно пункт с исключенными из индекса страницами:

Собираем все дубли в одну таблицу или документ. Затем отправляем их в работу программисту:

Старайтесь подробнее объяснить программисту задачу, так как адресов может быть много».

Как убрать дубли страниц на сайте?

Евгений Костырев,
веб-программист компании SEO.RU:

«С дублирующимися страницами бороться можно разными способами. Если есть возможность, стоит использовать ручной метод. Но такая возможность есть не всегда, потому что здесь нужны серьезные навыки программирования: как минимум, нужно хорошо разбираться в особенностях CMS своего сайта.(.*)index\.(php|html|htm)$ http://site.ru/$1 [R=301,L]

Если же сайт использует Nginx, то правила прописываются в файле nginx.conf. Для перенаправления также нужно прописывать правила с помощью регулярных выражений, например:

location = /index.html {
return 301 https://site.com
}

Вместо index.html можно указать любой другой URL-адрес страницы вашего сайта, с которого нужно сделать редирект.

На этом этапе важно следить за корректностью новой части кода: если в ней будут ошибки, исчезнут не только дубли, но и вообще весь сайт из всего интернета.

Создание канонической страницы

Использование canonical указывает поисковому пауку на ту единственную страницу, которая является оригинальной и должна быть в поисковой выдаче.

Чтобы выделить такую страницу, нужно на всех URL дублей прописать код с адресом оригинальной страницы:

<link rel= “canonical” href= «http://www.site.ru/original-page.html”>

Можно прописывать их вручную, но это займет много времени, поэтому есть смысл использовать плагины. Например, в WordPress это YoastSEO или AllinOneSEOPack.

В 1С-Битрикс это делается с помощью языка программирования PHP в соответствующих файлах. Такая же история и с CMS Joomla: без вмешательства программиста или собственных навыков программирования здесь не обойтись.

Директива Disallow в robots.txt

В файле robots.txt содержатся инструкции для поисковых краулеров, как именно индексировать сайт.

Читать по теме:

Как правильно заполнить файл robots.txt: критически важные моменты

Если на сайте есть дубли, можно запретить краулеру их индексировать с помощью директивы:

User-agent: *
Disallow: site.ru/contacts.php?work=225&s=1

Такой способ практически не требует навыков программиста, однако он не подходит, если дублей много: очень много времени уйдет на изменение robots.txt каждого дубля».

Выбирайте способ, исходя из собственных навыков программирования и личных предпочтений, и не давайте поисковикам повод сомневаться в релевантности и качестве вашего сайта.

Поиск дублей страниц сайта: программы, сервисы, приёмы

От автора

О теории дублирования контента на сайте я писал стать тут, где доказывал, что дубли статей это плохо и с дубли страниц нужно выявлять и с ними нужно бороться. В этой статье я покажу, общие приемы по выявлению повторяющегося контента и акцентирую внимание на решение этой проблемы на WordPress и Joomla.

Еще немного теории

Я не поддерживаю мнение о том, что Яндекс дубли страниц воспринимает нормально, а Google выбрасывает дубли из индекса и за это может штрафовать сайт.

На сегодня я вижу, что Яндекс определяет дубли страниц и показывает их в Яндекс.Вебмастере на вкладке «Индексация». Более того, ту страницу, которую Яндекс считает дублем, он удаляет из индекса. Однако я вижу, что Яндекс примет за основную страницу первую, проиндексированную и вполне возможно, что этой страницей может быть дубль.

Также понятно и видно по выдаче, что Google выбрасывает из поиска НЕ все страницы с частичным повторением материала.

Вместе с этим, отсутствие дублей на сайте воспринимается поисковыми системами, как положительный фактор качества сайта и может влиять на позиции сайта в выдаче.

Теперь от теории к практике: как найти дубли страниц.

Поиск дублей страниц сайта

Перечисленные ниже способы поиск дублей страниц не борются с дублями, а помогают их найти в поиске. После их выявления, нужно принять меры по избавлению от них.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и мета описаниям. Читать статью: Проверка неработающих, битых и исходящих ссылок сайта программой XENU

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/. Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Статья: SEO анализ сайта программой Scrimimg Seo Spider

Программа Netpeak Spider (платная с триалом)

Сайт программы https://netpeaksoftware.com/spider. Еще один программный сканер для анализа ссылок сайта с подробным отчетом. Статья Программа для SEO анализа сайта Netpeak Spider

Яндекс.Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование >>>Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

поиск дублей страниц в Яндекс.Вебмастер

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google) и поискать дубли «глазами». Как это сделать читать в статье Простые способы проверить индексацию страниц сайта.

Сервисы онлайн

Есть онлайн сервисы, который показывают дубли сайта. Например, сервис Siteliner.com (http://www.siteliner.com/) На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске>>>Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и мета описания. Вероятнее всего это дубли (частичные или полные).

поиск дублей страниц в консоли веб-мастера Google

Что делать с дублями

Найденные дубли, нужно удалить с сайта, а также перенастроить CMS, чтобы дубли не появлялись, либо закрыть дубли от поисковых ботов мета-тегами noindex, либо добавить тег rel=canonical в заголовок каждого дубля.

Как бороться с дублями

Здесь совет простой, бороться с дублями нужно всеми доступными способами, но прежде всего, настройкой платформы (CMS) на которой строится сайт. Уникальных рецептов нет, но для Joomla и WordPress есть практичные советы.

Поиск и удаление дублей на CMS Joomla

CMS Joomla «плодит» дубли, «как крольчиха». Причина дублирования в возможностях многоуровневой вложенности материалов, размещения материалов разных пунктах меню, в различных макетах для пунктов меню, во встроенном инструменте пагинации (листания) и различной возможности сортировки материалов.

Например, одна и та же статья, может быть в блоге категории, в списке другого пункта меню, может быть, в сортировке по дате выпуска и вместе с тем, быть в сортировке по количеству просмотров, дате обновления, автору и т.д.

Встроенного инструмента борьбы с дублями нет и даже появление новой возможности «Маршрутизация URL» не избавляет от дублирования.

Решения проблемы

Решить проблему дублирования на сайтах Joomla помогут следующие расширения и приёмы.

Бесплатный плагин «StyleWare Content Canonical Plugin». Сайт плагина: https://styleware.eu/store/item/26-styleware-content-canonical-plugin. Плагин фиксирует канонические адреса избранных материалов, статей, категорий и переадресовывает все не канонические ссылки.

SEO Компоненты Joomla, Artio JoomSEF (бесплатный) и Sh504 (платный). У этих SEO «монстров» есть кнопка поиска и удаления дублей, а также есть легкая возможность добавить каноническую ссылку и/или закрыть страницы дублей от индексации.

Перечисленные расширения эффективно работают, если их ставят на новый сайт. Также нужно понимать, что при установке на рабочий сайт:

На сайте со статьями в индексе эти расширения «убьют» почти весь индекс.
Удаление дублей компонентами не автоматизировано и дубли всё равно попадают в индекс.
Хотя управлять URL сайта этими компонентами очень просто.

Если дубль страницы попадет в индекс, то поисковики, не умея без указателей определять, какая страница является основной, могут дубль принять за основную страницу, а основную определить, как дубль. Из-за этого важно, не только бороться с дублями внутри сайта, но и подсказать поисковикам, что можно, а что нельзя индексировать. Сделать это можно в файле robots.txt, но тоже с оговорками.

Закрыть дубли в robots.txt

Поисковик Яндекс, воспринимает директиву Disallow как точное указание: материал не индексировать и вывести материал из индекса. То есть, закрыв на Joomla , страницы с таким url: /index.php?option=com_content&view=featured&Itemid=xxx, а закрыть это можно такой директивой:

Disallow: /*?

вы уберете, из индекса Яндекс все страницы со знаком вопроса в URL.

В отличие от Яндекс, поисковик Google не читает директиву Disallow так буквально. Он воспринимает директиву Disallow как запрет на сканирование, но НЕ запрет на индексирование. Поэтому применение директивы [Disallow: /*?] в блоке директив для Google файла robots.txt, на уже проиндексированном сайте, скорее приведет к негативным последствиям. Google перестанет сканировать закрытые страницы, и не будет обновлять по ним информацию.

Для команд боту Google нужно использовать мета теги <meta name=»robots» content=»noindex»/>, которые можно добавить во всех редакторах Joomla, на вкладке «Публикация».

Например, вы создаете на сайте два пункта меню для одной категории, один пункт меню в виде макета блог, другой в виде макета список. Чтобы не было дублей, закройте макет список мета-тегом noindex, nofollow, и это избавит от дублей в Google выдаче.

Также рекомендую на сайте Joomla закрыть в файле robots.txt страницы навигации и поиска от Яндекс на любой стадии индексации и от Google на новом сайте:

Disallow: /*page*
Disallow: /*search*

Стоит сильно подумать, об индексации меток, ссылок и пользователей, если они используются на сайте.

Поиск и удаление дублей на CMS WordPress

На WordPress создаваемый пост попадает на сайт как статья, и дублируется в архивах категории, архивах тегов, по дате, по автору. Чтобы избавиться от дублей на WordPress, разумно закрыть от индексации все архивы или, по крайней мере, архивы по дате и по автору.

Использовать для этих целей можно файл robots.txt с оговорками сделанными выше. Или лучше, установить SEO плагин, который, поможет в борьбе с дублями. Рекомендую плагины:

Yast SEO (https://ru.wordpress.org/plugins/wordpress-seo/)
All in One SEO Pack (https://ru.wordpress.org/plugins/all-in-one-seo-pack/)

В плагинах есть настройки закрывающие архивы от индексации и масса других SEO настроек, который избавят от рутинной работы по оптимизации WordPress.

Вывод

По практике скажу, что побороть дубли на WordPress можно, а вот с дублями на Joomla поиск дублей страниц требует постоянного контроля и взаимодействия с инструментами веб-мастеров, хотя бы Яндекс и Google.

©SeoJus.ru

Еще статьи

Похожее

Как найти и удалить дубли страниц на сайте?

Дубли страниц — документы, имеющие одинаковый контент, но доступные по разным адресам. Наличие таких страниц в индексе негативно сказывается на ранжировании сайта поисковыми системами.

Какой вред они могут нанести

Снижение общей уникальности сайта.
Затрудненное определение релевантности и веса страниц (поисковая система не может определить, какую страницу из дубликатов необходимо показывать по запросу).
Зачастую дубли страниц имеют одинаковые мета-теги, что также негативно сказывается на ранжировании.

Как появляются дубликаты

Технические ошибки

К ним относят доступность страниц сайта:

по www и без www;
со слэшем на конце и без;
с index.php и без него;
доступность страницы при добавлении различных GET-параметров.

Особенности CMS

страницы пагинации сайта;
страницы сортировки, фильтрации и поиска товаров;
передача лишних параметров в адресе страницы.

Важно! Также дубли страниц могут появляться за счет доступности первой страницы пагинации по двум адресам: http://site.ru/catalog/name/?PAGEN_1=1 и http://site.ru/catalog/name/.

Дубликаты, созданные вручную

Один из наиболее частых примеров дублирования страниц — привязка товаров к различным категориям и их доступность по двум адресам. Например: http://site.ru/catalog/velosiped/gorniy/stern-bike/ и http://site.ru/catalog/velosiped/stern-bike/.

Также страницы могут повторяться, если структура сайта изменилась, но старые страницы остались.

Поиск дублей страниц сайта

Существует большое количество методов нахождения дубликатов страниц на сайте. Ниже описаны наиболее популярные способы:

программа Screaming Frog;
программа Xenu;
Google Webmaster: «Вид в поиске» -> «Оптимизация HTML»;
Google Webmaster: «Сканирование» -> «Оптимизация HTML».

Для программы Screaming Frog и Xenu указывается адрес сайта, и после этого робот собирает информацию о нем. После того, как робот просканирует сайт, выбираем вкладку Page Title — Duplicate, и анализируем вручную список полученных страниц.

С помощью инструмента «Оптимизация HTML» можно выявить страницы с одинаковыми description и title. Для этого в панели Google Webmaster надо выбрать необходимый сайт, открыть раздел «Вид в поиске» и выбрать «Оптимизация HTML».

C помощью инструмента «Параметры URL» можно задать параметры, которые необходимо индексировать в адресах страниц.

Для этого надо выбрать параметр, кликнуть на ссылку «Изменить» и выбрать, какие URL, содержащие данный параметр, необходимо сканировать.

Также, найти все индексируемые дубли одной страницы можно с помощью запроса к поиску Яндекса. Для этого в поиске Яндекса необходимо ввести запрос вида site:domen.ru «фраза с анализируемой страницы», после чего проанализировать вручную все полученные результаты.

Как правильно удалить дубли

Чтобы сайт открывался лишь по одному адресу, например «http://www.site.ru/catalog/catalog-name/», а не по «http://site.ru/catalog/catalog-name/index.php», необходимо корректно настроить 301 редиректы в файле htaccess:

со страниц без www, на www;
со страниц без слэша на конце, на «/»;
со страниц с index.php на страницы со слэшем.

Если вам необходимо удалить дубликаты, созданные из-за особенностей системы управления сайтом, надо правильно настроить файл robots.txt, скрыв от индексации страницы с различными GET-параметрами.

Для того чтобы удалить дублирующие страницы, созданные вручную, нужно проанализировать следующую информацию:

их наличие в индексе;
поисковый трафик;
наличие внешних ссылок;
наличие внутренних ссылок.

Если неприоритетный документ не находится в индексе, то его можно удалять с сайта.

Если же страницы находятся в поисковой базе, то необходимо оценить, сколько поискового трафика они дают, сколько внешних и внутренних ссылок на них проставлено. После этого остается выбрать наиболее полезную.

После этого необходимо настроить 301-редирект со старой страницы на актуальную и поправить внутренние ссылки на релевантные.

Как найти дубликаты страниц на сайте

Довольно часто многие веб мастера задаются вопросом про то, как найти дубликаты страниц на сайте. Ведь поисковые системы как Google, Яндекс и Bing жестко реагируют на дубликаты контента, и могут понизить сайт в результатах поиска.

Поисковая система Google в 2011 году выпустила алгоритм Google Panda, который отвечает за контент на сайте, и в случае если сайт попадет под этот фильтр, то он может сильно потерять поисковый трафик на сайт.

Для начала читаем статью: внутренняя оптимизация сайта

В ней описаны основные моменты, которые стоит оптимизировать при продвижении сайта, в том числе и обратить внимание на дублирующийся контент на сайте.

На дубликаты страниц больше реагирует Гугл, для Яндекса это важно, но не критично.

Дубликаты страниц могут быть полными и не полными:
Полный дубль страницы – это страницы на сайте или блоге, которые содержат полностью одинаковый контент, но имеют различные адрес страниц (URL).
Не полный дубликат страницы – это страницы на сайте или блоге, которые содержат много одинакового контента, но они не полностью одинаковые, а так же имею отдельные адреса страниц.

Методы поиска дублей страниц

1. Google Webmaster Tools

Заходим в Google Webmaster Tools, дальше раздел оптимизация, и нажимаем на оптимизация HTML.

Мы сможем увидеть количество повторяющихся мета описаний на сайте, а так же title (тег который очень важный при продвижении).

Дальше нажимаем на повторяющиеся страницы, смотрим, что и как, и прописываем уникальные title на них.

Как мы видим на картинке, одинаковые title у страницы услуги по аналитике, и раздела на блоге про аналитику.

2. Поисковая строка в Google

С помощью поисковой строки можно посмотреть дубли страниц, для этого необходимо использовать следующую команду:

site:moisait.com -site:moisait.com/&

В таком случае:

site:moisait.com – показывает общего индекса в Google

site:moisait.com/&- показывает страницы основного индекса в Google

С помощью данной команды можно определить частичные дубли, а так же малоинформативные страницы, которые могут мешать основным страницам, ранжироваться лучше в поиске.

Для примера смотрим такое:

Так же в Google можно использовать фрагмент текста, например:

Фрагмент может быть из пару переложений и более, или пару ключевых слов как в примере.

3. Расширенный поиск в Яндексе

В Яндексе можно использовать расширенный поиск, и искать дубликаты страниц по заданному сайту, например:

Можно использовать нужные фрагменты текста или ключевые слова и находить дубликаты страницы.

4. Xenu

Это бесплатная программа для внутренней оптимизации и внутренней перелинковки.

Читаем статью: внутренняя перелинковка сайта

Программа сканирует все страницы и файлы на сайте, выдает битые ссылки, а так же дубликаты страниц, например:

Дубли страниц плохо влияют на seo продвижение сайта, их нужно выявить, устранить или закрыть.

Следующая статья про то, как убрать или закрыть дубликаты страниц на сайте.

Оцените статью

Загрузка…

Что такое дубли страниц сайта? Как их найти и удалить из выдачи?

Некоторые SEO ошибки критично опасны и могут свести все усилия на нет. Одна из таких — дубли страниц. Они крайне негативно воспринимаются поисковыми роботами и существенно усложняют поисковое продвижение сайта. Поэтому важно убрать дубли страниц на сайте как можно быстрее.

Почему это так важно?

Когда на веб-сайте есть две одинаковых страницы, поисковики не могут понять, какую из них нужно показывать пользователям по релевантному запросу. И даже учитывая, что боты изучают и другие параметры, им все равно трудно решить, какой из дублей нужно выбирать.

Поэтому нужно найти и закрыть дубли страниц сайта, иначе вы столкнетесь с проблемами:

может снизиться рейтинг всего веб-сайта;
снижение позиции ключевых фраз;
скачки позиций из-за того, что система постоянно меняет релевантность между несколькими страницами.

Виды дубликатов

Чтобы эффективно искать дубли страниц и избавляться от них, нужно знать, каких видов они бывают.

Существует два типа:

полные дубликаты — копия страницы, размещенная на разных URL адресах;
частичные — дублируется часть содержимого.

Полные дубли

Это может быть:

одинаковые страницы по одинаковым URL адресам с www и без;
дубли страниц с html и https;
копии, созданные из-за реферальных ссылок;
проблемы с иерархией разделов, которые генерируют копии;
неправильно настроенная страница 404, создающая дубликаты;
дубли страниц без слеша в конце url.

Частичные дубли

Они обычно появляются из-за особенностей системы управления сайтом, и найти их сложнее.

Чаще всего это:

Копии, созданные страницами фильтров, сортировок и пагинации. Например, когда пользователь применяет фильтр товаров, URL адрес немного изменяется, и поисковые роботы индексируют эту страницу как отдельную. Но от смены адреса в данном случае контент не изменился.
Блоки комментариев и описаний. Здесь практически та же ситуация — переход к блоку отзывов, например, создает дополнительный параметр в адресе, но страница остается та же.
Печать и PDF для загрузки. Такие страницы полностью копируют содержимое веб-сайта.
Сгенерированные AJAX слепки страниц.

Как обнаружить копии?

Можно проверить сайт на ошибки несколькими способами:

Промониторить выдачу с помощью оператора “site:”

Это метод, позволяющий проверить дубли страниц сайта вручную. Выдачу, отфильтрованную оператором, нужно изучить визуально и выявить копии.

Программы

Существуют разные инструменты для вебмастеров, позволяющие быстро просканировать веб-сайт. Это может быть проверка сайта на дубли страниц онлайн или с помощью десктопных программ. Они выгрузят полный список адресов, который можно будет затем отсортировать и найти дубликаты.

Консоль Google

Google Search Console отображает список повторов мета-описаний и тэгов. Они могут быть признаками копий.

Как избавиться от дубликатов?

Первый и самый очевидный метод — удалить дубли страниц со слешем и другими частями URL адреса, которые создают копии. Также можно запретить роботам индексировать дубликаты, дописав условия в файл “robots.txt”. Это сработает со служебными страницами, которые повторяют содержимое основных.

Еще одно решение — настроить 301 редирект со страницы-дубля на соответствующую корректную страницу сайта. Это поможет с ошибками в иерархии разделов и reff-метками. Также можно проставить тэг “rel=canonical”, что решит проблему с фильтрами, сортировками и пагинацией. А если у вас на веб-сайте есть версии для печати, блоки с отзывами и другой информацией, воспользуйтесь тегом meta name=»robots» content=»noindex, nofollow». Это позволит скрыть подобные блоки от поисковых ботов.

Чаще всего копии создаются самой системой управления сайтом, поэтому лучше, чтобы выявлением дубликатов и их устранением занимался опытный специалист. Наша команда веб-студии Артджокер обладает большим опытом и крепкими знаниями в поисковой оптимизации и продвижении сайтов. Мы сможем обнаружить все ошибки, которые мешают раскрутке вашего ресурса, и исправить их. Также мы составим эффективную стратегию продвижения, которая позволит быстро добиться желаемых результатов.

Узнать дубли главной страницы сайта | Найти дубли онлайн

08.09.2021 23:08

Если честно не понятно для чего данный момент проверки… на всех новых движках есть атрибут canonical …. Который решает данную проблему, тем самым заморачиваться с редиректом пустая трата времени …

06.05.2021 16:24

Спасибо, давно пользуюсь для своего сайта. Не профессионально, поэтому платный ресурс неуместен. Удачи!

31.01.2020 23:20

Спасибо большое. Главное он бесплатный

14.11.2019 16:04

Хороший инструмент, но не хватает подсказок, как закрыть дубли. Например, одностраничник имеется, как закрыть все страницы-дубликаты после / ? Непонятно

2019-11-20 11:00

robots.txt в помощь: Disallow: /any-page.html?

2020-08-27 01:28

А как закрывать если в конце url стоит знак #

07.09.2021 17:55

Добрый день. Не понимаю, как убрать дубль главной /?

23.07.2020 12:47

Добрый день !
Подскажите пожалуйста? как скрыть страницы с большим количеством слешей
В роботе Disallow: ////// — Будет работать ? не заприетит ли это индексацию главной страницы?
Или нужен редирект 301?

2020-08-27 01:24

RewriteCond %{THE_REQUEST} // # Проверяем, повторяется ли слеш (//) более двух раз.(.+)/$ /$1 [R=301,L] Сайт полностью пропал в интернете. В чем ошибка?

25.11.2019 09:10

Cтраниц, которые отличаются только GET параметрами — множество.
https://site.ru/?a
https://site.ru/?b
https://site.ru/?c
https://site.ru/?d=e
https://site.ru/?f=g&h=j
Это все страницы с одинаковым request_uri, и чем именно «/?» отличается от остальных — непонятно. Поясните, если не сложно.

2019-11-26 10:40

Вариантов вообще в принципе может быть миллион, вы правильно мыслите. Мы проверяем только самые распространенные и дали подсказку какими могут быть дубли главной страницы.

2020-08-27 01:26

Прошу в анализ добавить также вариант поиска дубля, если одну из строчных букв поменять на заглавную букву

Поиск дублей страниц на сайте (Руководство от эксперта)

Добрый день, друзья! Уже очень давно меня просили читатели блога сделать пост о том, как избавиться от replytocom. Тема эта актуальна, так как из-за этого в индексе получается огромное число похожих страничек с параметрами коммента. Все дело в том, что многие блоги созданы на CMS WordPress, который грешит дубликацией комментариев. Поэтому я решил дать всю информацию не только о replytocom. В статье я раскрываю понятие дублированного контента, показываю как сделать поиск дублей страниц сайта и поясняю, почему от них нужно избавляться. А в следующем посте я покажу, как нужно их удалять.

Дублированный контент на сайте

Дубли бывают разными — тихими и заразными. 🙂 Если серьезно, то дублированная страница — это документ сайта, который может иметь полностью или частично одинаковый контент. Разумеется, каждый дубль имеет свой адрес (url страницы).

Есть четкие и нечеткие дубли. Четкий дубль страницы может возникнуть по следующим причинам:

искусственно создаются владельцем сайта для специальных нужд. Например, страницы для печати, которые позволяют пользователю коммерческого сайта скопировать информацию по выбранному товару / услуге.
генерируются движком ресурса, так как это у них заложено в теле. Некоторые современные CMS выдают похожие страницы с другими урлами, размещенные по своим разным дерикториям.
появляются за счет ошибок веб-мастера, который управляет сайтом. Например, ресурс обзаводиться двумя одинаковыми главными страницами с разными адресами (например, site.ru и site.ru/index.php).
возникают по случаю изменения структуры сайта. Например, при создании нового шаблона с другой системой урлов, новые страницы со старым контентом получают совершенно другие адреса.

Нечеткий дубль получают страницы, которые частично дублируют контент. Такие страницы имеют общую часть шаблона сайта, но отличаются небольшим контентным наполнением.

Например, такими небольшими дублями могут быть страницы ресурса, имеющие результаты поиска или отдельные элементы статьи (например, картинки — такое очень часто бывает во многих шаблонах блогов).

На следующем рисунке я собрал самые частые варианты дублей страниц, которые присущие блогу с движком Вордпресс (без учета различных плагинов и фишек шаблона, которые также частенько создают дублированные документы):

Наличие дублей страниц на сайте может говорить о том, что или веб-мастер не знает об их присутствии, или он просто не умеет с ними бороться. А бороться с ними нужно, так как они приводят к различным ошибкам и проблемам в плане поискового продвижения. Об этом сейчас и поговорим.

Почему нужно удалять дубли страниц

Дублированные страницы — это не какой-то вирусняк или паразитирующий организм. Он конечно тоже плодиться, но не за счет себя или своих функций. То есть он плодиться не по своей воле. Дубли на самом деле — это результат неправильного кода сайта, итог огрехов веб-мастера или блоггера.

Но какими бы не были пассивными дубли страниц, они могут подложить конкретную свинью владельцу любого сайта или блога. Итак, чем же так опасен дублированный контент? Вот основные проблемы, которые возникают при наличии дублей:

Ухудшение индексации сайта. Я называю это проблемой №1. Дело в том, что в зависимости от источника и ошибок веб-мастера, страница сайта может иметь от одного до нескольких или больше дублей. Например, главная может грешить двумя-тремя дупликатами, а посты блогов из-за вездесущего replytocom скопируются по количеству комментариев. И если блог популярный, то и число «левых» страниц будет огромным. А поисковые системы (особенно Google) не любят дубли и поэтому частенько занижают позиции самого сайта.

Замена релевантной страницы. Алгоритм поисковой системы может посчитать дубль более релевантным, чем продвигаемая страница-оригинал (моя статья о понятии релевантности). Тем самым в выдаче будет находиться не целевая страница, а ее клон. Но у этого клона совсем другие незначительные параметры (ссылочный вес, метрики посещаемости), которые со временем пессимизируют сайт в серпе поисковой системы.

Бесполезность естественных ссылок. Представьте себе картину — на Ваш сайт пришел посетитель. Ему понравился Ваш контент и он решился поделиться с друзьями полезным адресом понравившейся страницы. А эта страница — дубль оригинала. В итоге ссылку получит дублированный контент, а не наш реальный документ. Таким образом мы просто теряем настоящую естественную ссылку.

Итак, подытожим вышесказанное. Дубли страниц создают помеху в нормальной индексации сайта, становятся источником неправильного выбора поисковиком релевантной страницы, забирают влияние естественных внешних ссылок. Также дубли неправильно распределяют внутренний ссылочный вес, отбирая силу у продвигаемых страниц и меняя поведенческие показатели:

В общем, дубли — это большое зло в поисковом продвижении и страшный сон оптимизатора. 🙂

Как определить дубли страниц на сайте

Есть разные способы поиска и проверки дублей страниц. Они требуют разного уровня знаний CMS и понимание работы поискового индекса. Я покажу самый простой из способов. Это не значит, что если он простой, то не точный. С его помощью легко находятся дубликаты документов сайта. И самое главное — этот способ не требует особых знаний и не займет много времени.

Для того, чтобы найти и проверить свой сайт на наличие дубликатов страниц, нужно или воспользоваться расширенным поиском Яндекса (Гугла) или сразу ввести в поисковую строку специальный запрос. Сначала рассмотрим первый вариант.

Поиск дублей страниц с помощью расширенного поиска

Расширенный поиск Яндекса позволяет получить более точную выдачу благодаря уточняющим параметрам запроса. В нашем случае нам нужно только два параметра — адрес сайта и кусочек текста той страницы, по которой мы ищем дубли. Сначала мы выделяем текст, который находится на той странице нашего сайта (для примера взят абсолютно чужой ресурс), которую будем проверять на дубли. Затем идет в расширенный поиск Яндекса и вносим в соответствующие позиции кусочек контента и адрес сайта:

Далее мы нажимаем заветное слово «Найти» и русский поисковик начинает формировать выдачу. Она получится не той, которую мы обычно наблюдаем — она будет состоять полностью из заголовков и сниппетов только нашего ресурса. Причем, если в выдаче будет только один результат поиска, то все хорошо — дублированного контента этой страницы нет. Если же есть в полученном серпе несколько результатов, то придется доставать лопату:

В моем примере поисковик нашел несколько нечетких дублей — ряд страниц из пагинации по некоторым рубрикам. Сразу видно, что на данном сайте страница с выделенным текстом про рецепт салата явно размещалась сразу в разных рубриках. А так как запрет на индексацию страниц пагинации для этого ресурса не ставился, в индексе вылезли всевозможные дубли.

Теперь рассмотрим те же действия для зарубежного поисковика. Заходим на страницу расширенного поиска Google и совершаем те же самые действия:

Заполнив все необходимое на расширенном поиске, получаем индексацию исследуемого сайта согласно указанному куску текста:

Как видим, Гугл также проиндексировал неточные дубли исследуемой страницы — в выдаче все те же страницы рубрик.

В принципе получить те же самые результаты можно и не используя расширенный поиск. Для этого нужно в простом варианте Гугла или Яндекса прописать следующий запрос. И в этом заключается второй способ определения дублей документов.

Как найти дубли страниц с помощью специального запроса

С помощью расширенного поиска легко находятся все дубликаты по заданному тексту. Конечно, с помощью данного способа мы не получим дубли страниц, которые не содержат текст. Например, если дубль создается «кривым» шаблоном, который зачем-то показывает на другой странице картинку, которая находится на странице-оригинале. То такой дубликат выше описанным способом найти не получиться. В таком случае придется использовать другой способ.

Его суть проста — с помощью специального оператора мы запрашиваем индексацию всего нашего сайта (или отдельной страницы) и уже вручную смотрим выдачу в поисках дубликаторов. Вот правила синтаксиса этого запроса:

Когда мы в запросе указываем адрес главной страницы,то получаем просто список проиндексированных страниц поисковым роботом. Если же мы указывает адрес конкретной страницы, то получаем список проиндексированных дублей этой страницы. В Яндексе они сразу видны. А вот в Гугле все немного сложнее — сначала нам покажут те страницы, которые есть в основной выдаче:

Как видно на картинке, в основной выдаче у нас находится одна страница сайта и она же является оригиналом. Но в индексе есть и другие страницы, которые являются дублями. Чтобы их увидеть, нужно нажать на ссылку «Показать скрытые результаты»:

В итоге нам выдается список дублей, которые Гугл проиндексировал и связал со страницей-оригиналом (цифра 1 на картинке). В моем примере такими дублями стали страницы с позициями 2 и 3.

На второй позиции находится дубль, который является трекбэком данного документа (автоматическое уведомление для других сайтов данной публикации). Вещь конечно нужная, но ее присутствие в индексе не желательно. Хозяин данного сайта это прекрасно понимает и поэтому прописал запрет на индексацию трэкбеков с сайта. Об этом говорит надпись «Описание веб-страницы недоступно из-за ограничений в файле robots.txt». Если посмотреть инструкцию для поисковых систем (robots.txt), то увидим следующую картину:

Благодаря последним директивам, автор сайта указал на запрет индексации трэкбеков. Но к сожалению, Гугл заносит в свой индекс все, что ему попадется под руку. И здесь уже нужно просто удалять дубли из базы данных. об этом поговорим уже во второй статье, посвященной дублированному контенту.

На третьей позиции показан горячо любимый многими блоггерами replytocom. Он получается путем использования комментирования на блогах и сайтах. И благодаря ему возникает просто огромная куча дублей — обычно это количество примерно равно число комментов на ресурсе. В нашем примере этот атрибут, как и трэкбек закрыты для индексации. Но Гугл и его схавал в свой индекс. Тоже нужно чистить вручную.

Кстати, если мы немного изменим наш запрос, то можем получить те же результаты, что дает расширенный поиск дублей по кусочку текста:

Проверка дублей страниц с помощью Яндекс Вебмастера

Вариант проверки дублированного контента в вебмастере очень простой и состоит из следующих действий:

1Заходим в панель инструментов Яндекса в раздел меню «Индексирование» и открываем отчет «Страницы в поиске». В нем показывается статус проиндексированных страниц сайта в русском поисковике.

На этой странице нас интересует кнопка «Исключенные страницы»:

2Нажав на эту кнопку, вебмастер показывает список документов, которые Яндекс исключил из поискового индекса (не путать с обычным индексом) и по каждой странице указывает причину удаления: 3В этом списке каждый столбец имеет свой фильтр. Нас интересует «Статус». Нажимаем его и получаем перечень всех вариантов, по которым Яндекс исключил данные документы:

Если в этом списке есть вариант о дублировании страниц, выбираем его и получаем перечень документов-дублей. В моем примере такого варианта нет, но такие данные вебмастер может предоставить.

Вот фрагмент таблички с вариантами исключения страниц из поиска с исключением дублей:

Получив перечень страниц с дублированным контентом, остается только проверить эти страницы и выбрать вариант решения проблемы.

Как выявить дубли страниц с помощью seo-программ

Наряду со стандартными сервисами поисковых систем по оценке статуса сайта в поиске, существует множество различных источников с инструментарием по поиску дублей страниц на сайте.

Но также есть и ряд seo-программ, решающих проблему поиска дублированного контента. Принцип их работы практически одинаковый, что и у онлайн-сервисов, поэтому выбор может быть обусловлен по другим параметрам (скорость работы, стоимость продукта, дружелюбность интерфейса и т.д.).

Поэтому я не буду показывать подробно перечень действий каждого такого seo-инструмента, а просто дам следующий список самых популярных на мой взгляд программ:

Объемная seo-программа от фирмы Netpeak Software.

Плюсы: мощный функционал с рекомендациями использования по многим seo-вопросам. Большое сообщество пользователей программы

Минусы: платная (есть с 7-ми дневный триал)

Более современная версия бесплатного Xenu c обновлениями.

Плюсы: понятный интерфейс, хорошая скорость работы.

Минусы: Условно-бесплатная программа (проверка до 500 страниц без оплаты). Дубли только по заголовкам и описаниям.

Итак, друзья, в этой статье я приоткрыл занавес над понятием дублей страниц и их успешным нахождением и проверкой. Надеюсь, что мои способы поиска дублированного контента в вашей деятельности не понадобятся. Но если такое случится, адрес этого поста на всякий случай сохраните. 🙂

== Часто задаваемые вопросы по теме (FAQ) ==

Что такое дубли страниц на сайте?

Это документ сайта со своим уникальным адресом, который имеет полностью/ частично одинаковый контент, копируемый с исходной страницы.

Чем плохи и опасны ли дубли страниц для сайта?

Поисковой системе трудно выбрать из двух одинаковых страниц релевантную, чтобы показать ее в своей выдаче. Не тот документ может ухудшить видимость сайта в поиске.

Как найти дубли страниц на сайте?

С помощью расширенного поиска и оператора site в поисковых систем, соответствующими инструментами в сервисах по анализу сайта, путем использования специализированных программ.

Как удалить дубли страниц на сайте?

Использовать редирект 301, установить тег «rel=canonical» для страниц, запретить в файле robots.txt, корректировать вручную. Более подобно в этой практической инструкции.

С уважением, Ваш Максим Довженко

Как проверить повторяющееся содержимое

Как найти повторяющееся содержимое

Следует свести к минимуму повторяющийся контент на веб-сайте, поскольку это может затруднить поисковым системам решение, какую версию ранжировать по запросу.

В то время как «штраф за дублирование контента» является мифом в SEO, очень похожий контент может вызвать неэффективность сканирования, снизить рейтинг PageRank и быть признаком того, что контент может быть объединен, удален или улучшен.

Следует помнить, что повторяющийся и похожий контент является естественной частью Интернета, что часто не является проблемой для поисковых систем, которые намеренно канонизируют URL-адреса и фильтруют их там, где это необходимо. Однако в масштабе это может быть более проблематично.

Предотвращение дублирования контента позволяет вам контролировать индексирование и ранжирование, а не оставлять это поисковым системам. Вы можете ограничить трату краулингового бюджета и объединить сигналы индексации и ссылок, чтобы помочь в ранжировании.

Из этого туториала Вы узнаете, как использовать Screaming Frog SEO Spider для поиска как точного дублированного контента, так и почти дублированного контента, где некоторый текст совпадает между страницами на веб-сайте.

Дублирующийся контент, обнаруживаемый любым инструментом, включая SEO Spider, требует проверки в контексте. Посмотрите наше видео или продолжайте читать наше руководство ниже.

Для начала загрузите SEO Spider, который можно бесплатно сканировать до 500 URL.Первые 2 шага доступны только при наличии лицензии. Если вы бесплатный пользователь, перейдите к пункту 3 в руководстве.

1) Включите «Рядом с дубликатами» через «Конфигурация> Контент> Дубликаты»

По умолчанию SEO Spider автоматически определяет точные дубликаты страниц. Однако для определения «близких к дубликатам» необходимо включить конфигурацию, которая позволяет сохранять содержимое каждой страницы.

SEO Spider идентифицирует близкие к дубликаты с совпадением сходства 90%, которое можно настроить для поиска контента с более низким порогом сходства.

SEO Spider также будет проверять только «индексируемые» страницы на наличие дубликатов (как на точные, так и на близкие).

Это означает, что если у вас есть два одинаковых URL, но один из них канонизирован для другого (и, следовательно, «неиндексируемый»), об этом не будет сообщаться — если этот параметр не отключен.

Если вы хотите найти проблемы с бюджетом сканирования, снимите флажок «Проверять только индексируемые страницы на наличие дубликатов», так как это поможет найти области, в которых могут возникнуть ненужные затраты.

2) Настройте «Content Area» для анализа с помощью «Config> Content> Area»

Вы можете настроить контент, который будет использоваться для анализа почти дублированных материалов. Для нового сканирования мы рекомендуем использовать настройку по умолчанию и уточнять ее позже, когда контент, используемый в анализе, можно будет увидеть и рассмотреть.

SEO Spider автоматически исключает элементы навигации и нижнего колонтитула, чтобы сосредоточиться на основном содержании. Однако не каждый веб-сайт построен с использованием этих элементов HTML5, поэтому при необходимости вы можете уточнить область содержания, используемую для анализа.Вы можете «включить» или «исключить» HTML-теги, классы и идентификаторы в анализе.

Например, на веб-сайте Screaming Frog есть мобильное меню вне элемента навигации, которое по умолчанию включено в анализ контента. Хотя это не такая уж большая проблема, в данном случае, чтобы сосредоточиться на основном тексте страницы, имя класса «mobile-menu__dropdown» можно ввести в поле «Исключить классы».

Это исключит включение меню в алгоритм анализа дублированного контента.Подробнее об этом позже.

3) Сканирование веб-сайта

Откройте SEO Spider, введите или скопируйте веб-сайт, который вы хотите сканировать, в поле «Введите URL-адрес для паука» и нажмите «Начать».

Подождите, пока сканирование не завершится и не достигнет 100%, но вы также можете просмотреть некоторые детали в режиме реального времени.

4) Просмотр дубликатов на вкладке «Содержание»

На вкладке «Контент» есть 2 фильтра, связанных с дублирующимся контентом: «точные дубликаты» и «почти дублированные».

Только «точные дубликаты» доступны для просмотра в режиме реального времени во время сканирования.«Почти повторяющиеся» требуют вычисления в конце сканирования с помощью публикации «Анализ сканирования» для заполнения данными.

На правой панели «Обзор» отображается сообщение «(Требуется анализ сканирования)» напротив фильтров, которые требуют заполнения данных после анализа сканирования.

5) Нажмите «Анализ сканирования> Начать», чтобы заполнить фильтр «Почти повторяющиеся»

Для заполнения фильтра «Почти повторяющиеся», «Ближайшее совпадение по сходству» и «Нет. Столбцы рядом с дубликатами, вам просто нужно нажать кнопку в конце сканирования.

Однако, если вы ранее настроили «Анализ сканирования», вы можете дважды проверить в разделе «Анализ сканирования> Настроить» отметку «Почти повторяющиеся».

Вы также можете снять отметки с других элементов, которые также требуют анализа после обхода контента, чтобы ускорить этот шаг.

Когда анализ сканирования будет завершен, индикатор выполнения «анализа» будет на 100%, а в фильтрах больше не будет сообщения «(Требуется анализ сканирования)».

Теперь вы можете просмотреть заполненный почти повторяющийся фильтр и столбцы.

6) Просмотр вкладки «Контент» и фильтров «Точное» и «Рядом» дубликатов

После выполнения анализа пост-сканирования, фильтр «Почти повторяющиеся», «Самое близкое совпадение» и «Нет. Столбцы рядом с дубликатами будут заполнены. Только URL-адреса с содержанием, превышающим выбранный порог схожести, будут содержать данные, остальные останутся пустыми. В этом случае на сайте Screaming Frog их всего два.

Сканирование более крупного веб-сайта, такого как BBC, откроет гораздо больше.

Вы можете фильтровать по следующему параметру —

Точные дубликаты — Этот фильтр будет показывать идентичные друг другу страницы с использованием алгоритма MD5, который вычисляет значение «хеш-функции» для каждой страницы и отображается в столбце «Хеш». Эта проверка выполняется в отношении полного HTML-кода страницы. Он покажет все страницы с совпадающими хэш-значениями, которые абсолютно одинаковы. Точные повторяющиеся страницы могут привести к разделению сигналов PageRank и непредсказуемости ранжирования.Должна существовать только одна каноническая версия URL-адреса, на которую имеется внутренняя ссылка. Другие версии не должны быть связаны, и они должны быть 301 перенаправлены на каноническую версию.
Near Duplicates — этот фильтр будет показывать похожие страницы на основе настроенного порога сходства с использованием алгоритма minhash. Пороговое значение можно настроить в разделе «Конфигурация> Паук> Контент» и по умолчанию установлено значение 90%. В столбце «Самое близкое совпадение» отображается самый высокий процент сходства с другой страницей.Нет. В столбце «Рядом с дубликатами» отображается количество страниц, похожих на страницу, на основании порогового значения схожести. Алгоритм работает с текстом на странице, а не с полным HTML, как с точными дубликатами. Контент, используемый для этого анализа, можно настроить в разделе «Конфигурация> Контент> Область». Страницы могут иметь 100% сходство, но только «почти дублировать», а не быть точными копиями. Это связано с тем, что точные дубликаты исключаются как близкие к дубликатам, чтобы они не помечались дважды.Оценки схожести также округляются, поэтому 99,5% или выше будут отображаться как 100%.

Почти повторяющиеся страницы следует проверять вручную, поскольку существует множество законных причин, по которым некоторые страницы могут быть очень похожими по содержанию, например, варианты продуктов, объем поиска которых определяется их конкретным атрибутом.

Однако URL-адреса, помеченные как почти повторяющиеся, должны быть проверены, чтобы решить, должны ли они существовать как отдельные страницы из-за их уникальной ценности для пользователя, или их следует удалить, объединить или улучшить, чтобы сделать контент более глубоким и уникальным. .

7) Просмотрите повторяющиеся URL-адреса через вкладку «Повторяющиеся сведения»

Для «точных дубликатов» проще просматривать их в верхнем окне с помощью фильтра, поскольку они сгруппированы вместе и имеют одно и то же значение «хеш-функции».

На приведенном выше снимке экрана каждый URL-адрес имеет соответствующий точный дубликат из-за версии с косой чертой в конце и без косой черты.

Для «почти повторяющихся» щелкните вкладку «Duplicate Details» внизу, которая заполняет нижнюю панель окна «почти повторяющимся адресом» и схожестью каждого обнаруженного почти повторяющегося URL-адреса.

Например, если для URL-адреса в верхнем окне обнаружено 4 почти дубликата, все они могут быть просмотрены.

В правой части вкладки «Повторяющиеся сведения» будет отображаться почти дублированный контент, обнаруженный на страницах, и выделены различия между страницами, когда вы нажимаете на каждый «почти повторяющийся адрес».

Если на вкладке повторяющихся сведений есть дублированный контент, который вы не хотите участвовать в анализе дублированного контента, исключите или включите любые HTML-элементы, классы или идентификаторы (как выделено в пункте 2) и повторно запустите сканирование. анализ.

8) Массовый экспорт дубликатов

Как точные, так и почти повторяющиеся дубликаты могут быть экспортированы в массовом порядке через экспорт «Групповой экспорт> Контент> Точные дубликаты» и «Почти дубликаты».

Последний совет! Уточните порог схожести и область содержимого и повторно запустите анализ сканирования

После сканирования вы можете настроить как порог схожести, близкого к дублированию, так и область содержимого, используемую для анализа почти повторяющегося сходства.

Затем вы можете повторно запустить анализ обхода, чтобы найти более или менее похожий контент — без повторного обхода веб-сайта.

Как указывалось ранее, на веб-сайте Screaming Frog есть мобильное меню за пределами элемента навигации, которое по умолчанию включено в анализ содержимого. Мобильное меню можно увидеть в предварительном просмотре содержимого вкладки «повторяющиеся сведения».

Если исключить «mobile-menu__dropdown» в поле «Exclude Classes» в «Config> Content> Area», мобильное меню будет удалено из предварительного просмотра контента и анализа почти дублирующихся элементов.

Это действительно может помочь при точной настройке идентификации почти дублированного содержимого в основных областях содержимого без необходимости повторного сканирования.

Сводка

В приведенном выше руководстве должно быть показано, как использовать SEO Spider в качестве средства проверки дублированного контента на вашем веб-сайте. Для получения наиболее точных результатов уточните область содержимого для анализа и настройте порог для разных групп страниц.

Пожалуйста, также прочтите наш Screaming Frog SEO Spider FAQs и полное руководство пользователя для получения дополнительной информации об этом инструменте.

Если у вас есть дополнительные вопросы, отзывы или предложения по улучшению инструмента дублирования контента в SEO Spider, просто свяжитесь с нами через службу поддержки.

Проверка дублированного контента • Yoast

Михил Хейманс

Михиэль был одним из наших первых сотрудников и раньше был партнером Yoast. Начните оптимизацию своего сайта с его статей!

В мире SEO очень опасаются дублирования контента. Если ваш контент размещен на нескольких страницах вашего сайта или других веб-сайтов, Google может запутаться и не будет знать, что ставить в первую очередь.Вам нужно максимально предотвратить дублирование контента. Итак, что ты можешь сделать сам? Здесь я объясню, как выполнять проверку дублированного контента, которую вы должны делать время от времени, чтобы найти скопированный контент. Плюс несколько советов, как вообще избежать дублирования контента. Давайте начнем!

Добавление превентивного сниппета

В разделе «Внешний вид в поиске»> «RSS» нашего плагина Yoast SEO мы предварительно определили фрагмент, который будет добавлен к вашей записи в фиде со словами: «Эта статья впервые появилась на вашем сайте.com ». Ссылка в этом фрагменте гарантирует, что каждый парсер содержит ссылку на исходную статью. Конечно, это уже помогает предотвратить дублирование контента, так как Google найдет эту обратную ссылку на ваш сайт.

Тем не менее, если вы напишете классный контент, ваш контент будет дублироваться. И эта копия не всегда будет содержать ссылку на ваш сайт. Еще одна причина регулярно проверять дублирующийся контент.

CopyScape средство проверки дублированного содержимого

Есть много инструментов для поиска дублированного контента.Одним из наиболее известных средств проверки дублированного контента, вероятно, является CopyScape.com. Этот инструмент работает довольно легко: вставьте ссылку в поле на главной странице, и CopyScape вернет ряд результатов, которые немного похожи на страницы результатов поиска Google.

Страница результатов сканирования CopyScape

Вы можете щелкнуть результаты, чтобы получить более подробную информацию и увидеть, какие части вашего текста дублируются. Давайте посмотрим на пример из нашего популярного поста о 6 распространенных SEO-ошибках, который был впервые опубликован 3 октября 2017 года.Copyscape обнаружил, что было скопировано 170 слов, или 9% этого сообщения:

CopyScape выделяет повторяющиеся отрывки

В данном случае первый абзац нашей статьи, в котором низкая скорость сайта обсуждается как распространенная ошибка SEO, был скопирован и превращен в короткое сообщение в блоге. CopyScape четко выделяет текст, который они сочли дублированным, что дает представление о серьезности копирования. Если бы это всего лишь небольшой процент страницы, я бы не беспокоился. Если он превышает 40% и составляет довольно большую часть другой страницы, я бы просто отправил им электронное письмо, чтобы изменить скопированный текст.

Используйте средство проверки дублированного содержимого CopyScape, чтобы найти скопированный контент с вашего веб-сайта на других веб-сайтах. Опять же, это один из многих инструментов, но этот бесплатный и простой в использовании. Однако имейте в виду, что вы не получите неограниченное количество сканирований для одного веб-сайта. Если вы хотите глубже погрузиться в повторяющийся контент, CopyScape также предлагает премиум-версию для получения дополнительных сведений.

Совет: повторяющееся содержание на страницах товаров

Используя CopyScape, мы часто обнаруживаем, что описания производителей, используемые в интернет-магазинах, дублируются.Обычно они автоматически импортируются в систему управления контентом магазина. Обычно не только для , а для вашего веб-сайта . Помните об этом. Я понимаю, что писать уникальные описания для каждого продукта довольно сложно. Но разве ваши самые продаваемые продукты, по крайней мере, не заслуживают того же? Так что начните сейчас и возьмите это оттуда!

Внутренняя проверка дублированного контента Siteliner

Siteliner — брат CopyScape, который выполняет поиск внутренних повторяющегося содержания.Итак, эта программа проверки дублированного контента найдет дублированный контент на вашем собственном сайте .

Внутренний дублированный контент

Внутренний дублированный контент, как это происходит, спросите вы? Что ж, очень распространенный пример этого — когда блог WordPress не использует выдержки, а показывает всю запись блога на главной странице блога. Это означает, что сообщение в блоге доступно как минимум на двух страницах: на домашней странице и в самом сообщении. И, вероятно, он также есть на страницах обзора категорий и тегов.Это уже четыре версии одной и той же статьи на вашем собственном сайте.

Использование отрывков (вместо показа всего сообщения) имеет то преимущество, что отрывок всегда имеет правильную ссылку на сообщение. Эта ссылка сообщит Google, что исходный контент находится не на этой странице блога / категории / тега, а в самом сообщении. Мы часто рекомендуем использовать отрывки.

Использование Siteliner

Проверка дублированного контента Siteliner покажет вам множество вещей, но ограничено 250 страницами и один раз в 30 дней.Опять же, есть премиум-версия, но бесплатная уже произведет на вас хорошее впечатление. Просто выполните поиск, и вы окажетесь на странице обзора. В левом верхнем углу вы увидите процент внутреннего повторяющегося содержания. Не паникуйте, когда увидите большие числа, так как при этой проверке дублированного содержания также учитываются отрывки из дублированного содержания:

Страница обзора сайта

Просто щелкните одну из ссылок и проверьте, действительно ли это отрывок. Отрывок явно ссылается на сообщение, так что, если это так, вы защищены.

Siteliner выделяет контент, который считает внутренним дублированным контентом, и сообщает, где его найти

Дополнительное примечание об использовании средств проверки дублированного контента

Хотя Google понимает, что такое боковая панель, CopyScape и Siteliner, похоже, включают весь текст на странице в свои процентные вычисления. Это означает, что фактический процент дублированного контента при просмотре основного контента страницы может быть выше. Помните об этом, когда будете использовать одну из этих проверок дублированного контента.Просто головы-вверх!

Ручная проверка дублированного содержимого

CopyScape и Siteliner — удобные и удобные средства проверки дублированного контента. Однако, если вы хотите увидеть, что дублируется в соответствии с Google, вы также можете просто использовать сам Google.

Если у вас есть определенная страница, которую вы хотите проверить, просто перейдите на эту страницу. Скопируйте фрагмент текста, желательно из раздела, который, по вашему мнению, может быть привлекательным для копирования другими. Давайте возьмем отрывок из нашей статьи о распространенных ошибках SEO: « Если заголовок вашей страницы слишком длинный (в настоящее время от 400 до 600 пикселей), он будет обрезан в Google.Вы не хотите, чтобы потенциальные посетители не могли прочитать полный заголовок в поисковой выдаче. ”(обратите внимание, что Google учитывает только первые 32 слова). Вставьте точный фрагмент в Google между двойными кавычками, например:

По данным Google, этот поисковый запрос возвращает «около 208 результатов», что намного превышает 10 результатов, возвращенных CopyScape.

Проверьте свой собственный дублированный контент

Используйте средство проверки дублированного контента, например CopyScape, чтобы найти то, что было скопировано с вашего сайта, и используйте Google, чтобы узнать, где еще в Интернете этот контент оказался.Это простые инструменты, которые служат более высокой цели: для предотвращения дублирования контента . Если вы хотите узнать больше о дублированном контенте, начните со статьи «Дублированный контент: причины и решения».

Подробнее: rel = canonical: полное руководство »

Как проверить дублированный контент во время SEO-аудита

Различные типы проблем с контентом могут мешать сайту — от проблем с контентом на основе URL до физического дублирования контента, фактически копируемого со страницы на страницу без особых изменений.

Как будто этого было недостаточно, у вас есть другие специфические для WordPress проблемы с дублированием контента, о которых нужно беспокоиться, например, дублированный контент на страницах продуктов и страницах категорий.

Выявление проблем с дублирующимся контентом — важная часть вашего SEO-аудита.

Вот что вам нужно проверить и как это сделать.

Быстрое выявление проблем с дублирующимся контентом на вашем сайте

Как проверить

Использование инструмента Siteliner.com (созданного Copyscape) может помочь быстро выявить проблемы с дублированным контентом на вашем сайте.

Это дает наглядное представление, которое показывает, какие страницы имеют процент совпадения, а какие страницы соответствуют другим страницам.

Определите, какие страницы вашего сайта были дублированы в Интернете

Как проверить

Используйте Copyscape, чтобы проверить, какие страницы вашего сайта были дублированы в Интернете. Copyscape считается одним из стандартных инструментов аудита в кругах SEO. Этот инструмент может помочь вам выявлять дублирующийся контент по всему сайту с помощью функции частного индекса их премиум-сервиса.
Чтобы охватить все ваши базы, проверьте индекс Google на наличие плагиата копий содержания вашего сайта со всего Интернета. Выберите фрагмент текста, который вы хотите проверить, и просто скопируйте / вставьте его в строку поиска Google. Это должно помочь вам определить случаи его кражи.

Продолжить чтение ниже

Проверить URL-адреса на дублирование содержания

Выявление дублированного содержания не ограничивается только текстовым содержанием на странице.

Проверка URL-адресов, ведущих к дублированию контента, также может выявить проблемы, которые вызывают большую путаницу у Google при сканировании вашего сайта.

Проверьте и изучите следующее:

Каковы последние обновления содержимого.
Объем обновлений контента.
Историческая тенденция обновления страниц.

Как проверить

В Screaming Frog прокрутите до конца вправо, и вы найдете столбец «Последнее изменение». Это может помочь вам:

Определите, каковы последние обновления содержимого и объем обновлений содержимого на сайте.
Разработайте исторические тенденции обновления страниц.

Продолжить чтение ниже

Если вы одержимы своими конкурентами, вы можете даже сканировать их каждый месяц и хранить эти данные под рукой, чтобы определить, что они делают.

Было бы довольно легко анализировать и обновлять эти данные в таблице Excel, а также определять исторические тенденции, если вы хотите увидеть, что делают конкуренты с точки зрения разработки своего контента.

Это может быть бесценная информация.

Что проверять

Синдицированный контент.
Полезный дополнительный контент.

Понимание того, как контент сегментирован внутри сайта или каким-то образом синдицирован, полезно для отделения исходного содержимого на сайте от синдицированного содержимого на сайте, особенно когда синдицированный контент является важной функцией сайта.

Этот прием особенно полезен для определения тонкого содержимого и создания настраиваемых фильтров для поиска полезного дополнительного содержимого.

Известность ключевого слова

Приведенный выше трюк для создания настраиваемых фильтров также может помочь вам определить известность ключевого слова — когда ключевое слово появляется в первых 100 словах содержания страницы.

Ключевое слово в тегах h2, h3, h4

В Screaming Frog щелкните вкладку h2, затем посмотрите на теги h2, h3 и h4.

Вы также можете щелкнуть вкладку h3. Кроме того, вы можете настроить собственный фильтр для определения тегов h4 на сайте.

Что проверять

Порядок ключевых слов.
Грамматика и орфография.
Уровень чтения.

Продолжить чтение ниже

Выявление плохих грамматических и орфографических проблем на вашем сайте во время аудита сайта не идеально и может быть болезненным, но сделать это перед публикацией контента — хороший шаг к тому, чтобы убедиться, что ваш сайт солидный исполнитель.

Если вы не профессиональный писатель, используйте приложение Hemingway для редактирования и написания своего контента.

Это может помочь выявить основные проблемы перед публикацией.

Количество исходящих ссылок

Количество исходящих ссылок на странице может повлиять на производительность страницы.

Продолжить чтение ниже

Оптимальная практика оптимизаторов поисковых систем — не превышать 100 ссылок на странице.

Хотя Google заявил, что требование об ограничении исходящих ссылок 100 ссылками на страницу было снято, есть противоречивые утверждения.

Джон Мюллер заявил, что исходящие ссылки не являются фактором ранжирования.Что он?

Это помогает найти ответы на тематические исследования, проведенные другими:

Было проведено исследование RebootOnline.com, которое противоречит этому:

«Результаты очевидны.
Исходящие релевантные ссылки на авторитетные сайты учитываются в алгоритмах и действительно оказывают положительное влияние на рейтинг ».

Контекст важен, потому что 100 исходящих ссылок на странице могут быть чем угодно, от 100 навигационных ссылок до 100 ссылок, просто собранных вместе в ферму ссылок.

Идея состоит в том, чтобы проверить качество этих ссылок, а также их количество.

Если вы видите что-то странное с точки зрения количества ссылок, это заслуживает дальнейшего изучения как их качества, так и количества.

Продолжить чтение ниже

Если вы хотите выполнить проверку бонуса, вы всегда можете проверить это в Screaming Frog, хотя обычно это больше не требуется.

Как проверить

В Screaming Frog после того, как вы определите страницу, на которой хотите проверить исходящие ссылки, щелкните URL-адрес в главном окне, а затем перейдите на вкладку «Исходящие ссылки».

В качестве альтернативы вы можете нажать Массовый экспорт> Все исходящие ссылки , если вам нужен более быстрый способ определения исходящих ссылок на уровне всего сайта.

Количество внутренних ссылок, указывающих на страницу

Чтобы определить количество внутренних ссылок, указывающих на страницу, щелкните URL-адрес в главном окне Screaming Frog, затем щелкните вкладку Inlinks.

Продолжить чтение ниже

Вы также можете нажать Массовый экспорт> Все входящие ссылки , чтобы определить внутренние ссылки на все страницы сайта.

Качество внутренних ссылок, указывающих на страницу

Используя экспортированный документ Excel с шага, на котором мы массово экспортировали ссылки, легче оценить качество внутренних ссылок, указывающих на каждую страницу на сайте:

Broken Ссылки

Выявление неработающих ссылок в ходе SEO-аудита может помочь вам найти страницы, которые отображаются в Google как неработающие, и даст вам возможность исправить их до того, как они станут серьезными проблемами.

Продолжить чтение ниже

Как проверить

Как только Screaming Frog завершит сканирование вашего сайта, щелкните вкладку «Внутренний», выберите «HTML» в раскрывающемся меню «Фильтр» и отсортируйте страницы по коду состояния.

Это упорядочит страницы в порядке убывания, чтобы вы могли видеть все страницы с ошибками перед активными страницами 200 OK.

В этой проверке мы хотим идентифицировать все 400 ошибок, 500 ошибок и другие ошибки страницы.

Для некоторых ссылок, в зависимости от их контекста, можно безопасно игнорировать 400 ошибок и позволить им выпадать из индекса Google, особенно если это было давно и вы не нашли их в индексе Google.

Но если они проиндексированы и проиндексированы какое-то время, вы, вероятно, захотите перенаправить их в нужное место назначения.

Партнерские ссылки

Если цель вашего аудита состоит в том, чтобы выявить и удалить партнерские ссылки с сайта с большим количеством партнерских программ, то следующий совет — хороший путь для подражания.

Продолжить чтение ниже

Как проверить

Партнерские ссылки, как правило, имеют общий реферер или часть их URL, которую можно идентифицировать на многих различных веб-сайтах.

Использование настраиваемого фильтра может помочь вам найти эти ссылки.

Кроме того, используя условное форматирование в Excel, вы можете отфильтровать партнерские ссылки и определить, где они находятся в массовом экспорте из Screaming Frog.

Длина URL-адреса

Чтобы определить URL-адреса длиной более 115 символов в Screaming Frog, щелкните вкладку URL-адреса, щелкните «Фильтр», затем щелкните «Более 115 символов».

Это предоставит вам все URL-адреса на сайте, длина которых превышает 115 символов, и поможет выявить проблемы с слишком длинными URL-адресами.

Категория страниц

Для общего обзора категорий страниц полезно определить верхние страницы сайта через раздел структуры сайта Screaming Frog, расположенный в дальнем правом углу инструмента паука.

Продолжить чтение ниже

Как проверить

Используя вкладку «Структура сайта», вы можете определить основные URL-адреса на сайте, а также к каким категориям они относятся. Кроме того, вы можете определить проблемы со временем отклика страницы на вкладке «Время отклика».

Авторы изображений

Лучшее изображение: Пауло Бобита
Все снимки экрана сделаны автором

Как найти и удалить повторяющееся содержимое

При внедрении оптимизации поисковых систем (SEO) и внесении полезных обновлений на свой веб-сайт вы можете непреднамеренно создать другие проблемы в процессе.Одной из таких проблем может быть дублированный контент, который, если его не устранить, со временем может навредить вашей SEO-ценности и рейтингу в поисковых системах.

Из этой статьи вы узнаете, как найти повторяющееся содержание, что обычно вызывает дублирование содержания и как удалить его со своего сайта.

Прочтите или перейдите в раздел, о котором вы хотите узнать больше:

Влияние на SEO и рейтинг
Как найти дублированный контент
Причины дублированного контента
Способы удаления дублированного контента

Что такое дублированный контент?

Дублированный контент возникает, когда уже существующая веб-страница может быть найдена по нескольким URL-адресам.Когда на сайте есть дублированный контент, поисковые системы могут запутаться в том, какой URL является исходным или предпочтительным фрагментом контента.

Влияние на SEO и рейтинг

Из-за путаницы, вызывающей дублирование контента, роботы поисковых систем, любые рейтинги, ссылочный вес и авторитет страницы, которые получает страница, могут в конечном итоге быть разделены между дублированными URL-адресами. Это происходит потому, что роботам поисковых систем предоставляется возможность выбирать веб-страницу, которая, по их мнению, должна ранжироваться по определенному ключевому слову, и не всегда выбирают один и тот же URL-адрес каждый раз.Это приводит к тому, что каждый вариант URL получает разные ссылки, оценки авторитета страницы и рейтинг.

На протяжении многих лет было много недоразумений по поводу того, наказывает ли Google (и другие поисковые системы) сайты за дублированный контент. Не волнуйтесь, они не наказывают сайты!

Google понимает, что подавляющее большинство дублированного контента не создается намеренно — 50% веб-сайтов имеют проблемы с дублированным контентом! Однако, поскольку Google стремится отображать в результатах поиска разнообразный набор веб-сайтов, а не один и тот же контент дважды, их роботы-сканеры вынуждены выбирать, какую версию ранжировать.Этот выбор косвенно вредит SEO и рейтингу вашей веб-страницы.

Дублированный контент на вашем сайте может привести к трем основным проблемам:

Более низкий рейтинг результатов поиска
Плохое взаимодействие с пользователем
Снижение органического трафика

Чтобы удалить дублирующийся контент с вашего сайта и предотвратить дальнейший ущерб со стороны SEO, вам сначала нужно определить, какие страницы дублируются.

Как найти повторяющееся содержимое

Есть несколько способов найти дублирующийся контент на вашем сайте.Вот три бесплатных способа найти дублированный контент, отслеживать, какие страницы имеют несколько URL-адресов, и узнать, какие проблемы вызывают появление дублированного контента на вашем сайте. Это пригодится, когда вы удалите повторяющиеся страницы.

Консоль поиска Google

Google Search Console — это мощный бесплатный инструмент в вашем распоряжении. Настройка Google Search Console для SEO поможет обеспечить видимость эффективности ваших веб-страниц в результатах поиска. Используя вкладку «Результаты поиска» в разделе «Производительность», вы можете найти URL-адреса, которые могут вызывать проблемы с дублированным контентом.

Обратите внимание на следующие распространенные проблемы:

HTTP- и HTTPS-версии одного и того же URL-адреса
www и без www версии одного и того же URL
URL с косой чертой «/» и без нее.
URL с параметрами запроса и без них
URL с заглавными буквами и без них
Длинноэлементные запросы с ранжированием нескольких страниц

Вот пример того, что вы можете найти:

На изображении выше видно, что версии HTTP и HTTPS главной страницы Blue Frog занимают место в результатах поиска и получают клики.

http://www.bluefrogdm.com/ https://www.bluefrogdm.com/

Следите за URL-адресами, которые вы обнаруживаете с проблемами дублирования. Мы рассмотрим способы их устранения позже!

«Сайт:» Поиск

Перейдя в поиск Google и набрав «site:», а затем URL-адрес вашего веб-сайта, вы можете увидеть все страницы, которые Google проиндексировал и которые могут занять место в результатах поиска.

Вот что появляется, когда вы вводите «site: bluefrogdm.com / blog »в строку поиска Google:

Как видите, появляются две почти идентичные страницы блога Blue Frog. Это важно отметить: хотя эти страницы не являются технически дублирующимися страницами, они содержат одинаковый тег заголовка и мета-описание, что может привести к каннибализации ключевых слов и конкуренции за ранжирование между двумя страницами, схожим проблемам, с которыми сталкиваются дублированные страницы.

Проверка дублированного содержимого

SEO Review Tools создали эту бесплатную программу проверки дублированного контента, чтобы помочь веб-сайтам бороться со скрапингом контента.Введя свой URL-адрес в их инструмент проверки, вы можете получить обзор внешних и внутренних URL-адресов, которые дублируют введенный URL-адрес.

Вот что было обнаружено, когда я подключил « https://www.bluefrogdm.com/ » в чекер:

Обнаружение внешнего дублированного контента очень важно. Внешний дублированный контент может возникнуть, когда другой домен веб-сайта «крадет» контент вашего сайта, что также называется парсингом контента. При обнаружении вы можете отправить запрос на удаление в Google и удалить дублированную страницу.

Причины дублирования содержимого

Существует множество причин, по которым может создаваться дублированный контент (в основном непреднамеренно). Понимание различных вариантов URL-адресов, которые могут существовать, может помочь вам определить ваши собственные URL-адреса с повторяющимися страницами.

Совет: Когда вы обнаружите URL-адреса с дублированным содержанием, обратите внимание на другие аспекты URL-адресов вашего веб-сайта, для которых можно использовать оптимизацию!

Варианты URL

Изменения в URL-адресах могут происходить из-за идентификаторов сеансов, параметров запроса и использования заглавных букв.Когда URL-адрес использует параметры, которые не изменяют содержимое страницы, это может привести к созданию дублированной страницы.

Например: https://bluefrogdm.com/blog/local-seo-series/ и https://bluefrogdm.com/blog/local-seo-series/?source=ppc оба ведут к точному одна и та же страница, но к ним обращаются по разным URL-адресам, что приводит к дублированию страницы содержимого.

идентификаторов сеанса работают аналогичным образом. Чтобы отслеживать посетителей на вашем сайте, вы можете использовать идентификаторы сеанса, чтобы узнать, что делал пользователь, пока он был на сайте, и куда они пошли.Для этого идентификатор сеанса добавляется к URL-адресу каждой страницы, на которую они нажимают. Добавленный идентификатор сеанса создает новый URL-адрес той же страницы и, таким образом, считается дублированным контентом.

Заглавные буквы часто не добавляются намеренно, но важно обеспечить согласованность URL-адресов и использовать строчные буквы. Например, страницы bluefrogdm.com/blog и bluefrogdm.com/Blog будут считаться дублированными страницами.

HTTP против HTTPS и www против без www

Добавляя сертификаты SSL на свой сайт, вы защищаете свой сайт, что дает вам возможность использовать HTTPS вместо HTTP.Однако это приводит к тому, что на каждой из них будут существовать повторяющиеся страницы вашего веб-сайта. Точно так же контент вашего веб-сайта доступен как с www, так и без www.

Все следующие URL-адреса ведут на одну и ту же страницу, но для поисковых роботов будут считаться совершенно разными URL-адресами:

https://bluefrogdm.com http://bluefrogdm.com
www.bluefrogdm.com bluefrogdm.com

Должна быть доступна только одна из вышеперечисленных версий; все остальные должны быть перенаправлены на предпочтительную версию.

Содержимое, скопированное или скопированное

Когда другие веб-сайты «крадут» контент с другого сайта, это называется парсингом контента. Если Google или другие поисковые системы не могут идентифицировать исходный фрагмент контента, они могут в конечном итоге ранжировать страницу, скопированную с вашего сайта.

Скопированный контент часто встречается на сайтах, продукты которых указаны с описанием производителей. Если один и тот же продукт продается на нескольких сайтах и все сайты используют описания производителя, то дублированный контент можно найти на нескольких страницах разных сайтов.

Способы удаления повторяющегося содержимого

Удаление дублирующегося контента поможет вам убедиться, что нужная страница доступна и проиндексирована поисковыми роботами. Однако вы можете не захотеть полностью удалять все типы повторяющегося контента. В некоторых случаях вы просто хотите сообщить поисковым системам, какая версия является оригинальной. Вот несколько способов управления дублирующимся контентом на вашем сайте:

Rel = «канонический» тег

Атрибут rel = canonical — это фрагмент кода, который сообщает сканерам поисковых систем, что страница является дублированной версией указанного URL.Затем поисковые системы будут отправлять все ссылки и рейтинги на указанный URL-адрес, поскольку они будут считать его «исходным» фрагментом контента.

Одно замечание: использование тега rel = canonical не удалит дублированную страницу из результатов поиска, а просто сообщит сканерам поисковой системы, какая из них является оригинальной и куда должны идти показатели контента и ссылочный вес.

Rel = canonical теги полезно использовать, когда дублированную версию не нужно удалять, например URL-адреса с параметрами или завершающие косые черты.

Вот пример из сообщения в блоге HubSpot:

Как видите, HubSpot указал, что исходная версия страницы — blog.hubspot.com/marketing/a-brief-history-of-search-seo . Это сообщает поисковым системам, что просмотр страницы должен быть направлен на этот URL-адрес, а не на длинный URL-адрес с параметрами отслеживания в конце.

301 редирект

Использование 301 редиректа — лучший вариант, если вы не хотите, чтобы дублированная страница была доступна.Когда вы реализуете 301 редирект, он сообщает сканеру поисковой системы, что весь трафик и значения SEO должны идти со страницы A на страницу B.

Решая, какую страницу оставить, а какие страницы перенаправить, ищите страницу, которая является наиболее эффективной и оптимизированной. Когда вы возьмете несколько страниц, которые соревнуются за позиции в рейтинге, и объедините их в один фрагмент контента, вы создадите более сильную и более релевантную страницу, которую предпочтут поисковые системы и пользователи.

Переадресация

301 может помочь не только с дублированием контента, следуйте этим советам, чтобы настроить и использовать переадресацию 301 для повышения вашего SEO.

Погрузитесь в SEO и локальное SEO, загрузив Контрольный список для локального SEO!

Роботы Meta Noindex, Follow Tag

Метатег robots — это фрагмент кода, который вы добавляете в HTML-заголовок страницы, которую хотите исключить из индексов поисковой системы. Когда вы добавляете код «content = noindex, follow», вы указываете поисковым системам сканировать ссылки на странице, но это также не позволяет им добавлять эти ссылки в свои индексы.

Метатег noindex для роботов особенно полезен при разбивке на страницы дублированного контента. Разбиение на страницы происходит, когда контент размещается на нескольких страницах, что приводит к появлению нескольких URL-адресов. Добавление на страницы кода «noindex, следовать» позволит роботам поисковых систем сканировать страницы, но не будет ранжировать страницы в результатах поиска.

Вот пример дублирования контента в результате разбивки на страницы:

На изображении выше вы можете видеть, что блог Blue Frog имеет несколько страниц содержания, что приводит к тому, что эти страницы появляются в результатах поиска.Добавление метатега robots позволит сканировать эти страницы, но предотвратит их появление в результатах поиска.

Бонусные советы по предотвращению дублирования контента

Чтобы предотвратить создание дублированного контента, убедитесь, что вы активно настраиваете свои страницы. Вот две вещи, которые вы можете сделать для борьбы с созданием дублированного контента:

Согласованность внутренних ссылок

Хорошая стратегия внутренних ссылок важна для повышения вашей SEO-ценности на странице.Однако важно убедиться, что вы соответствуете структуре URL-адресов в вашей стратегии создания ссылок.

Например, если вы решили, что канонической версией вашей домашней страницы является www.bluefrogdm.com/ , тогда все внутренние ссылки на домашнюю страницу должны быть https://www.bluefrogdm.com/ , а не https: / /bluefrogdm.com/ (разница заключается в отсутствии домена верхнего уровня www).

Поддерживайте согласованность со следующими общими вариантами URL:

HTTP против HTTPS
www и не www
Завершающая косая черта: пример.com vs example.com/

Если одна внутренняя ссылка использует завершающую косую черту, а другая ссылка на ту же страницу — нет, вы создадите дублированное содержимое страницы.

Использовать самореференциальный канонический тег

Чтобы предотвратить очистку содержимого, вы можете добавить метатег rel = canonical, указывающий на URL-адрес, на котором уже находится страница; это создает самоканоническую страницу. Добавление тега rel = canonical сообщит поисковым системам, что текущая страница является исходной частью контента.

Когда сайт копируется, HTML-код берется из исходного фрагмента контента и добавляется к другому URL-адресу. Если тег rel = canonical включен в HTML-код, он, скорее всего, также будет скопирован на дублированный сайт, таким образом сохраняя исходную страницу в качестве канонической версии. Важно отметить, что это дополнительная защита, которая будет работать только в том случае, если парсеры контента копируют эту часть HTML-кода.

Домашняя страница

Blue Frog содержит тег rel = canonical, указывающий на URL главной страницы.Это сообщает поисковым системам, что этот URL является исходным, на случай, если парсер контента попытается скопировать страницу для себя.

Дублирующийся контент часто создается непреднамеренно, но может косвенно повредить вашей SEO-ценности и рейтинговому потенциалу, если оставить его без внимания. Находя дублированный контент на вашем сайте и управляя им, вы можете гарантировать, что сканеры поисковых систем точно знают, что им делать, когда они обнаруживают дублированный контент с вашего сайта. Чем более активны вы вначале, тем меньше проблем будет в долгосрочной перспективе.

Простой способ обнаружения повторяющегося содержимого

У всех поисковых систем, включая Google, есть проблемы с дублированием контента. Когда один и тот же текст отображается во многих местах в Интернете, поисковая система не может определить, какой удобный URL должен отображаться на страницах результатов поиска (SERP). Это может негативно повлиять на рейтинг веб-страницы. Проблема только усугубляется, когда на измененные версии контента ссылаются. В этой статье мы поможем вам понять некоторые причины, по которым существует дублированный контент, и поможем решить проблему.

Определено дублирование содержимого

Если вы стоите на перекрестке и несколько дорожных знаков указывают разные направления к одному и тому же месту назначения, вы не будете знать, в каком направлении двигаться. Если к тому же конечные пункты назначения даже немного отличаются, проблема еще больше. Как веб-пользователю, вам все равно, потому что вы найдете нужный контент, но веб-поисковой системе необходимо выбрать, какая страница должна отображаться в своих результатах, потому что она не хочет отображать одно и то же содержимое более одного раза.

Найти веб-страницы с повторяющимся содержанием

Проведите аудит своего веб-сайта, чтобы определить, на каких страницах есть дублированный контент, замените его и получите больше трафика

Предположим, статья о ключевом слове А отображается на http://www.website.com/keyword-a/, но то же содержание отображается и на http: // www. website.com/category/keyword-a/. Этот сценарий на самом деле часто встречается в CMS. Если эту статью распространяют многочисленные блоггеры, но некоторые из них ссылаются на URL 1, а остальные ссылаются на URL 2, проблема поисковой системы теперь становится вашей проблемой, поскольку каждая ссылка теперь продвигает разные URL.В результате этого разделения маловероятно, что вы сможете ранжироваться по ключевому слову А, и было бы намного лучше, если бы все ссылки указывали на один и тот же URL.

Как использовать средство проверки дублированного контента

Google и другие поисковые системы определяют уникальный контент как основной фактор ранжирования. Использовать средство проверки дублированного контента веб-сайта для выявления внутренних дубликатов для всего веб-сайта очень просто. Фактически, это необходимый шаг при проведении SEO-оптимизации веб-сайта, потому что Google и другие поисковые системы любят уникальный контент, который приносит пользу читателям.Дублирующиеся метатеги могут привести к наказанию веб-сайта, обновлению Google Panda, что означает, что ваш веб-сайт не будет отображаться в поисковой выдаче и разрушит ваши усилия по поисковой оптимизации.

Как Google наказывает сайты за дублированное содержание

При обнаружении на сайте дублированного контента высока вероятность того, что Google применит санкции. Что может случиться? В большинстве случаев владельцы веб-сайтов могут пострадать от потери трафика. Это происходит из-за того, что Google перестает индексировать вашу страницу, на которой обнаружен плагиат.Когда дело доходит до определения приоритетов, какая страница имеет большую ценность для пользователя, Google имеет право выбирать, какая страница веб-сайта с наибольшей вероятностью попадет в поисковую выдачу. Поэтому некоторые сайты перестают быть видимыми для пользователей. В сложных случаях Google может наложить штраф за дублирование контента. Таким образом вы получите уведомление DMCA, что означает, что вас подозревают в манипулировании результатами поиска и нарушении авторских прав.

Существует множество причин, по которым вам нужен уникальный контент на вашем веб-сайте.Но дубликаты существуют, и причины в основном технические. Люди не часто хранят один и тот же контент более чем в одном месте, не убедившись, что ясно, какой из них является оригинальным. Технические причины в основном возникают из-за того, что разработчики думают не так, как браузеры или даже пользователи, не говоря уже о роботах поисковых систем. В приведенном выше примере разработчик увидит, что статья существует только один раз.

URL-адреса неправильно поняты

Разработчики не сумасшедшие, но они смотрят на вещи с другой точки зрения.CMS, на которой работает веб-сайт, будет иметь только одну статью в базе данных, но программное обеспечение сайта позволяет восстанавливать одну и ту же статью по более чем одному URL-адресу. С точки зрения разработчика, уникальный идентификатор статьи — это не URL, а идентификатор статьи в базе данных. Однако поисковая система рассматривает URL как уникальный идентификатор любого текста. Если это объяснить разработчикам, они поймут проблему. В этой статье также будут представлены решения этой проблемы.

Идентификатор сеанса

Веб-сайты электронной коммерции следят за посетителями и позволяют им добавлять товары в корзину.Это достигается путем предоставления каждому пользователю «сеанса». Это краткая история действий посетителя на сайте, которая может включать такие вещи, как товары в корзине покупок. Чтобы сохранить сеанс, когда посетитель перемещается между страницами, идентификаторы сеанса должны быть где-то сохранены. Чаще всего это делается с помощью файлов cookie. Однако поисковые системы не хранят файлы cookie.

Некоторые системы добавляют идентификаторы сеанса к URL-адресу, в результате чего внутренние ссылки в HTML на сайте получают идентификатор сеанса, добавленный к URL-адресу. Поскольку идентификаторы сеанса уникальны для сеанса, создаются новые URL-адреса, что приводит к дублированию контента.

Параметры, передаваемые через URL-адреса

Дублирующийся контент также создается при использовании параметров URL, например в отслеживающих ссылках, но содержание страницы не изменяется. Поисковые системы видят http://www.website.com/keyword-a/ и http: // www. website.com/keyword-a/?source=facebook как разные URL-адреса. Хотя последнее поможет вам отслеживать, откуда пришли пользователи, тем не менее, это может затруднить высокий рейтинг вашей страницы, а это не то, что вам нужно!

То же самое относится ко всем остальным типам параметров, добавляемых к URL-адресам, содержимое которых не изменяется.Другими примерами параметров могут быть изменение порядка сортировки или отображение другой боковой панели.

Синдикация контента и парсинг

Дублированный контент в основном вызван чем-то, что связано с вашим сайтом или Google. Бывает, что другие веб-сайты очищают контент с вашего сайта, не ссылаясь на исходную статью. В таких случаях поисковые системы не знают об этом и обрабатывают это так, как будто это просто новая версия статьи. Чем больше популярных сайтов, тем больше парсеров используют их контент, что просто усугубляет проблему.

Порядок параметров Системы управления контентом

обычно не используют прямые URL-адреса, а используют URL-адреса вида /? Id = 4 & cat = 6, где ID — это номер статьи, а cat — номер категории. URL /? Cat = 6 & id = 4 будет отображать одинаковый результат на большинстве веб-сайтов, но не для поисковых систем. Легко узнать, что это за сайт, с помощью Sitechecker.

Пагинация комментария

В WordPress и других системах можно разбивать комментарии на страницы.В результате контент дублируется по URL-адресу статьи, URL-адресу статьи & / comment-page-x и т. Д.

Страницы, удобные для печати

Если созданы страницы, удобные для печати, и на них есть ссылки со страниц статей, поисковые системы обычно выбирают их, если они специально не заблокированы. Затем Google должен решить, какую версию показывать — ту, которая показывает только статью, или версию с периферийным контентом и рекламой.

С или без WWW

Хотя этот существует уже много лет, поисковые системы все же иногда делают ошибки. Если обе версии веб-сайта доступны, это создает проблемы с дублированием контента. Похожая проблема, которая возникает, хотя и не так часто, — это https и http URL-адреса, содержащие одинаковые тексты. Поэтому, когда вы планируете свою стратегию SEO, вы всегда должны учитывать этот вопрос.

C

анонические URL — потенциальное решение

Хотя несколько URL-адресов могут указывать на один и тот же фрагмент текста, эту проблему легко решить.Для этого один человек в организации должен без тени сомнения определить, каким должен быть «правильный» URL для части контента. Поисковые системы знают «правильный» URL фрагмента контента как канонический URL.

Поиск проблем с дублированным контентом

Если вы не уверены, есть ли у вас проблемы с дублированием содержания на вашем веб-сайте, есть несколько способов выяснить это. Будьте в курсе любых изменений контента на вашем веб-сайте, потому что это может повредить процессу оптимизации страницы.

Google Search Console

Страницы с повторяющимися описаниями или заголовками не подходят. При нажатии на них в инструменте будут отображены соответствующие URL-адреса, что поможет вам определить проблему. Если вы, например, написали статью по ключевому слову a, но она отображается в нескольких категориях, их заголовки могут отличаться. Это может быть «Ключевое слово А — Категория Y — Веб-сайт» и «Ключевое слово А — Категория Z — Веб-сайт». Google не увидит в них повторяющиеся заголовки, но вы сможете определить их, выполнив поиск.

Поиск фрагментов или заголовков

В таких случаях вы можете использовать несколько полезных поисковых операторов. Если вам нужно идентифицировать все URL-адреса на сайте с помощью ключевого слова A article, используйте следующую строку в Google:

site: website.com intitle: «Ключевое слово A»

Google отобразит все страницы в пределах website.com, у которых есть ключевое слово A в заголовке. Если вы очень специфичны с intitle, будет легко идентифицировать дубликаты.Тот же метод можно использовать для поиска плагиата в Интернете. Если полное название статьи — «Ключевое слово А — отличное», можно выполнить поиск следующим образом:

intitle: «Ключевое слово A отлично»

По этому запросу Google покажет все страницы, соответствующие названию. Также стоит поискать несколько целых предложений из статьи, так как парсеры могут изменить заголовок. Google иногда показывает уведомление под результатами, в котором говорится, что некоторые похожие результаты были упущены.Это показывает, что Google «устраняет дублирование» результатов, но, поскольку это все еще не очень хорошо, щелкните ссылку и просмотрите полные результаты, чтобы определить, можно ли исправить какие-либо из них.

Но всегда есть самый быстрый способ найти, если кто-то дублирует ваш контент. Вы можете использовать средство проверки дублированного контента и быстро получать ответы на самые волнующие вопросы. Такие инструменты могут помочь вам проверить дублирующийся контент на страницах вашего веб-сайта и выставить вам соответствующую оценку. Используйте его, чтобы найти внутренние и внешние источники, которые дублируют контент вашего сайта.Поскольку поисковые системы предпочитают уникальный и ценный для пользователей текст, для SEO важно не допускать кражи целых статей или их частей с веб-страниц. Проверка дубликатов находит текст, который повторяется на других страницах. В большинстве случаев он работает как средство проверки на плагиат SEO и сравнивает контент на вашей странице со всеми сайтами, с которыми совпадают отдельные фразы и слова. Они могут выполнять все функции, описанные выше, но быстрее.

Решение проблем с дублированием контента

Как только вы узнаете, какой URL-адрес следует использовать в качестве канонического URL-адреса для определенного контента, начните канонизировать свой сайт.Это означает, что поисковые системы узнают, какая версия страницы является канонической, и позволяют им находить ее как можно быстрее. Есть несколько методов решения проблемы:

Не создавайте дублированный контент.
Используйте канонический URL для похожих текстов.
Добавить канонические ссылки на все повторяющиеся страницы.
Добавить HTML-ссылки со всех повторяющихся страниц на каноническую страницу.

Не создавайте дублированный контент

Различные причины дублирования контента, упомянутые выше, могут быть легко устранены:

Отключенные идентификаторы сеанса в URL-адресе в системных настройках.
Страницы, удобные для печати, не нужны, и следует использовать таблицы стилей печати.
Параметры разбивки на страницы комментариев должны быть отключены.
Параметры всегда следует заказывать в одной и той же последовательности.
Чтобы избежать проблем со ссылками отслеживания, используйте отслеживание на основе хэштегов, а не параметров.
Либо использовать WWW, либо нет, но придерживаться одного и перенаправлять на него другой.

Если проблему нелегко решить, все равно стоит это сделать.Однако конечной целью должно быть полное предотвращение дублирования контента.

Перенаправить похожие страницы на канонический URL

Может быть невозможно полностью предотвратить создание вашей системой неправильного URL-адреса, но вы все равно можете перенаправить их. Если вам все же удалось исправить некоторые проблемы с дублированием контента, убедитесь, что URL-адреса для старого дублированного контента перенаправлены на правильные канонические URL-адреса.

Добавить каноническую ссылку на все повторяющиеся страницы

Иногда невозможно удалить повторяющиеся версии статьи, даже если используется неправильный URL.Элемент канонической ссылки был введен поисковыми системами для решения этой проблемы. Элемент помещается в раздел сайта так:

Поместите канонический URL статьи в раздел href. Поисковые системы, поддерживающие канонический элемент, будут выполнять мягкую переадресацию 301, перемещая большую часть значения ссылки для страницы на каноническую страницу.

Если возможно, нормальное редирект 301 все же лучше, так как оно быстрее.

Добавить HTML-ссылку со всех повторяющихся страниц на каноническую

Если ни одно из решений, упомянутых выше, невозможно, вы можете добавить ссылки на исходную статью ниже или выше дублирующей статьи. Вы также можете реализовать это в RSS-потоке, вставив ссылку на свою исходную статью. Хотя некоторые парсеры могут отфильтровать ссылку, другие могут оставить ее как есть. Если Google обнаружит несколько ссылок, указывающих на исходную статью, он будет считать, что это каноническая версия.

Повторяющаяся проблема может вызвать серьезные проблемы. В зависимости от структуры ваших страниц с разбивкой на страницы весьма вероятно, что некоторые страницы могут содержать похожее или идентичное содержание. В дополнение к этому вы часто обнаруживаете, что у вас на сайте одинаковые теги title и meta description. В этом случае дублированный контент может вызвать трудности у поисковых систем, когда придет время определить наиболее релевантные страницы для определенного поискового запроса.

Вы можете удалить нумерацию страниц из индекса с помощью тега noindex.В большинстве случаев этот метод является приоритетным и реализуется максимально быстро. Суть его в том, чтобы исключить из индекса все страницы пагинации, кроме первой.

Реализован следующим образом: такой метатег

добавлен раздел на всех страницах, кроме первой. Таким образом, мы исключаем из индекса все страницы пагинации, кроме главной страницы каталога, и при этом обеспечиваем индексацию всех страниц, которые принадлежат этому каталогу.

Наталия Фиалковская

SEO специалист

Наталия — SEO-эксперт Sitechecker. Она отвечает за блог. Невозможно жить без создания ценного контента о SEO и цифровом маркетинге.

Как определить повторяющиеся страницы архива, пошаговое руководство

В этой статье я описываю метод определения элементов дублированного контента для улучшения качества и направленности ваших страниц листинга. Это необходимо для повышения рейтинга в Google, в результате чего потенциальные клиенты быстро находят то, что им нужно, и увеличивают объем продаж.Этот процесс включает пустых и некачественных таксономий , таких как страницы со списком продуктов, категории блогов и теги.

Предприятия электронной коммерции часто имеют несколько продуктов, категорий и подкатегорий, многие из которых не добавляют ценности. Желательно иметь меньшее количество целевых страниц, которые ранжируются по релевантному запросу, тем самым позволяя потенциальным клиентам находить ваши продукты и доверять вам как надежному продавцу. Ниже приведен пример магазина, в котором страница категории содержит только один продукт вместо ряда товаров для гигиены полости рта.
У ищущих клиентов ограниченный выбор, и они, скорее всего, будут искать в другом месте.

https://www.argos.co.uk/browse/health-and-beauty/dental-care/teeth-whitening/c:29234/

То же самое относится к веб-сайтам блогов с радикальными результатами. Издатель может создавать много статей в месяц с разными интересами. Однако малоценных страниц с ограниченным содержанием будут бороться за ранжирование по терминам, которые ищут потенциальные аудитории, и, следовательно, не будут привлекать потенциальных клиентов.Ниже приведен пример всего с двумя сообщениями. Что еще хуже, одним и тем же статьям присвоено множество таксономий, что может привести к дублированию.

https://contentmarketinginstitute.com/tertiary-category/branded-content/

Как видите, как страница списка электронной торговли, так и страница архива содержат мало контента, и это никому не помогает. Эти примеры показывают, почему вам следует просмотреть свой сайт и убедиться, что у вас нет ничего похожего.

Дублирование — это просто

Если у вас есть онлайн-бизнес или веб-сайт блога, создание дублирующих или малоценных страниц несложно; это особенно верно, если ваш сайт не проверяется часто.Поэтому, публикуя пост или продукт на своем сайте, я рекомендую этот простой контрольный список ниже:

Сколько категорий вы присвоили своей новой публикации / продукту?
Сколько тегов вы добавили в свой пост / товар?
Вы проверяли написание тегов? Соблюдали ли вы их согласованность, используя единственное / множественное число, дефис в нескольких словах и т. Д.?
Обучаете ли вы своих редакторов и менеджеров по электронной коммерции?
У вас есть надежная таксономическая стратегия?
Вы провели тщательное исследование ключевых слов?

Многие проверенные мной веб-сайты этого не сделали.Вот почему в этой статье я описываю метод, который поможет вам найти архивные или листинговые страницы с небольшим содержанием или без него , будь то публикации или продукты, и определить, какие действия необходимы для решения этой проблемы.

Дубликаты могут быть легко созданы автоматически

Очень легко неосознанно создавать повторяющиеся и некачественные страницы, особенно на платформах для ведения блогов, таких как WordPress, где назначение категории или тега для публикации осуществляется одним щелчком мыши. Я обычно нахожу автоматически сгенерированные дубликаты при аудите веб-сайтов.Оставленные в покое, они могут быть вредными.

Сообщение в блоге с несколькими похожими тегами, а также категориями, автоматически создает архив для каждого из них. Автоматически сгенерированные страницы также появляются, когда количество контента велико или сайту несколько лет.

Последствия незапланированного дублирования таксономий включают:

Создание архивов с одинаковым содержанием и, как следствие, дублирование страниц
Отсутствие оптимизации веб-страниц
Страницы, которые содержат только небольшое количество контента
Обеспечение неудовлетворительного взаимодействия с пользователем
Проблема потенциального каннибализации контента проблемы
Принуждение Google (и других поисковых систем) к выбору страниц на других веб-сайтах

В результате на меньше органического трафика, превращающегося в потенциальных клиентов и потенциальных продаж.

Публикуя новый контент, вы должны организовать свой сайт так, чтобы предоставлять максимально возможную информацию по теме. Каждая страница, которую вы создаете или генерируете автоматически, должна иметь свою уникальную цель.

Это можно сделать несколькими способами, которые выходят за рамки данной статьи. Полезные примеры включают тематические кластеры, архитектуру веб-сайта, архитектуру сайта, внутренние ссылки, создание разрозненных структур, проблемы архитектуры и другие.

Что это на самом деле означает?

На примере блога цифрового маркетинга с акцентом на 3 широко используемых тега: «Цифровой маркетинг», «Google Реклама» и «Социальные сети».

Ниже приведен пример того, что вы можете найти на панели инструментов тегов:

Цифровой маркетинг
domain.com/tag/digitalmarketing
domain.com/tag/digital-marketing

Google Ads
domain. ru / tag / googleads
domain.com/tag/google-ads
domain.com/tag/adwords
domain.com/tag/ad-words
domain.com/tag/googleadwords
domain.com/tag/google- adwords

Социальные сети
domain.com/tag/social
domain.com / tag / socialmedia
domain.com/tag/social-media
domain.com/tag/socialmediamarketing
domain.com/tag/social-media-marketing

Каждая страница тегов содержит мало контента, получает низкий уровень трафика, не представляет особой ценности для ваших читателей и порождает проблемы каннибализации контента.

Аудит с учетом вашей стратегии

Не редкость, когда веб-сайт с 1000 публикаций имеет несколько тысяч страниц таксономии.
В зависимости от масштаба вашего веб-сайта вам следует учитывать возможные проблемы с бюджетом сканирования.Ваша цель — убедиться, что Google имеет четкое представление о каждой странице, не заставляя свои алгоритмы выбирать между несколькими страницами. Стратегия содержания имеет важное значение, и ваш веб-сайт должен быть организован с новыми сообщениями, созданными после тщательного исследования ключевых слов.

При проведении аудита вашего веб-сайта отправной точкой являются вопросы, перечисленные ниже:

Поддерживаются ли архивы с помощью исследования ключевых слов?
Какова их цель?
Настроены ли страницы архива или они содержат только список заголовков?

Помните, что переименование, объединение или удаление страниц таксономии может повлиять на структуру сайта.Это также может повлиять на контент и технические элементы и привести к неработающим страницам или внутренним перенаправлениям.

С технической точки зрения изменение способа присвоения постов таксономиям уменьшает количество URL-адресов и генерирует битые страницы из-за уменьшения последовательности нумерации страниц — этого следует избегать.

Итак, как вы работаете со своими таксономиями? Стоит ли 301 перенаправить их? Следует ли удалить их из индекса Google? Что насчет краулингового бюджета?

С точки зрения содержания и бизнеса , представляют ли страницы архива какую-либо ценность? Получают ли они обратные ссылки? Они генерируют конверсии или трафик? Связан ли дублированный контент по всему сайту, который вы обнаружили с помощью SEO-аудита, в основном с архивными страницами? Эти вопросы следует учитывать при принятии решения, потому что каждое действие может повлиять на другие элементы.

Хотя я твердо верю в сокращение контента, каждый выбор должен быть частью более широкой стратегии.

Действия, которые необходимо предпринять

Как вы определяете малоценные архивные страницы, предоставляете важную информацию лицам, принимающим решения, и предпринимаете действия?

SEMrush обнаруживает повторяющиеся страницы, что является первым шагом в этом процессе.

Инструмент SEMrush Site Audit

Для более глубокого исследования вы можете собрать больше данных, определив общие шаблоны, отпечатки пальцев и элементы HTML, которые могут улучшить ваше понимание проблемы.

Я советую использовать язык под названием XPath , который помогает выбирать значения, переменные и расположение определенных элементов в документе XML. Если вы не знакомы с этим языком, я рекомендую прочитать руководство по XPath от Builtvisible для SEO, чтобы узнать, как он может быть полезен в различных контекстах.

Затем используйте инструмент, который сканирует ваш сайт и извлекает выбранные элементы. Мне больше всего нравится инструмент для очистки веб-страниц от Screaming Frog.

Давайте теперь посмотрим, как мы можем идентифицировать эти элементы, настраивать Screaming Frog и извлекать информацию, необходимую для принятия правильных решений.

1) Определите общие элементы

Для начала найдите отпечатки пальцев и извлеките их.

Эти элементы представляют собой HTML-теги, ресурсы и другие шаблоны, которые позволяют распознавать отпечатки пальцев в определенных областях каждой проверяемой страницы. Это позволяет собирать эти элементы и находить аномалии или общие закономерности, которые можно улучшить.

Включить и исключить URL-адреса

Поскольку вы не хотите перегружать себя слишком большим объемом данных, сканируйте только те URL-адреса, которые соответствуют страницам, содержащим идентифицированные вами отпечатки пальцев.Это определяет структуру страницы и определяет, что сканировать, а что нет.

Папки, слова и другие шаблоны являются общими элементами, которые должны быть включены . Ниже я привел несколько примеров:

domain.com/ element / page
domain.com/ tag / post
domain.com/ category / product
domain.com/ product-category / product

Исключение также является ключевым аспектом сканирования. В этом примере последовательности нумерации страниц не представляют интереса .Фактически, если архив разбит на страницы, минимальное количество сообщений (или продуктов) уже достигнуто. И вы также не хотите сканировать весь свой веб-сайт, так как он может потреблять ресурсы, занимать время и собирать слишком много данных.

Исключаемые страницы могут включать шаблоны вроде:
/ page /
? Page
, что означает, что в архиве несколько страниц.

h2 или тег заголовка

Это элементы, которые идентифицируют имя (или заголовок) таксономии и должны быть уникальными в пределах последовательности нумерации страниц.

Выполняя аудит, вы должны позаботиться о том, чтобы исправить любые другие потенциальные проблемы, на которые вы наткнетесь. Итак, если вы не можете найти заголовок h2, это проблема, которую вы можете быстро исправить, поскольку h2 должен определять основное ключевое слово / тему страницы.

Названия статей / Названия продуктов

Заголовок сообщений (или название продуктов) является основным уникальным элементом, который идентифицирует листинг в архиве. Обратите внимание на этот компонент, чтобы составить список отпечатков пальцев.

Количество статей на странице

Этот элемент подсчитывает количество статей (или продуктов), содержащихся на странице архива. Это ключевой аспект работы, потому что он дает вам простой обзор категорий, которые необходимо проанализировать, поскольку в них отсутствует контент или продукты.

2) Найти и перевести отпечатки HTML в запросах XPath

Затем вы должны терпеливо изучить вышеупомянутые элементы и обратить внимание на исходный код HTML.
Вы можете использовать Google Chrome DevTools или очистить подобное расширение Chrome.Как упоминалось ранее, руководство SEO по XPath поможет вам выявить все элементы, а также эта шпаргалка.

Google Chrome DevTools

Очистите аналогичное расширение Chrome

Примеры:
Чтобы преобразовать теорию в практику, я проверил для вас три веб-сайта, идентифицировал вышеупомянутые отпечатки пальцев, выбрал элементы в исходном HTML код и превратил их в запросы XPath.

С помощью этих примеров вы сможете увидеть, не хватает ли на странице категории контента, только с несколькими назначенными сообщениями (Content Marketing Institute и SEMrush blog), и если страницы со списком продуктов содержат мало продуктов (Argos).

После того, как вы посмотрите на каждый элемент и его запрос XPath, вы можете настроить Screaming Frog. Ниже приведены элементы для трех примеров:

Content Marketing Institute — https://contentmarketinginstitute.com
Тег заголовка: / html / head / title
Тег h3 со ссылкой: // h3 / a
Количество статей на странице: count (// div [@ class = ‘posted’])
Включенные URL-адреса блог / категория: https://contentmarketinginstitute.com/.*category/.*
Исключенные URL / page /: https://contentmarketinginstitute.com/.*/page/.*

Argos UK — https://www.argos.co.uk (Здоровье и красота)
h2 tag: // h2 [@ class = ‘search-title__term’]
Идентификатор класса, относящегося к статье: // * [@ class = ‘ac-product-name ac-product-card__name’]
Количество продуктов на страницу: count (// div [@ class = ‘ac-product-name ac-product-card__name’])
I ncluded URLs browse / health-and-beauty /: https: // www.argos.co.uk/browse/health-and-beauty/.*
Исключенные URL-адреса / страница: X: . * / страница. *

SEMrush blog — https://www.semrush.com/ blog /
h2 tag: // h2
h3 tag со ссылкой: // h3 / a
Количество статей на странице: count (// div [@ class = ‘s-col-12 b-blog__snippet__head ‘])
Включенные URL-адреса блог / категория: https://www.semrush.com/blog/category/.*
Исключенные URL-адреса / страница /: https://www.semrush.com/blog/.* \? page. *

3) Настроить Screaming Frog

Пришло время настроить Screaming Frog.

Перейдите к Configuration > Custom > Extraction и настройте элементы XPath.

Добавить Включить и Исключить шаблоны путей .

4) Сканирование вашего веб-сайта

На этом настройка завершена. Запустите сканирование с любой страницы, которая связывает шаблон URL в конфигурации «Включить».Если на вашей домашней странице нет доступа к категории блога или странице со списком продуктов, выберите альтернативную отправную точку или саму страницу таксономии.

После завершения сканирования перейдите на вкладку Custom в Screaming Frog и выберите фильтр « Extraction ». Вы увидите просканированные URL, заголовок / h2 таксономии, а также заголовки сообщений или названия продуктов.
В конце строки вы найдете количество статей (или продуктов), включенных на ту же страницу.

Экспортируйте файл, чтобы облегчить анализ вашего обхода, в найдите повторяющиеся таксономии, небольшое содержимое, похожие URL-адреса и т. Д.

6) Определите элементы, требующие действий

После завершения всего анализа завершите процесс в соответствии с вашим стратегия.

Поскольку каждый проект уникален со своими переменными, целями и ресурсами, я не могу сформулировать универсальный подход.

Я перечислил несколько вопросов ниже, чтобы помочь в достижении вашего трафика и бизнес-целей, а также для определения ключевых элементов:

Вы нашли больше таксономий, чем сообщений?
Вы узнали, что в категориях очень ограниченное количество сообщений или нет сообщений?
Можете ли вы определить эти страницы как повторяющееся содержание?
Есть ли у таксономий похожие названия?
Имеют ли страницы архива похожие имена, версии в единственном / множественном числе, дефисы / без дефисов?
Можно ли объединить эти таксономии?
Полезны ли страницы со списком или вы можете удалить их все?
Полезны ли эти страницы для определения структуры сайта?
Следует ли вам изменить URL-адрес / заголовок в соответствии с исследованием ключевых слов?
Ранжируются ли страницы по какому-либо релевантному запросу?
Можете ли вы оптимизировать листинговые страницы, чтобы повысить ценность и повысить конверсию и рейтинг?
Подключите Screaming Frog к Google Analytics и Google Search Console, получают ли эти страницы трафик? Из каких источников?
Подключите Screaming Frog к Majestic, Ahrefs или Moz, получают ли эти страницы релевантные обратные ссылки?
Полезны ли страницы для увеличения числа конверсий?
Стоит ли добавлять больше продуктов или контента на успешные страницы с листингами?
Стоит ли добавлять больше товаров на страницы со списком товаров?
Сколько продуктов «скоро» и «нет в наличии» вы можете найти?
Можете ли вы найти продукты с небольшими отзывами или без них и реализовать соответствующую стратегию?
Можете ли вы продемонстрировать, почему и как изменения могут помочь в достижении ваших бизнес-целей?

Выводы

SEO-аудит — это первый шаг для любого бизнеса, чтобы убедиться, что ваш веб-сайт соответствует вашим бизнес-целям.

Выявление и удаление дублированного контента имеет важное значение для ранжирования ключевых слов, повышения качества веб-сайта и превращения недавно привлеченного трафика в продажи и потенциальных клиентов.

Ссылки

Руководство SEO по XPath
Полное руководство по пользовательскому извлечению Screaming Frog с помощью XPath и Regex
Шпаргалка Xpath
Синтаксис XPath
Пользовательское извлечение в Screaming Frog: XPath и CSSPath
Веб-парсинг и извлечение данных с помощью инструмента SEO Spider Tool

Как найти дублированный контент на вашем сайте

Что такое дублированный контент?

С точки зрения SEO, дублированный контент относится к фрагменту текста на веб-странице, который в точности совпадает или очень похож на текст на другой веб-странице.

Поисковые системы не любят простой и простой дублированный контент; и когда Google помечает веб-страницу как «повторяющуюся», эта конкретная страница, скорее всего, пострадает в поисковой выдаче. Фактически, если поисковой системе сложно определить, какая страница из двух или более является исходным источником, все страницы-нарушители могут считаться дубликатами.

Поисковые системы не любят дублированный контент, простой и понятный, поэтому всегда полезно знать, какой контент появляется на вашем сайте, и что новый контент является оригинальным и не имеет проблем с дублированием.Ниже приведены три основных типа повторяющегося контента, на которые следует обратить внимание, а также способы поиска и устранения проблем, когда они возникают.

Слово в слово Плагиат

Самый очевидный тип дублированного контента возникает, когда контент буквально копируется с одной веб-страницы и вставляется на другую. Даже если вы используете свой собственный контент на нескольких страницах своего сайта, он считается дублированным контентом.

Как найти:

Используйте бесплатные инструменты CopyScape и / или PlagSpotter — введите URL-адрес вашей домашней страницы (www.website.com) в строку поиска и нажмите «Перейти». Каждый из этих инструментов будет искать в Интернете любую страницу, содержащую контент, идентичный содержанию любой страницы вашего веб-сайта. Список результатов включает ссылки на каждую повторяющуюся страницу.

Как это исправить:

Если у вас есть дублированный контент на ваших собственных веб-страницах, у вас есть несколько вариантов. Перепишите или добавьте тег no-index / no-follow к одной из страниц, чтобы поисковые системы игнорировали его и смотрели только на оригинал.

Если вы считаете, что ваш исходный веб-контент используется на другом сайте, вы можете предпринять несколько шагов.

1. Свяжитесь с веб-мастером сайта, на котором размещен ваш исходный контент, и попросите его удалить.

2. Если это не помогло, вы можете попытаться связаться с хозяином сайта. Кто занимается хостингом. Это поможет направить вас в нужное место, где вы можете запросить удаление повторяющегося контента.

3. Закон об авторском праве в цифровую эпоху (DMCA) 1998 года вносит поправки в законы США об авторском праве в отношении цифровых платформ.Вы также можете подать официальную жалобу на нарушение Закона США «Об авторском праве в цифровую эпоху» против нарушителя.
Kissmetrics советует зарезервировать этот метод на время, когда вторая сторона получает высокий рейтинг с вашим контентом, так как это довольно сложный процесс. Однако он также эффективен.

Дублирующиеся метаописания или теги заголовков

Метаописания и теги заголовков иногда случайно дублируются на страницах одного и того же веб-сайта. Вы также можете обнаружить, что другой веб-сайт скопировал ваши метаописания, но первая ситуация более вероятна.

Как найти:

Если ваш сайт подключен к Google Webmaster Tools, используйте это — В разделе «Внешний вид поиска» нажмите «Улучшения HTML». Здесь вы можете щелкнуть, чтобы просмотреть списки страниц с идентичными метаописаниями и тегами заголовков. Это рекомендуемый метод, поскольку он показывает вам контент, проиндексированный Google.

Если вы не подключили свой сайт к Google Webmaster Tools, следующий лучший вариант — использовать Screaming Frog, бесплатную загружаемую программу для сканирования Интернета.Он бесплатно просканирует до 500 веб-страниц, а затем предоставит вам полный массив данных, включая список любых повторяющихся метаописаний и тегов заголовков на вашем сайте.

Как это исправить:

Если проблема дублирования метаданных возникает на вашем собственном веб-сайте, простое решение — написать уникальные метаописания и / или теги заголовков для проблемных страниц. Если вы обнаружите, что другой сайт скопировал ваши описания, вы также можете следовать приведенным выше советам.

Одна страница, несколько URL-адресов

Это еще один частый случай случайного дублирования контента.Возможно, вы создали два URL-адреса для одной страницы, не зная, что это считается дублированным контентом, или, возможно, ваша платформа CMS автоматически создает вторые URL-адреса для ваших страниц. Пользователи NetSuite, например, могут столкнуться с этой автоматизированной проблемой.

Проблема SEO с использованием нескольких URL-адресов для одной страницы заключается в том, что Google видит два совершенно разных URL-адреса как две совершенно разные веб-страницы, поэтому, если два URL-адреса ведут к одному и тому же контенту, Google будет отмечать оба URL-адреса как дубликаты.

Как найти:

Вы можете найти повторяющиеся URL-адреса на платформе своего веб-сайта.Это вам предстоит выяснить. Если у вас не получается, используйте Screaming Frog — перейдите на вкладку «URL» и отсортируйте списки ссылок по «Дубликатам». Вы увидите страницы своего сайта с несколькими URL-адресами.

Как это исправить:

Вы можете использовать решение «сделай сам», но если вы выберете этот путь, убедитесь, что вы знаете, что делаете. Можно иметь несколько URL-адресов для одной страницы без пометки, если вы используете метатег rel = canonical. (Альтернативное решение — использовать 301 редирект.