Проверить дубли страниц – Ищем дубли страниц — опубликована видеозапись вебинара — Блог Яндекса для вебмастеров | Дропшиппинг

Содержание

Как проверить сайт на дубли страниц

Статьи по теме

Добрый день, друзья! Уже очень давно меня просили читатели блога сделать пост о том, как избавиться от replytocom. Тема эта актуальна, так как из-за этого в индексе получается огромное число похожих страничек с параметрами коммента. Все дело в том, что многие блоги созданы на CMS WordPress, который грешит дубликацией комментариев. Поэтому я решил дать всю информацию не только о replytocom. В статье я раскрываю понятие дублированного контента, даю методику поиска дублей страниц сайта и поясняю, почему от них нужно избавляться. А в следующем посте я покажу, как нужно их удалять.

[contents h3 h4]

Дублированный контент на сайте

Дубли бывают разными — тихими и заразными. 🙂 Если серьезно, то дублированная страница — это документ сайта, который может иметь полностью или частично одинаковый контент. Разумеется, каждый дубль имеет свой адрес (url страницы). Четкий дубль страницы может возникнуть по следующим причинам:

искусственно создаются владельцем сайта для специальных нужд. Например, страницы для печати, которые позволяют пользователю коммерческого сайта скопировать информацию по выбранному товару / услуге.
генерируются движком ресурса, так как это у них заложено в теле. Некоторые современные CMS выдают похожие страницы с другими урлами, размещенные по своим разным дерикториям.
появляются за счет ошибок веб-мастера, который управляет сайтом. Например, ресурс обзаводиться двумя одинаковыми главными страницами с разными адресами (например, site.ru и site.ru/index.php).
возникают по случаю изменения структуры сайта. Например, при создании нового шаблона с другой системой урлов, новые страницы со старым контентом получают совершенно другие адреса.

Нечеткий дубль получают страницы, которые частично дублируют контент. Такие страницы имеют общую часть шаблона сайта, но отличаются небольшим контентным наполнением. Например, такими небольшими дублями могут быть страницы ресурса, имеющие результаты поиска или отдельные элементы статьи (например, картинки — такое очень часто бывает во многих шаблонах блогов).

На следующем рисунке я собрал самые частые варианты дублей страниц, которые присущие блогу с движком Вордпресс (без учета различных плагинов и фишек шаблона, которые также частенько создают дублированные документы):

Наличие дублей страниц на сайте может говорить о том, что или веб-мастер не знает об их присутствии, или он просто не умеет с ними бороться. А бороться с ними нужно, так как они приводят к различным ошибкам и проблемам в плане поискового продвижения. Об этом сейчас и поговорим.

Почему нужно удалять дубли страниц

Дублированные страницы — это не какой-то вирусняк или паразитирующий организм. Он конечно тоже плодиться, но не за счет себя или своих функций. То есть он плодиться не по своей воле. Дубли на самом деле — это результат неправильного кода сайта, итог огрехов веб-мастера или блоггера.

Но какими бы не были пассивными дубли страниц, они могут подложить конкретную свинью владельцу любого сайта или блога. Итак, чем же так опасен дублированный контент? Вот основные проблемы, которые возникают при наличии дублей:

Ухудшение индексации сайта. Я называю это проблемой №1. Дело в том, что в зависимости от источника и ошибок веб-мастера, страница сайта может иметь от одного до нескольких или больше дублей. Например, главная может грешить двумя-тремя дупликатами, а посты блогов из-за вездесущего replytocom скопируются по количеству комментариев. И если блог популярный, то и число «левых» страниц будет огромным. А поисковые системы (особенно Google) не любят дубли и поэтому частенько занижают позиции самого сайта.

Замена релевантной страницы. Алгоритм поисковой системы может посчитать дубль более релевантным, чем продвигаемая страница-оригинал (моя статья о понятии релевантности). Тем самым в выдаче будет находиться не целевая страница, а ее клон. Но у этого клона совсем другие незначительные параметры (ссылочный вес, метрики посещаемости), которые со временем пессимизируют сайт в серпе поисковой системы.

Бесполезность естественных ссылок. Представьте себе картину — на Ваш сайт пришел посетитель. Ему понравился Ваш контент и он решился поделиться с друзьями полезным адресом понравившейся страницы. А эта страница — дубль оригинала. В итоге ссылку получит дублированный контент, а не наш реальный документ. Таким образом мы просто теряем настоящую естественную ссылку.

Итак, подытожим вышесказанное. Дубли страниц создают помеху в нормальной индексации сайта, становятся источником неправильного выбора поисковиком релевантной страницы, забирают влияние естественных внешних ссылок. Также дубли неправильно распределяют внутренний ссылочный вес, отбирая силу у продвигаемых страниц и меняя поведенческие показатели:

В общем, дубли — это большое зло в поисковом продвижении и страшный сон оптимизатора. 🙂

Как определить и проверить дубли страниц

Есть разные способы поиска и проверки дублей страниц. Они требуют разного уровня знаний CMS и понимание работы поискового индекса. Я покажу самый простой из способов. Это не значит, что если он простой, то не точный. С его помощью легко находятся дубликаты документов сайта. И самое главное — этот способ не требует особых знаний и не займет много времени.

Для того, чтобы найти и проверить свой сайт на наличие дубликатов страниц, нужно или воспользоваться расширенным поиском Яндекса (Гугла) или сразу ввести в поисковую строку специальный запрос. Сначала рассмотрим первый вариант.

Проверка сайта на дубли с помощью расширенного поиска

Расширенный поиск Яндекса позволяет получить более точную выдачу благодаря уточняющим параметрам запроса. В нашем случае нам нужно только два параметра — адрес сайта и кусочек текста той страницы, по которой мы ищем дубли. Сначала мы выделяем текст, который находится на той странице нашего сайта (для примера взят абсолютно чужой ресурс), которую будем проверять на дубли. Затем идет в расширенный поиск Яндекса и вносим в соответствующие позиции кусочек контента и адрес сайта:

Далее мы нажимаем заветное слово «Найти» и русский поисковик начинает формировать выдачу. Она получится не той, которую мы обычно наблюдаем — она будет состоять полностью из заголовков и сниппетов только нашего ресурса. Причем, если в выдаче будет только один результат поиска, то все хорошо — дублированного контента этой страницы нет. Если же есть в полученном серпе несколько результатов, то придется доставать лопату:

В моем примере поисковик нашел несколько нечетких дублей — ряд страниц из пагинации по некоторым рубрикам. Сразу видно, что на данном сайте страница с выделенным текстом про рецепт салата явно размещалась сразу в разных рубриках. А так как запрет на индексацию страниц пагинации для этого ресурса не ставился, в индексе повылазили всевозможные дубли.

Теперь рассмотрим те же действия для зарубежного поисковика. Заходим на страницу расширенного поиска Google и совершаем те же самые действия:

Заполнив все необходимое на расширенном поиске, получаем индексацию исследуемого сайта согласно указанному куску текста:

Как видим, Гугл также проиндексировал неточные дубли исследуемой страницы — в выдаче все те же страницы рубрик.

В принципе получить те же самые результаты можно и не используя расширенный поиск. Для этого нужно в простом варианте Гугла или Яндекса прописать следующий запрос. И в этом заключается второй способ определения дублей.

Поиск дублей страниц с помощью специального запроса

С помощью расширенного поиска легко находятся все дубликаты по заданному тексту. Конечно, с помощью данного способа мы не получим дубли страниц, которые не содержат текст. Например, если дубль создается «кривым» шаблоном, который зачем-то показывает на другой странице картинку, которая находится на странице-оригинале. То такой дубликат выше описанным способом найти не получиться. В таком случае придется использовать другой способ.

Его суть проста — с помощью специального оператора мы запрашиваем индексацию всего нашего сайта (или отдельной страницы) и уже вручную смотрим выдачу в поисках дубликаторов. Вот правила синтаксиса этого запроса:

Когда мы в запросе указываем адрес главной страницы,то получаем просто список проиндексированных страниц поисковым роботом. Если же мы указывает адрес конкретной страницы, то получаем список проиндексированных дублей этой страницы. В Яндексе они сразу видны. А вот в Гугле все немного сложнее — сначала нам покажут те страницы, которые есть в основной выдаче:

В итоге нам выдается список дублей, которые Гугл проиндексировал и связал со страницей-оригиналом (цифра 1 на картинке). В моем примере такими дублями стали страницы с позициями 2 и 3.

На второй позиции находится дубль, который является трекбэком данного документа (автоматическое уведомление для других сайтов данной публикации). Вещь конечно нужная, но ее присутствие в индексе не желательно. Хозяин данного сайта это прекрасно понимает и поэтому прописал запрет на индексацию трэкбеков с сайта. Об этом говорит надпись «Описание веб-страницы недоступно из-за ограничений в файле robots.txt». Если посмотреть инструкцию для поисковых систем (robots.txt), то увидим следующую картину:

Благодаря последним директивам, автор сайта указал на запрет индексации трэкбеков. Но к сожалению, Гугл заносит в свой индекс все, что ему попадется под руку. И здесь уже нужно просто удалять дубли из базы данных. об этом поговорим уже во второй статье, посвященной дублированному контенту.

На третьей позиции показан горячо любимый многими блоггерами replytocom. Он получается путем использования комментирования на блогах и сайтах. И благодаря ему возникает просто огромная куча дублей — обычно это количество примерно равно число комментов на ресурсе. В нашем примере этот атрибут, как и трэкбек закрыты для индексации. Но Гугл и его схавал в свой индекс. Тоже нужно чистить вручную.

Кстати, если мы немного изменим наш запрос, то можем получить те же результаты, что дает расширенный поиск дублей по кусочку текста:

Итак, друзья, в этой статье я приоткрыл занавес над понятием дублей страниц и их успешным поиском и проверкой. В качестве закрепления пройденного материала предлагаю посмотреть мой видеоролик на эту тему. В нем я наглядно показал не только сегодняшний материал в двух частях, но и добавил другие примеры дублированного контента:

В следующей статье Вы узнаете, как можно убрать дубли страниц. До встречи!

С уважением, Ваш Максим Довженко

Учимся проверять сайт на дубли страниц

В ниже приведенной статье мы сегодня попытаемся рассмотреть много вопросов, касающихся проблемы дублирования страниц, что становится причиной возникновения дублей, как от этого избавиться, и вообще, почему нужно избавляться от дубликатов.

Для начала давайте разберемся, что кроется под понятием «дублирование контента». Нередко случается, что некоторые страницы могут содержать частично или в полной мере одинаковый контент. Понятно, что каждая отдельная страница имеет свой собственный адрес.

Причины возникновения дублей:

— владельцы сайта сами создают дубли для определенных целей. Допустим, это может быть страница для печати, которая позволяет посетителю коммерческого сайта скопировать необходимую информацию по определенному товару или услуге.

— они генерируются движком интернет-ресурса, поскольку это заложено в их теле. Определенное количество современных СMS могут выдавать похожие страницы с различными URL, которые размещены на разных директориях.

— ошибки вебмастера, который работает над продвижением сайта. Он может создать две одинаковые главные страницы, которые отличаются адресами.

— изменение структуры сайта. При создании нового шаблона с иной системой URL, новые страницы, вмещающие старый контент, получают другие адреса.

Мы перечислили возможные причины возникновения четких дублей, но существуют еще и нечеткие, то есть частичные. Зачастую подобные страницы имеют схожую часть шаблона ресурса, но контент их немного отличается. Подобными дублями могут быть страницы сайта, которые имеют одинаковый результат поиска или же отдельный элемент статьи. Чаще всего, такими элементами становятся картинки.

От дублированных страниц необходимо избавляться. Нет, это не вирус, но он также со временем разрастается, правда, это зависит не от самого ресурса. Дубли зачастую становятся последствием непрофессионального вебмастера, или же результатом неправильного кода сайта.

Важно знать, что дубли могут нанести ресурсу немалый ущерб. К каким же последствиям может привести наличие дублей на сайте? Во-первых, это ухудшение индексации ресурса. Согласитесь, что подобная ситуация не очень то обрадует владельца сайта. В то время как на продвижение ресурса постоянно тратятся финансы и время, ресурс начинает терять свою популярность за несколько дней. Глубина проблемы будет зависеть от количества дублей.

Бывает так, что главная страница может иметь пару-тройку дубликатов. С блогам дело обстоит несколько по-другому. Благодаря replytocom может быть огромное количество дублей из-за копирования комментариев. Получается, что чем популярнее блог, тем больше дубликатов он будет содержать. В свою очередь, системы поиска, в особенности Google, из-за наличия таких вот дублей занижает позиции ресурса.

Алгоритмы поисковых систем работают автоматически, и нередко бывает так, что дубль воспринимается системой более релевантным, чем страница-оригинал. В результате выдача будет выдавать не оригинал, а его дубль. В свою очередь, дубль обладает другими параметрами, что позже скажется на пессимизации сайта.

Не стоит размещать на своем ресурсе естественные ссылки. Рассмотрим ситуацию, когда на ресурс заходит посетитель. Он доволен имеющейся здесь информацией и хочет поделиться адресом со своими друзьями. Но данная страница является дублем оригинала, в результате чего ссылку получит дубль, а не наша страница, которая выступает оригиналом. В итоге естественную ссылку мы теряем.

Что же у нас получается? Дублированные страницы становятся реальной помехой в индексации сайта, а также причиной неверного выбора поисковой системы релевантной страницы, снижают влияние естественных ссылок. Помимо этого, дубли неправильно распределяют внутренний вес, снижая силу продвигаемых страниц, а также меняя поведенческие показатели.

Как проверить сайт на дубли страниц?

Существуют различные способы поиска и проверки дублированных страниц. От исполнителя они требуют разной степени знаний CMS, а также понимания того, каким образом работает поисковый индекс. Попробуем показать Вам наипростейший способ для проверки сайта на дубли страниц. Сразу отметим, что данный способ является не очень то и точным. Но, в тоже время подобный способ позволяет совершать поиск дублей страниц сайта, и не занимает много времени.

Для поиска и проверки собственного ресурса на наличие дубликатов, следует просто ввести в расширенный поиск поисковой системы специальный запрос. Если Вы используете расширенную версию поиска в Яндекс, можно получить довольно подробные результаты благодаря тому, что здесь имеется возможность вводить уточняющие параметры для запроса.

Нам понадобится адрес ресурса и та часть текста, дубликат которого мы хотим найти. Для этого нам потребуется на своей странице выделить фрагмент текста, после чего в расширенном поиске системы Яндекс ввести скопированный текст и адрес сайта. Теперь необходимо нажать кнопку «Найти», после чего система начнет поиск.

Результаты будут выведены не в обычном режиме. Список сайтов будет содержать только заголовки и сннипеты нашего ресурса. В том случае, когда система выдает единственный результат, это значит, что дубликатов данной страницы нет. А вот при выдаче нескольких результатов придется поработать.

Теперь давайте посмотрим, как сделать то же самое только в системе Google. В принципе, процедура ничем не отличается, потребуется совершить такие же действия, как и в Яндексе.

Расширенный поиск позволяет легко находить все дубликаты по определенному фрагменту текста. Безусловно, что таким способом мы не получим дублей страниц, которые не содержат указанного текста. Нужно сказать что, если дубль был создан искривленным шаблоном, то он только показывает, например, картинку из оригинала на другой странице. Разумеется, что если текста дубликат не содержит, то выше описанным способом его определить не удастся. Для этого необходим другой способ.

Второй способ также отличается своей простотой. Надо воспользоваться специальным оператором и запросить индексацию своего сайта, или же его отдельных страниц. После этого придется вручную смотреть выдачу в поиске дублей.

Правила синтаксиса необходимого запроса:

В той ситуации, когда в поиск вводится просто адрес главной страницы, нам показан список проиндексированных страниц с помощью поискового робота. А вот, если укажем адрес конкретной страницы, то система выводит уже проиндексированные дубли данной страницы.

Поисковая система Яндекс сразу же предоставляет список дублей, а вот в Гугле, чтобы увидеть дубли, необходимо будет дополнительно нажать «Показать скрытые результаты», поскольку зачастую на экран выводится оригинал страницы.

С картинки видно что, в основной выдаче находится 1 страница сайта, и она же и является оригиналом. Но в индексе существуют другие страницы, являющиеся дублями. Чтобы их увидеть, нужно нажать на ссылку “Показать скрытые результаты”. В результате мы получаем список, где под номером 1 находится оригинал, а дальше уже размещены дубликаторы. Частенько дубли придется чистить вручную.

Как проверить сайт на дубли страниц

Причины возникновения дублей:

От дублированных страниц необходимо избавляться. Нет, это не вирус, но он также со временем разрастается, правда, это зависит не от самого ресурса. Дубли зачастую становятся последствием непрофессионального вебмастера, или же результатом неправильного кода сайта.

Алгоритмы поисковых систем работают автоматически, и нередко бывает так, что дубль воспринимается системой более релевантным, чем страница-оригинал. В результате выдача будет выдавать не оригинал, а его дубль. В свою очередь, дубль обладает другими параметрами, что позже скажется на пессимизации сайта.

Как проверить сайт на дубли страниц?

Существуют различные способы поиска и проверки дублировааных страниц. От исполнителя они требуют разной степени знаний CMS, а также понимания того, каким образом работает поисковый индекс. Попробуем показать Вам наипростейший способ для проверки сайта на дубли страниц. Сразу отметим, что данный способ является не очень то и точным. Но, в тоже время подобный способ позволяет совершать поиск дублей страниц сайта, и не занимает много времени.

Для поиска и проверки собственного ресурса на наличие дубликатов, следует просто ввести в расширенный поиск поисковой системы специальный запрос. Если Вы используете расширенную версию поиска в Яндекс, можно получить довольно подробные результаты благодаря тому, что здесь имеется возможность вводить уточняющие параметры для запроса.

Нам понадобится адрес ресурса и та часть текста, дубликат которого мы хотим найти. Для этого нам потребуется на своей странице выделить фрагмент текста, после чего в расширенном поиске системы Яндекс ввести скопированный текст и адрес сайта. Теперь необходимо нажать кнопку «Найти», после чего система начнет поиск.

Теперь давайте посмотрим, как сделать то же самое только в системе Google. В принципе, процедура ничем не отличается, потребуется совершить такие же действия, как и в Яндексе.

Правила синтаксиса необходимого запроса:

Поисковая система Яндекс сразу же предоставляет список дублей, а вот в Гугле, чтобы увидеть дубли, необходимо будет дополнительно нажать «Показать скрытые результаты», поскольку зачастую на экран выводится оригинал страницы.

Как видно на картинке, в основной выдаче у нас находится одна страница сайта и она же является оригиналом. Но в индексе есть и другие страницы, которые являются дублями. Чтобы их увидеть, нужно нажать на ссылку “Показать скрытые результаты”. В результате мы получаем список, где под номером 1 находится оригинал, а дальше уже размещены дубликаторы. Частенько дубли придется чистить вручную.

Дубликаты страниц на сайте и их поиск: чем вредны дубли и как от них избавиться

При анализе сайта на предмет технических ошибок мы часто сталкиваемся с такой проблемой, как дубликаты страниц. Давайте подробнее разберемся, что это такое, какие виды дубликатов существуют, как их выявить и избавиться.
Примечание: если вы знаете что такое дубли страниц и чем они вредны для продвижения, можно сразу перейти в четвертый раздел «Как выявить дубли страниц».
Разберем общее понятие:
Дубликаты страниц — это полная или частичная копия основной веб-страницы на сайте, которая участвует в продвижении. Как правило копия находится на отдельном URL-адресе.
Чем вредны дубликаты страниц при продвижении сайта?
Многие владельцы сайтов даже не подозревают о том, что на сайте может присутствовать большое количество дубликатов, наличие которых плохо сказывается на общем ранжировании сайта. Поисковые системы воспринимают данные документы как отдельные, поэтому контент страницы перестает быть уникальным, тем самым снижается ссылочный вес страницы.
Наличие небольшого количества дублей страниц не будет являться большой проблемой для сайта. Но если их число зашкаливает, то от них необходимо избавляться в срочном порядке.
Виды дубликатов страниц
Существуют различные виды дубликатов страниц, самые распространенные из них представлены в рисунке 1:
Рис. 1. Виды дубликатов страниц
Разберем подробнее представленные виды дублей страниц.
Полные дубликаты страниц — полное дублирование контента веб-документа, различия только в URL-адресе.
Частичные дубликаты страниц — частичное дублирование контента веб-документов, когда дублируется наполнение сайта с небольшими различиями. Например, большие фрагменты текстов дублируются на нескольких страницах сайта — это уже частичные дубликаты или похожие карточки товаров, которые отличаются только одной незначительной характеристикой.
Внешние дубликаты страниц — полное или частичное дублирование контента на разных сайтах.
Технические дубликаты — это дубликаты, которые генерируются автоматически из-за неправильных настроек системы управления сайтом.
Дубликаты, созданные человеком — это дубликаты страниц, которые были созданы по невнимательности самим вебмастером.
Как выявить дубли страниц?
Способов обнаружить дубликаты страниц — множество. В данной статье рассмотрим несколько основных методов, которые используются в работе чаще всего.
1. Парсинг сайта в сервисе
При парсинге сайта в каком-либо сервисе (в последнее время чаще всего используют сервис Screaming Frog) наглядно можно увидеть страницы-дубликаты.
К примеру, когда не склеены зеркала либо у страниц есть какие-то параметры, которые добавляются автоматически при отслеживании эффективности рекламных кампаний и др.
Рис. 2. Пример парсинга сайта в сервисе Screaming Frog при не склеенных зеркалах
Небольшой лайфхак для работы с сервисом Screaming Frog: если у сайта огромное количеством страниц, и вы сразу заметили, что зеркала не склеены и поставили проект на парсинг, естественно процесс замедлится и уменьшит скорость работы вашей системы (если у вашего ПК, конечно, не мощные системные характеристики).
Чтобы этого избежать можно использовать функцию Configuration – URL Rewriting – Regex Replace.
В вкладке Regex Replace создаем следующее правило (используя регулярное выражение, «говорим» сервису, как нужно склеивать зеркала, чтобы он выводил только страницы с HTTPS):
Рис. 3. Скриншот из сервиса Screaming Frog — Использование функции URL Rewriting
Далее нажимаем кнопку «ОК» и переходим во вкладку «Test». В данной вкладке сервис вам покажет, правильно ли вы задали правило и как будут склеиваться зеркала. В нашем случаем должен выходить такой результат:
Рис. 4. Скриншот из сервиса Screaming Frog — Использование функции Test
Таким же способом можно склеивать страницы с «www» и без «www», а также задавать различные параметры, чтобы не выводить ненужные страницы (например, страницы пагинации).
После всех операций спокойно запускаем парсинг сайта без дополнительной нагрузки на систему.
2. Использование панели Яндекс.Вебмастер
В Яндекс.Вебмастер есть очень удобный пункт сервиса — «Индексирование» — «Страницы в поиске». Данный пункт наглядно показывает текущую индексацию сайта, а также дубликаты страниц (то, что мы ищем):
Рис. 5. Скриншот из панели Яндекс.Вебмастер — Использование функции Страницы в Поиске
Для полного анализа дубликатов страниц рекомендуется выгрузить xls-файл всех страниц, которые присутствуют в поиске:
Рис. 6. Выгрузка страниц в поиске из панели Яндекс.Вебмастер
Открываем наш xls-файл и включаем фильтр: Данные – Фильтр:
Рис. 7. Скриншот из xls-файла «Выгрузка страниц в поиске из панели Яндекс.Вебмастер»
В фильтре выбираем «DUPLICATE», и перед нами будет список дубликатов страниц. Рекомендуется проанализировать каждую страницу или один тип страниц, (если, например, это только карточки товаров) на предмет дублирования.
Например: поисковая система может признать дубликатами похожие карточки товаров с незначительными отличиями. Тогда необходимо переписать содержание страницы: основной контент, теги и метатеги, если они дублируются, либо такие карточки склеить с помощью атрибута rel=”canonical”. Другие рекомендации по избавлению от дубликатов страниц подробно описаны в пункте 5.
3. Использование Google Search Console
Заходим в Google Search Console, выбираем свой сайт, в левом меню кликаем «Вид в поиске» – «Оптимизация HTML» и смотрим такие пункты, которые связаны с термином «Повторяющееся»:
Рис. 8. Скриншот из панели «Google Console»
Данные страницы могут и не являются дубликатами, но проанализировать их нужно и при необходимости устранить проблемы с дублированием.
4. Использование операторов поиска
Для поиска дубликатов также можно использовать операторы поиска «site:» и «inurl», но данный метод уже устарел. Его полностью заменила функция «Страницы в поиске» в Яндекс.Вебмастере.
Рис. 9. Скриншот из поисковой выдачи – использование поисковых операторов
5. Ручной поиск
Для ручного поиска дубликатов страниц необходимо уже обладать знаниями о том, какие дубликаты могут быть. Вручную обычно проверяются такие типы дубликатов, как:
一 URL-адрес с “/” и без “/” в конце. Проверяем первую страницу сайта с “/” и без “/” в конце в сервисе bertal. Если обе страницы отдают код ответа сервера 200 ОК, то такие страницы являются дубликатами и их необходимо склеить 301 редиректом
一 добавление в URL-адрес каких-либо символов в конце адреса или в середине. Если после перезагрузки страница не отдает 404 код ответа сервера или не настроен 301 Moved Permanently на текущую основную страницу, то перед нами, по сути, тоже дубликат, от которого необходимо избавиться. Такая ошибка является системной, и ее нужно решать на автоматическом уровне.
Как избавиться от дубликатов страниц: основные виды и методы
В данном пункте разберем наиболее часто встречающиеся виды дубликатов страниц и варианты их устранения:
Не склеенные страницы с «/» и без «/», с www и без www, страницы с http и с https.

Варианты устранения:
一 Настроить 301 Moved Permanently на основное зеркало, обязательно выполните необходимые настройки по выбору основного зеркала сайта в Яндекс.Вебмастер.
Страницы пагинации, когда дублируется текст с первой страницы на все остальные, при этом товар разный.

Выполнить следующие действия:
一 Использовать теги next/prev для связки страниц пагинации между собой;
一 Если первая страница пагинации дублируется с основной, необходимо на первую страницу пагинации поставить тег rel=”canonical” со ссылкой на основную;
一 Добавить на все страницы пагинации тег:

< meta name=»robots» content=»noindex, follow» / >

Данный тег не позволяет роботу поисковой системы индексировать контент, но дает переходить по ссылкам на странице.
Страницы, которые появляются из-за некорректно работающего фильтра.

Варианты устранения:
一 Корректно настроить страницы фильтрации, чтобы они были статическими. Также их необходимо правильно оптимизировать. Если все корректно настроено, сайт будет дополнительно собирать трафик на страницы фильтрации;
一 Закрыть страницы-дубликаты в файле robots.txt с помощью директивы Disallow.
Идентичные товары, которые не имеют существенных различий (например: цвет, размер и т.д.).

Варианты устранения:
一 Склеить похожие товары с помощью тега rel=”canonical”;
一 Реализовать новый функционал на странице карточки товара по выбору характеристики. Например, если есть несколько почти одинаковых товаров, которые различаются только, к примеру, цветом изделия, то рекомендуется реализовать выбор цвета на одной карточке товара, далее – с остальных настроить 301 редирект на основную карточку.
Страницы для печати.

Вариант устранения:
一 Закрыть в файле robots.txt.
Страницы с неправильной настройкой 404 кода ответа сервера.

Вариант устранения:
一 Настроить корректный 404 код ответа сервера.
Дубли, которые появились после некорректной смены структуры сайта.

Вариант устранения:
一 Настроить 301 редирект со страниц старой структуры на аналогичные страницы в новой структуре.
Дубли, которые появляются из-за некорректной работы Яндекс.Вебмастера. Например, такие URL-адреса, которые заканчиваются на index.php, index.html и др.

Варианты устранения:
一 Закрыть в файле robots.txt;
一 Настроить 301 редирект со страниц дубликатов на основные.
Страницы, к примеру, одного и того же товара, которые дублируются в разных категориях по отдельным URL-адресам.

Варианты устранения:
一 Cклеить страницы с помощью тега rel=”canonical”;
一 Лучшим решением будет вынести все страницы товаров под отдельный параметр в URL-адресе, например “/product/”, без привязки к разделам, тогда все товары можно раскидывать по разделам, и не будут “плодиться” дубликаты карточек товаров.
Дубли, которые возникают при добавлении get-параметров, различных utm-меток, пометок счетчиков для отслеживания эффективности рекламных кампаний: Google Analytics, Яндекс.Метрика, реферальных ссылок, например, страницы с такими параметрами как: gclid=, yclid=, openstat= и др.

Варианты устранения:
一 В данном случае необходимо проставить на всех страницах тег rel=”canonical” со ссылкой страницы на саму себя, так как закрытие таких страниц в файле robots.txt может повредить корректному отслеживанию эффективности рекламных кампаний.
Устранение дублей позволит поисковым системам лучше понимать и ранжировать ваш сайт. Используйте советы из этой статьи, и тогда поиск и устранение дублей не будет казаться сложным процессом.
И повторюсь: малое количество дубликатов не так значительно скажется на ранжировании вашего сайта, но большое количество (более 50% от общего числа страниц сайта) явно нанесет вред.
Как самостоятельно проверить контент на дублирование
113
Дублированный контент может ввести Google в заблуждение. Если он находится на разных страницах вашего или других сайтов, поисковая система Google будет прибывать в неведении того откуда начать ранжирование. Прилагайте все усилия, чтобы избежать дублирования контента. Время от времени проводите проверку с целью выявить копии.
Как бы то ни было, если вы пишите замечательный контент, вам предстоит столкнуться с его дублированием. И копии этого контента не всегда будут содержать ссылку на ваш сайт. Это еще одна причина регулярно проверять контент на дублирование. В этой статье я расскажу вам, как быстро найти дублированный контент вашего сайта.
Сервис проверки дублированного контента CopyScape
Существует множество инструментов для поиска дублированного контента. Одним из самых известных вероятно является сервис CopyScape.com. Он прост в использовании: вставьте ссылку и CopyScape уведомит вас, на каких еще страницах размещается ваш контент:
Это первый этап. Мы получим какое-то количество результатов (в моем случае 1), представленных в виде результатов поиска Google.
Вполне может быть таких результатов намного больше. Просто выберете любой, чтобы получить более подробную информацию.

CopyScape красиво выделяет текст, который сервис определил, как дублированный, таким образом давая понять насколько серьезным было копирование. Кроме этого он может показать ссылки на сайты которые скопировали ваш контент. Если это всего-то 2% содержимого страницы, то заморачиваться не стоит. Если это более 40%, что составляет значительную часть страницы, я бы просто связался с ними посредством e-mail и попросил изменить скопированный текст.
«Между прочим, уважаемый коллега, если вы хотите копировать наш контент, пожалуйста, редактируйте его под свой веб-сайт. Фраза «в этой статье» в данном случае совершенно бессмысленна :P»
Кстати, мы часто сталкиваемся с тем, что описания производителей в онлайн магазинах оказываются дубликатами. Обычно, они автоматически импортируются в систему управления контентом магазина. Как правило, не только для вашего сайта. Помните об этом. Понимаю, что сделать уникальными описания для всех продуктов довольно хлопотно, но хотя бы начните с тех, которые пользуются наибольшим спросом и избавьте их от этой участи. Не откладывайте.
Пользуйтесь сервисом CopyScape, чтобы выявить контент, скопированный с вашего сайта на другие. Опять-таки, это один из многих инструментов, но в то же время бесплатный и простой в использовании. Если вы хотите несколько углубиться в тему дублированного контента и провести более глубокий анализ, CopyScape также предлагает премиум доступ.
Внутренняя проверка дублированного контента посредством «Siteliner»
Siteliner – это брат CopyScapes, который проводит поиск дублированного контента в пределах веб-сайта. Этот инструмент предназначен для поиска дублированного контента на вашем собственном сайте.
Очень типичным примером является случай, когда блог на WordPress не использует выдержки, а целиком показывает статью на своей домашней странице. Это свидетельствует о том, что пост доступен по крайней мере на двух страницах: на домашней и на той, которой находится оригинал. И помимо этого, вероятно, на страницах обзора, в разделах «категории» и «теги». Уже видим четыре версии одной и той же статьи на вашем собственном сайте.
Преимущество от использования выдержек заключается в том, что в них всегда имеется соответствующая ссылка на пост. Эта ссылка укажет Google, что оригинальный контент находится не на страницах блога/категории/тега, а в самом посте. Это в свою очередь означает, что у половины веб-сайтов в действительности имеются внутренние проблемы с дублированным контентом.
Сервис проверки дублированного контента «Siteliner» предоставит вам большое количество информации, но с ограничением в 250 страниц и 30 дней. И опять же, есть премиум-версия, но для формирования ясного представления будет достаточно и бесплатной. Просто произведите поиск, найдите страницу обзора и, пожалуйста, кликайте для получения более подробной информации. Не пугайтесь большого количества, имеющегося у вас дублированного контента, поскольку такая проверка расценивает, в качестве дублированного контента даже выдержки:
Процентные соотношение
Тогда, как Google понимает боковую панель, похоже на то, что CopyScape и Siteliner включают в свои процентные вычисления весь текст страницы. Пожалуйста помните об этом, когда вы пользуетесь одним из этих сервисов. Фактически же, процентное соотношение дублирующего контента при просмотре лишь основной его части, может быть выше. Будьте внимательны! Переживаю ли я на этот счет? Нет. Просто перейдите по одной из ссылок и проверьте на самом ли деле речь идет об отрывке. Общее количество совпавших слов – 223, но на самом деле, в основной разделе статьи к «дублированной части» относятся лишь 57 из 1086 слов. И очевидно, что отрывок ссылается на статью, так что все хорошо.
Поиск дублированного контента вручную
Сервисы CopyScape и Siteliner замечательны и удобны в использовании. Тем не менее, если вы хотите оценить дублированный контент с точки зрения Google, не примените им воспользоваться.
Если есть определенная страница, которую вы хотели бы проверить, просто перейдите на нее. Скопируйте фрагмент текста, желательно из раздела, который вы считаете привлекательным для копирования. Вставьте этот фрагмент в поле поиска Google, используя двойные кавычки, как показано ниже:

«Продвижение веб-сайта статьями – один из наиболее эффективных методов продвижения на сегодняшний день».
Ограничьтесь в этой фразе 32 словами, поскольку лишь столько Google примет во внимание. В моем случае, google показывает только мои страницы где встречается такая фраза. Это три ссылки на страницу самого поста, на главную страницу сайта и на категорию где размещена статья.
Отслеживайте собственный дублированный контент
Пользуйтесь сервисом поиска дублированного контента CopyScape, чтобы выявить, какой контент был скопирован с вашего сайта, и поисковой системой Google, чтобы узнать на каких еще веб-ресурсах он всплывет. Это простые инструменты, которые служат для достижения высокой цели – предотвратить дублирование контента.
Читать подробнее: Что такое дублированный контент
Как найти и убрать дубли страниц на сайте
SEOГлавная » SEO » Как найти и убрать дубли страниц на сайте
Дубли страниц — это страницы на сайте с одинаковым либо частично одинаковым содержанием. Опасность дублей страниц заключается в том, что у сайта снижается уникальность контента, а также в трудностях, которые будет испытывать поисковик при ранжировании: когда одному запросу может соответствовать несколько страниц, то становится труднее определить целевую, вследствие чего позиции будут крайне неустойчивыми.
Дубли страниц бывают двух видов:
полные — две идентичные страницы доступны по разным ссылкам
частичные — на двух разных страницах есть одинаковый контент
Полные дубли могут появиться вследствие нескольких причин:
Есть варианты страницы с www и без www
Страница может быть доступна по похожим ссылкам типа http://site.com/index и http://site.com/index.html
Допущены ошибки в иерархии сайта, и страница может быть одновременно доступна по ссылкам вида http://site.com/category/tovar.html и http://site.com/tovar.html
Дубли, появившиеся из-за реферальных ссылок или UTM-меток
Причины появления частичных дублей:
Страницы поиска, фильтров. Если в вашем магазине несколько десятков товар соответствует одному запросу, то они будут размещены на нескольких страницах результатов поиска, в которых будут дублироваться SEO-элементы, например, описание категории товаров.
Опять же актуально для интернет-магазинов: описание товаров может быть применимо к нескольким разным моделям, следовательно, один текст будет на разных страницах.
Версии страниц для печати. Они несколько упрощеннее исходных, не содержат ненужных элементов, но и повторяют основной их контент.
В целом, дубли появляются из-за технических неполадок, человеческого фактора либо особенностей функционирования движка сайта. Для ранжирования по-своему опасны и частичные, и полные дубли. При этом влияние первых слабее, но и обнаружить их бывает гораздо сложнее.
Как проверить наличие дублей страниц
Существует несколько способов проверки дублей страниц.
Оператор «site:»
Достаточно вбить в поиске Гугла данный оператор и домен, и найти страницы с одинаковыми заголовками либо сниппетами.
Использование Google Search Console
Необходимо перейти во вкладку «Оптимизация html» и посмотреть графу «Повторяющиеся заголовки (теги title)». Это не стопроцентная гарантия дублей, но страницы стоит проверить.
Программная проверка
Самый продвинутый способ. Нужно воспользоваться одной из программ-парсеров, например, Xenu, Netpeak Spider или Screaming Frog Seo Spider. Они просканируют ваш сайт и выдадут полный список всех страниц, где также можно будет отобрать потенциальные дубли исходя из одинаковых title и description.
Как убрать дубли страниц
Во-первых, конечно, нужно разобраться с причиной появления дублей. Хорошо, если это просто случайная ошибка, и такую страницу можно элементарно удалить и забыть. Если же дубли — это следствие сбоев в работе CMS, то, соответственно, нужно справиться с проблемами в движке, иначе дубли продолжат появляться. К основным же способом предупреждения появления дублей относятся.
Файл robots.txt
Простой способ, который заключается в том, что в сайте robots.txt вы запрещаете индексацию определенных страниц. Например, это делается командой такого вида:
Disallow:/page.html
301 редирект
Если у вас есть два одинаковых УРЛа, то посетителей можно автоматически перенаправлять с одного на другой с помощью 301 редиректа, что делается в файле .htaccess. Например, для перенаправления со страницы с www на страницу без www можно использовать код такого типа:
RewriteEngine on
RewriteCond %{HTTP_HOST} ^site.com$ [OR]
RewriteCond %{HTTP_HOST} ^www.site.com$
RewriteRule ^(.*)$ http://zerkalo.com/$1 [R=301,L]
Для редиректа с одной страницы на другую можно использовать команду
Redirect 301 /адрес страницы, с которой идет перенаправление /адрес страницы, на которую ведет редирект
Тег rel=canonical
Если у вас есть несколько дублей (например, страниц поиска или фильтра), то поисковику можно указать, какая страница должна участвовать в ранжировании. Это можно сделать, если в коде страниц, которые не являются для вас предпочтительным, указать на то, какая страница является главной. Нужно между тегами <head> и </head> прописать строчку такого вида:
<link rel=»canonical» href=»http://ссылка-основную-страницу»/>
Вывод
Дубли страниц, частичные и полные, представляют опасность для вашего сайта в том плане, что из-за их наличия будет нарушено ранжирование страниц. Особо ощутим эффект от полных дублей, но частичные дубли гораздо труднее выявить, и снижение позиций будет проходить не так заметно. Чтобы определить, есть ли на сайте дубли страниц, лучше воспользоваться специализированным софтом. Удаление дублей можно проводить вручную, или блокировать их появление с помощью файла robots.txt, 301 редиректа или определения канонических ссылок.
Ищем дубли при помощи нового Яндекс Вебмастера
Совсем недавно Яндекс запустил бета тестирование обновленного сервиса для вебмастеров.
В Яндекс Вебмастер были добавлены новые отчеты, существенно улучшена визуализация данных, изменился интерфейс и многое другое.
Нововведений достаточно много, но сегодня хотелось бы остановиться на отчете «Статистика индексирования», и как с его помощью можно обнаружить дубли и мусорные страницы.
На многих сайтах есть неинформативные страницы, которые сканируют поисковые системы, но не добавляют в свой индекс, т.к. понимают что они появились в результате технических ошибок. Работа seo специалиста как раз таки заключается в том, чтобы устранить все проблемы в сканировании и индексировании ресурса.
Если мы устраним десятки, а то и сотни мусорных страниц, на сканирование которых тратят время поисковые системы, мы сможем увеличить частоту сканирования и индексирования полезных страниц сайта, а следовательно и улучшить ранжирование ресурса в поисковых системах.
На странице отчета «Статистика индексирования» мы сможем узнать:
Какие страницы сайта сканирует робот;
Какие страницы робот исключил из поиска;
Какие страницы проиндексированы и находятся в индексе поисковой системы Яндекс.
Для поиска дубликатов и мусорных страниц достаточно проанализировать полный список загруженных Яндексом url-адресов.
В сервисе есть возможность выгрузить архив со всеми url-адресами, которые были просканированы роботом Яндекса. Для загрузки нужно перейти по ссылке :
В итоге мы получаем файл в формате .tsv, открыть который можно через Excel, Libre Office или простым блокнотом.
Файл также содержит следующие данные :
Коды ответа сервера.
Дату последнего сканирования в формате Unix time, преобразовать можно, задав в консоли запрос вида date -r .
Проиндексированность страниц.
В столбце «Double» находятся ссылки на дубликаты страницы, если они есть.
Примеры найденных ошибок на сайтах благодаря данным о загруженных страницах роботами Яндекса :
Сайт asteria.ua :
Были обнаружены следующие страницы:
http://asteria.ua/special/razdel/104.html
http://asteria.ua/uslugi/razdel/77.html
http://asteria.ua/kompaniya/razdel/27.html
http://asteria.ua/partneri/razdel/4.html
Это полные дубликаты страниц сайта, они не проиндексированы, но регулярно сканируются Яндексом, следовательно их нужно как можно скорее устранить.
Ещё несколько страниц дубликатов:
http://asteria.ua/index.php?get=easytostart.html
http://asteria.ua/index.php?get=vkluchenie.html
http://asteria.ua/index.php?get=uslugi.html
http://asteria.ua/index.php?get=kontakti.html
http://asteria.ua/index.php?get=shtraf_uvelichili.html
Эти страницы, на момент анализа, перенаправляли пользователей на корректный url-адрес с ЧПУ, но отдавали код 200, а не 301.
Сайт novebti.ua :
Были найдены дубликаты главной страницы сайта :
http://novebti.ua/?razdel=uslugi_view&content=41
http://novebti.ua/?razdel=uslugi_view&content=1
http://novebti.ua/?razdel=uslugi_view&content=26
http://novebti.ua/?razdel=reviews
С этих страниц нужно написать link rel=»canonical» на главную страницу сайта.
А также дубликаты других страниц сайта :
http://novebti.ua/index.php?do=contacts
http://novebti.ua/index.php?do=uslugi/razrabotka_gradostroitelnogo_rascheta
Страницы пагинации и тегов:
http://novebti.ua/faq?ask=true?p=35
http://novebti.ua/article?tag=%CD%EE%E2%EE%F1%F2%E8%20%EA%EE%EC%EF%E0%ED%E8%E8
http://novebti.ua/faq?ask=true?p=40
http://novebti.ua/faq?p=47
Страницы такого типа лучше всего закрывать при помощи мета тега robots=»noindex, follow».
Сайт asiamshop.com.ua :
Было обнаружено множество страниц вида:
http://asiamshop.com.ua/component/jcomments/captcha/32798
http://asiamshop.com.ua/component/jcomments/captcha/42306
Таких страниц много десятков, они генерируются модулем комментирования jcomments, такие страницы нужно закрыть от сканирования, так как они не несут никакой ценности.Так как у этих страниц нет возможности прописать мета тег robots, то лучше их закрыть при помощи файла Robots.txt.
Алина Глазырина
главный редактор блога Inweb
Вывод:
Основное преимущество сервиса состоит в том, что мы анализируем базу url-адресов поисковой системы, а не парсера страниц сайта, который не сможет найти url-адреса на которые нет внутренних ссылок.
Используя инструмент «Статистика индексирования» в новом Яндекс Вебмастере можно в течение 30 минут проанализировать страницы, которые посещает робот, обнаружить проблемы и продумать варианты их решения.
Если вы нашли ошибку, выделите участок текста и нажмите Ctrl + Enter или воспользуйтесь ссылкой, чтобы сообщить нам.
Что такое дубли страниц сайта? Как их найти и удалить из выдачи?
Некоторые SEO ошибки критично опасны и могут свести все усилия на нет. Одна из таких — дубли страниц. Они крайне негативно воспринимаются поисковыми роботами и существенно усложняют поисковое продвижение сайта. Поэтому важно убрать дубли страниц на сайте как можно быстрее.

Почему это так важно?

Когда на веб-сайте есть две одинаковых страницы, поисковики не могут понять, какую из них нужно показывать пользователям по релевантному запросу. И даже учитывая, что боты изучают и другие параметры, им все равно трудно решить, какой из дублей нужно выбирать.

Поэтому нужно найти и закрыть дубли страниц сайта, иначе вы столкнетесь с проблемами:

может снизиться рейтинг всего веб-сайта;

снижение позиции ключевых фраз;

скачки позиций из-за того, что система постоянно меняет релевантность между несколькими страницами.

Виды дубликатов

Чтобы эффективно искать дубли страниц и избавляться от них, нужно знать, каких видов они бывают.

Существует два типа:

полные дубликаты — копия страницы, размещенная на разных URL адресах;

частичные — дублируется часть содержимого.

Полные дубли

Это может быть:

одинаковые страницы по одинаковым URL адресам с www и без;

дубли страниц с html и https;

копии, созданные из-за реферальных ссылок;

проблемы с иерархией разделов, которые генерируют копии;

неправильно настроенная страница 404, создающая дубликаты;

дубли страниц без слеша в конце url.

Частичные дубли

Они обычно появляются из-за особенностей системы управления сайтом, и найти их сложнее.

Чаще всего это:

Копии, созданные страницами фильтров, сортировок и пагинации. Например, когда пользователь применяет фильтр товаров, URL адрес немного изменяется, и поисковые роботы индексируют эту страницу как отдельную. Но от смены адреса в данном случае контент не изменился.

Блоки комментариев и описаний. Здесь практически та же ситуация — переход к блоку отзывов, например, создает дополнительный параметр в адресе, но страница остается та же.

Печать и PDF для загрузки. Такие страницы полностью копируют содержимое веб-сайта.

Сгенерированные AJAX слепки страниц.

Как обнаружить копии?

Можно проверить сайт на ошибки несколькими способами:

Промониторить выдачу с помощью оператора “site:”

Это метод, позволяющий проверить дубли страниц сайта вручную. Выдачу, отфильтрованную оператором, нужно изучить визуально и выявить копии.

Программы

Существуют разные инструменты для вебмастеров, позволяющие быстро просканировать веб-сайт. Это может быть проверка сайта на дубли страниц онлайн или с помощью десктопных программ. Они выгрузят полный список адресов, который можно будет затем отсортировать и найти дубликаты.

Консоль Google

Google Search Console отображает список повторов мета-описаний и тэгов. Они могут быть признаками копий.

Как избавиться от дубликатов?

Первый и самый очевидный метод — удалить дубли страниц со слешем и другими частями URL адреса, которые создают копии. Также можно запретить роботам индексировать дубликаты, дописав условия в файл “robots.txt”. Это сработает со служебными страницами, которые повторяют содержимое основных.

Еще одно решение — настроить 301 редирект со страницы-дубля на соответствующую корректную страницу сайта. Это поможет с ошибками в иерархии разделов и reff-метками. Также можно проставить тэг “rel=canonical”, что решит проблему с фильтрами, сортировками и пагинацией. А если у вас на веб-сайте есть версии для печати, блоки с отзывами и другой информацией, воспользуйтесь тегом meta name=»robots» content=»noindex, nofollow». Это позволит скрыть подобные блоки от поисковых ботов.

Чаще всего копии создаются самой системой управления сайтом, поэтому лучше, чтобы выявлением дубликатов и их устранением занимался опытный специалист. Наша команда веб-студии Артджокер обладает большим опытом и крепкими знаниями в поисковой оптимизации и продвижении сайтов. Мы сможем обнаружить все ошибки, которые мешают раскрутке вашего ресурса, и исправить их. Также мы составим эффективную стратегию продвижения, которая позволит быстро добиться желаемых результатов.