Поиск дублей страниц сайта: как быстро найти дубли страниц — SEO на vc.ru

Содержание

Чем опасны дубли страниц сайта? Вред для продвижения

Чем опасны дубли страниц сайта? Вред для продвижения — ECG

+38 (067) 641 31 01

Чем опасны дубли страниц сайта? Вред для продвижения — ECG

Стоит ли повторяться? Алгоритмы Google и Яндекс считают, что не стоит, и поэтому негативно относятся к такому явлению, как дубли страниц на сайте. Небольшая и не слишком заметная для посетителей сайта недоработка, может стать причиной больших проблем при SEO-продвижении, сведя на нет все старания оптимизаторов, устаивая «качели» и снижая позиции веб-ресурса в поисковой выдаче.
Дубли страниц – это веб-страницы с разными URL-адресам, но с одинаковым или частично одинаковым тематически наполнением. Условно их делят на две категории: и частичные дубликаты, то есть со схожим наполнением, но с небольшими отличиями и полные дубликаты, то есть одинаковые страницы сайта с разными уникальными адресами.

Типичный пример – совпадающие описания на карточках товаров и в каталоге.

Как дублирующие страницы вредят продвижению?

Основная опасность этого явления лежит в области SEO. Оставаясь незамеченными, дубли страниц сайта приводят к таким проблемам в продвижении:

  • снижение релевантности. Поисковые боты не могут определить, – какой из дублей оптимально подходит под запрос пользователя, что вызывает падение или скачки позиций в поиске.
  • проблемы с индексацией дубликатов, из-за чего ведущие веб-страницы могут вообще не попасть в индекс и не отображаться в выдаче.
  • критическое снижение ссылочной массы за счет ошибок. Посетители и тематические ресурсы могут создавать ссылки на дубликаты, а не на непосредственно продвигаемые элементы.
  • увеличение бюджета. Дубли на сайте увеличивают количество страниц, и поисковому боту потребуется больше времени для сканирования страниц.

Как найти и исправить дубль страницы?

Дублирующая страница редко появляется в результате оплошности веб-мастера, хотя такое тоже случается, например, если товар представлен сразу в нескольких группах или категориях.

Чаще она является результатом автоматической генерации CMS сайта, возникает при изменении структуры сайта или при присвоении новых адресов.
Для обнаружения проблемы есть несколько подходов. Специалисты часто используют программы NetPeak Spider или Xenu, сервисы Serpstat, Search Console Google или Панель Вебмастера Яндекс, а так же поисковые операторы «inurl» и «site». Если сайт небольшой, то можно найти копии вручную.
Что бы исключить дублирующие страницы используется запрет на их сканирование и индексацию (robots.txt) и переадресация посредством 301-редиректа. Для страниц пагинации, url-меток, сортировок и фильтров товаров более удобен атрибут rel=»canonical». Самостоятельно выполнить этот комплекс действий сложно, так как необходим опыт и понимание работы инструментов поиска.

Как убрать дубли страниц с сайта: руководство и советы

23 фев., 2018

С позиции SEO-продвижения дубликаты страниц несут опасность для сайта. Их негативно воспринимают поисковые системы, а в худшем случае дубликаты могут стать причиной значительного падения трафика и проседания позиций сайта в целом. Для того, чтобы предотвратить возможные последствия, необходимо своевременно избавляться от дублей. Как? Об этом мы расскажем в нашей статье.

Чем опасны дубли страниц?

Показать опасность дубля можно на простом примере: представьте две полностью аналогичных страницы сайта с одинаковым содержимым. Содержимое — статья на тематику “Отдых в Таиланде”. Какая из этих двух статей будет более релевантной для поисковой выдачи? Обе страницы абсолютно одинаковы, но нужно выбрать только одну.

В аналогичной ситуации оказывается и краулер поисковой системы, который оценивает содержимое вашего сайта — из двух аналогичных страниц Яндекс или Гугл должны выбрать только одну страницу. В результате необходимости такого выбора могут возникнуть следующие проблемы:

  1. Снижение позиций ключевиков и проседание посадочной страницы.

  2. Постоянные скачки в позициях ключевых слов за счет того, что релевантная страница постоянно меняется.

  3. Когда проблема распространяется на весь сайт, возможно значительное понижение ранжирования всего ресурса.

Кроме того, в таком случае пропадает возможность правильной и точной проверки позиций ключевых слов в поисковых системах.

Резюмируя, все эти проблемы могут быть устранены еще до момента возникновения при условии своевременного устранения дублей страниц на сайте.

Как найти дубликаты страниц?

Рекомендуется использовать несколько (или один из нескольких) инструментов для поиска дублей. Разберем самые популярные:

  1. Поиск с помощью оператора site:/example.com. Что это дает: вы увидите все проиндексированные страницы сайта и сможете визуально определить наличие повторяющихся страниц. Целесообразно использовать в том случае, когда проиндексированных страниц не несколько тысяч.

  2. Парсеры и специальные сервисы. Есть специальные парсеры с разработанными поисковыми краулерами, которые после запуска программы сканируют ваш сайт. После этого вам будет доступна выкладка всех URL-адресов, которые затем можно отсортировать с помощью совпадений по метатегам title или description. Примером таких программ может быть Screaming Frog или Xenu.

  3. Google Search Console. Крайне удобный инструмент — вкладка “Оптимизация HTML” дает подробные данные по страницам, в том числе описание страниц с повторяющимися мета-тегами.

  4. Проведение ручного поиска на сайте. Целесообразно использовать, если сайт молодой и имеет небольшое количество страниц, или же вы достаточно опытный SEO-специалист и способны обнаружить дубли через ручной поиск.

После того, как дубли страниц были найдены, их необходимо устранить — далее мы рассмотрим способы, как удалить дубликаты с сайта.

Избавляемся от дублей страниц сайта

Устранить дубли можно 4 различными способами:

  1. Непосредственное удаление дублированной страницы.

  2. Выставление запрета на индексацию через файл robots.txt. Хорошо подходят для удаления дублей служебных страниц, которые часто повторяют контент посадочных.

  3. Настройка редиректов — в зависимости от ситуации, можно использовать 301, 302 или 307 редирект.

  4. Использование rel=canonical для страниц с сортировками, фильтрами или пагинации.

Достаточно часто дубли возникают не по вине SEO-специалиста или других сотрудников, а ввиду особенностей работы CMS сайта. Поэтому в случае появления дублей необходимо не только устранить их, но и определить причину их возникновения, и если она кроется в движке сайта — настроить его должным образом.

Дублированный контент и SEO: что проверяет Google?

Дублированный контент и SEO — плохое сочетание.

Если вы не хотите проводить совершенно апокалиптические SEO-кампании, вам абсолютно необходимо избегать дублирования контента.

Вместо этого сосредоточьтесь на создании фрагментов контента, которые будут уникальными, полезными и оптимизированными для читателей и поисковых систем.

Чтобы помочь вам избежать разрушительных последствий публикации дублированного контента, мы подробно рассмотрим, что такое дублированный контент, как он влияет на поисковую оптимизацию и что вы можете сделать, чтобы этого избежать.

Что такое дублированный контент в SEO?

Чем больше вы знаете о дублирующемся контенте, тем легче его избежать.

Согласно Google, дублирующийся контент – это «существенные блоки контента», которые полностью или частично совпадают с контентом, найденным в другом месте.

Дублированный контент может быть обнаружен на одном веб-сайте или опубликован в разных доменах. Любой веб-сайт, который публикует контент, может иметь проблемы с дублированием контента.

Независимо от того, есть ли у владельцев сайтов собственные авторы или они работают со сторонними авторами контента, во многих ситуациях веб-сайты непреднамеренно генерируют дублированный контент:

  • Страницы товаров и категорий. Некоторые веб-сайты электронной коммерции используют аналогичные шаблоны для страниц товаров и категорий.
    Эти шаблоны могут содержать фрагменты одной и той же информации, например описания категорий и инструкции по оформлению заказа.
  • Промежуточные сайты. Промежуточные сайты, на которых по какой-либо причине отсутствует тег noindex, хотя и встречаются редко, могут считаться дублирующим контентом. Промежуточные сайты — это экспериментальные копии веб-сайтов, используемые для предварительного просмотра и тестирования новых функций и изменений перед запуском.
  • Страницы с версиями для печати. ​​Некоторые веб-сайты создают версии страниц для печати для пользователей, которые могут захотеть провести исследование в автономном режиме. Хотя эти версии рассматриваются как дублированный контент, они обычно не оказывают негативного влияния на SEO.
  • Универсальные шаблоны веб-сайтов. Новые веб-сайты, которые никогда не подвергались сложной настройке, могут использовать шаблоны для систем управления контентом, загруженные предварительно сгенерированным текстом. Некоторыми примерами являются веб-сайты на базе WordPress, которые используют темы с содержимым по умолчанию для шаблонных страниц, таких как страницы контактов, страницы «О нас» и так далее.
  • Несколько URL-адресов, указывающих на одну и ту же страницу: Google может обнаруживать дубликаты страниц для контента, доступного по нескольким URL-адресам. Например, доступ к целевой странице можно получить, используя URL-адреса с HTTP или HTTPS, а также URL-адреса с «www» или без него.

Это лишь некоторые из множества примеров непреднамеренного создания дублированного содержимого. Удивлены тем, как легко получить дублированный контент? Хорошая новость в том, что не все из них плохие.

Применяет ли Google штраф за дублирование контента?

Короткий ответ: да — Google корректирует рейтинг и индексацию сайтов, признанных виновными в наличии дублирующегося контента. Однако это происходит ТОЛЬКО в том случае, если контент намеренно копируется для манипулирования рейтингом или введения пользователей в заблуждение.

Некоторые типы дублированного контента не создаются с целью манипулирования поисковым рейтингом, например, промежуточные сайты и копии описания продукта.

Google уже знает об этом, поэтому они не накладывают автоматически штрафы за дублирование контента на каждом веб-сайте, где они есть.

Почему Google заботится о дублирующемся содержании?

Во-первых, дублированный контент может помешать оригинальным сообщениям/контенту получить заслуженный рейтинг. А в некоторых случаях пользователи могут обнаружить, что один и тот же контент несколько раз появляется в результатах поиска.

Это ставит под угрозу пользовательский опыт и вредно для поисковой системы в целом.

Кроме того, если не проверять повторяющийся контент, это может привести к появлению мошеннических или подражательных веб-сайтов, которые процветают за счет повторной загрузки существующего контента.

Имейте в виду, что пользователи могут воспринимать веб-сайт, скопировавший несколько авторитетных сообщений, как заслуживающий доверия. По сути, это позволяет злоумышленникам пользоваться бесконечным количеством онлайн-контента для получения прибыли от теневых практик, не вкладывая средств в собственное создание контента.

Какие типы дублированного контента могут привести к штрафу Google?

Беспокоитесь о возможности штрафов за дублирование контента?

Согласно статистике, большинству владельцев веб-сайтов не нужно об этом думать.

На удивление распространен дублированный контент. На самом деле общеизвестно, что около 25–30 % контента в сети дублируется.

Но так как штраф Google может в одиночку убить бизнес в Интернете, никогда нельзя быть в полной безопасности. Используйте Google Search Console, чтобы узнать, получили ли вы штраф, и следуйте инструкциям, чтобы смягчить его.

Вот типы дублированного контента, которые могут негативно повлиять на SEO:

1. Дублированный контент, созданный авторами контента

Не все писатели созданы равными.

Есть те, кто копирует и вставляет контент с других сайтов (кашель — плагиат — кашель — так опасно — кашель).

В то время как есть другие, которые стараются проводить обширные исследования и мастерски пишут, чтобы гарантировать, что они не производят ничего, кроме эпического контента.

Вот почему вам нужно работать с проверенными внештатными писателями или командами.

Таким образом, вы сотрудничаете с преданными своему делу профессиональными авторами, которые не будут копировать и вставлять контент из других источников.

Более того, это те писатели, которые знают, как писать броские заголовки, интегрировать элементы, стимулирующие конверсию, в свои статьи и добиваться значимых результатов в кампаниях контент-маркетинга.

С другой стороны, компании, которые в конечном итоге публикуют дублированный контент из-за того, что их авторы копируют и вставляют контент, сталкиваются с огромным риском.

В дополнение к потенциальным штрафам Google, они могут столкнуться с судебными исками, которые могут нанести непоправимый ущерб их репутации.

Повысьте эффективность процесса найма. Внимательно проверяйте своих авторов или выбирайте агентство, имеющее проверенный опыт создания уникального ценного контента. Нажмите, чтобы твитнуть

2. Неправильно сконфигурированный синдицированный контент

Прежде всего, стоит упомянуть, что синдицирование контента — это законная маркетинговая стратегия, которую используют даже профессиональные маркетологи.

Распространение контента — это процесс повторной публикации существующего сообщения на другом веб-сайте или платформе. Некоторые примеры веб-сайтов синдикации контента включают:

  • Средний
  • LinkedIn
  • SlideShare
  • Квора

Владельцы веб-сайтов намеренно используют синдикацию контента, чтобы охватить своим контентом более широкую аудиторию. Хотя технически это квалифицируется как дублированный контент на разных доменах, обычно это не вызывает беспокойства.

Если только сайт, который распространил ваш контент, не содержал правильную обратную ссылку.

Без ссылки поисковые системы не узнают, какая версия является оригинальной. В результате синдицированный контент может в конечном итоге превзойти ваш сайт в рейтинге, если Google сначала не накажет вас штрафом.

3. Извлеченный контент

По мере роста популярности веб-сайта он может столкнуться с увеличением количества дублированного контента из-за парсеров контента.

Проще говоря, парсеры контента — это программное обеспечение, предназначенное для массовой загрузки контента с веб-сайтов — с разрешения владельца или без него. Он сильно отличается от других парсеров, которые предназначены только для извлечения определенных данных, таких как ключевые слова и различные показатели.

Черные маркетологи используют скребки для кражи контента для различных целей, таких как спам и прямая кража контента. Какой бы ни была эта цель, парсинг незаконного контента может привести к проблемам с дублированием контента для исходного источника.

Как избежать дублирования контента?

Шансы на штрафы Google за дублированный контент могут быть небольшими, но они существенны.

Дублированный контент может привести к снижению рейтинга веб-сайта, если Google обнаружит злонамеренное намерение. В некоторых случаях веб-сайт полностью попадает в черный список из-за появления в результатах поиска.

К счастью, есть несколько проверенных способов избежать проблем с дублированием контента:

1. Синдицируйте с осторожностью

Если распространение контента является важной частью вашей стратегии контент-маркетинга, делайте это с особой осторожностью.

Убедитесь, что синдицированный контент содержит ссылку с тегом «канонический» на исходный контент (также называемый каноническим URL-адресом).

Надежные веб-сайты распространения контента делают это по умолчанию. Но на всякий случай протяните руку и убедитесь, что на каждой из ваших статей есть канонический тег.

Совет:  используйте инструмент дублирования контента, такой как Ahrefs, чтобы найти дублированный контент внутри вашего сайта или на других сайтах.

2. Используйте тег «noindex» на страницах архивов и категорий

Если Google ранжирует страницы архивов или категорий выше вашего контента, вы можете заблокировать индексирование этих страниц с помощью тега noindex.

Все, что вам нужно сделать, это вставить простой метатег в раздел «» вашей страницы или публикации.

Чтобы заблокировать индексирование страницы всеми роботами поисковых систем, используйте:

Если вы хотите запретить Google индексировать только определенную страницу, используйте:

(Источник изображения: Developers.Google.com)

3. Проверка на наличие плохого дублированного контента

Существуют десятки инструментов, которые могут автоматически сканировать ваш сайт на наличие плохого дублированного контента. Хорошим примером может служить Ahrefs, который может проверять веб-сайты на наличие плохих дубликатов с помощью инструмента аудита сайта.

(Источник изображения: Ahrefs.com)

Вы также можете использовать Проверку дубликатов контента в инструментах SEO Review для поиска внутренних и внешних дубликатов на своем веб-сайте.

(Источник изображения: SEOReviewTools.com)

Внутренний дублированный контент относится к повторяющемуся контенту на вашем веб-сайте. Внешние дубликаты, с другой стороны, относятся к дублирующемуся контенту на разных сайтах.

Использование инструментов позволяет легко обнаружить непреднамеренное дублирование контента, которое может нанести вред SEO-профилю вашего сайта.

Если вы обнаружите дублирующийся контент, вот что вы можете сделать, чтобы его исправить:

  • Обозначьте исходный контент каноническим тегом
  • Используйте тег «noindex» для дубликатов
  • Удалить повторяющийся контент

4. Используйте средства проверки на плагиат

Для брендов, которые получают контент от подрядчиков, такой инструмент, как Copyscape , гарантирует, что вы публикуете 100% оригинальный контент.

Copyscape — это проверенная временем программа проверки на плагиат, которая мгновенно проверяет, содержит ли статья дублирующуюся информацию. Это должно быть в наборе инструментов каждого контент-маркетингового агентства.

(Источник изображения: Copyscape.com)

Помимо проверки на плагиат по требованию, Copyscape также имеет функцию «Copysentry». Всего за 4,95 доллара в месяц инструмент будет еженедельно проверять Интернет на наличие копий до 10 страниц.

Всякий раз, когда кто-то крадет ваш контент и публикует его в другом месте, Copyscape отправит вам предупреждение по электронной почте, чтобы вы приняли меры. Вы можете попросить удалить повторяющийся контент, запросить каноническую ссылку или подать заявку на удаление DMCA в разделе юридической помощи Google.

5. Объединение похожих страниц

Иногда страницы, на которых обсуждается одна и та же тема, содержат схожую информацию, которая может рассматриваться как дублирующаяся.

Например, у вас может быть список с перекрывающимися элементами, которые имеют почти идентичные описания продуктов. У вас также могут быть похожие целевые страницы с таргетингом на разные города, которые могут содержать кучу повторяющегося текста.

В обоих сценариях простое решение — объединить информацию в один пост.

Владельцам веб-сайтов также следует избегать использования общих шаблонов страниц, если только они не планируют выполнять сложные настройки. Это сводит к минимуму вероятность непреднамеренного создания дублированного контента, который может запутать читателей, а также роботов поисковых систем.

6. Будьте последовательны с внутренними ссылками

При создании внутренних ссылок на определенные страницы обязательно используйте один и тот же URL-адрес каждый раз.

Не ссылайтесь на «http://yoursite.com/blog/your-post/» в одной статье и на «https://www.yoursite.com/blog/your-post/» в другой. Использование одного URL-адреса для нескольких внутренних ссылок свидетельствует о том, что вы ссылаетесь на каноническую страницу.

Часто задаваемые вопросы

1. Что Google считает дублирующимся содержанием?

Google определяет дублированный контент как блоки контента, которые содержат информацию, аналогичную или «заметно похожую» на существующий контент. Заменить несколько слов синонимами или даже перефразировать целые абзацы недостаточно, чтобы скрыть дублирующийся контент от Google.

2. Можно ли копировать описания продуктов?

Повторяющиеся описания товаров никак не влияют на SEO. Если вы не вводите читателей в заблуждение, не стесняйтесь использовать скопированные описания продуктов там, где они имеют смысл.

3. Как чаще всего устраняют дублированный контент?

Использование тега rel=canonical устраняет множество проблем с дублированием контента, от параметров динамического URL до синдикации контента. Это универсальное решение, которое сообщает Google, как найти оригинальный контент.

Избегайте дублирования контента и доминируйте в своей отрасли

С помощью приведенных выше советов вы сможете избежать публикации дублированного контента и избежать его разрушительных последствий.

Если вам нужна стратегия контент-маркетинга, свободная от дублированного контента и способная увеличить доход и рост бизнеса, запланируйте звонок с нами прямо сейчас.

Наши менеджеры по успеху могут собрать (и управлять) команду опытных продюсеров, редакторов и писателей, чтобы удовлетворить все ваши потребности в контенте.

Дублированный контент | Изучите SEO

Что такое дублированный контент?

Дублированный контент — это любой контент, который появляется более чем в одном месте в Интернете, например статья, опубликованная на вашем веб-сайте и на другом веб-сайте. В зависимости от того, как обрабатывается ссылка на канонический URL, поисковые системы могут рассматривать это как дублированный контент, что влияет на вашу позицию в поиске. Контент, который появляется на двух страницах вашего собственного веб-сайта, также может считаться дублированным контентом. Это часто можно увидеть на международных веб-сайтах, где контент публикуется как на экземплярах веб-сайтов в США, так и в Австралии, или для розничных продавцов, управляющих локальными страницами с одной и той же информацией. Это также может произойти в маркетинговых кампаниях, где сообщение может немного отличаться для персонализации или других деловых соображений.

Контент также может считаться «дублированным контентом», если он по существу одинаков, но с небольшими отличиями.

Google и другие поисковые системы пропускают около половины контента на крупных корпоративных веб-сайтах. Упущенный контент = упущенная выгода.

Поисковые системы, такие как Google, пропускают примерно половину контента на крупных корпоративных веб-сайтах. Упущенный контент равен упущенной выгоде.

Поисковые системы увидят эти похожие фразы как «дублированный контент»

Поскольку оба этих сообщения семантически похожи, алгоритмы поиска будут анализировать их и считать, что это одно и то же содержимое. Старое эмпирическое правило заключается в том, что если 60% контента отличается, этого будет достаточно для поисковых пауков, чтобы считать контент уникальным. Тем не менее, многие в сообществе SEO отказались от этого правила, вместо этого работая над тем, чтобы в первую очередь предотвратить необходимость дублирования контента.

Является ли дублированный контент вредным для моего SEO?

Дублированный контент не влечет за собой штрафных санкций со стороны Google, за исключением серьезных повторных случаев. Однако то, что Google не будет наказывать ваш сайт, не означает, что это не повлияет на SEO. В течение многих лет внимание Google продолжало смещаться в сторону предоставления пользователям лучшего контента и опыта на сайте. Это означает, что если ваш контент такой же, как на другом веб-сайте, Google не имеет большого значения для высокого ранжирования контента, поскольку подобный контент уже существует.

Существует несколько способов, которыми дублированный контент может повлиять на вашу SEO-стратегию, если его много на вашем веб-сайте: 

  • Если у вас большой корпоративный веб-сайт, ваш краулинговый бюджет может быть быстро потрачен впустую, пытаясь вместо этого сканировать повторяющиеся страницы. чтобы пауки сосредоточились на страницах с наиболее ценным контентом на вашем сайте.
  • Без указаний от вас, владельца сайта, поисковые роботы Google могут запутаться в том, какую страницу следует сканировать и индексировать. Например, если вы и партнер публикуете одну и ту же статью без канонического URL-адреса, указывающего на исходную статью, у Google нет никаких сигналов, чтобы узнать, какой сайт должен получить «кредит» за контент.
  • Если у вас есть большое количество дублированного контента, Google может начать сомневаться в вашем E-A-T, что повлияет на ваше общее появление в результатах поиска, а не только на страницах с дублирующимся контентом.

Каковы распространенные причины дублирования контента?

Дублирование контента не всегда является результатом злонамеренных действий. Вместо этого это часто является результатом технических проблем SEO на вашем сайте. Вот некоторые из наиболее распространенных причин дублирования контента: 

  • Параметры URL-адреса : Несмотря на исключительную полезность для отслеживания источников трафика, параметры URL-адреса могут создать впечатление, что на вашем веб-сайте есть дублированный контент. В зависимости от вашей CMS существует несколько способов предотвратить эту проблему, например, полностью ограничить сканирование URL-адресов, содержащих параметры.
  • Косая черта в конце URL-адресов: Для большинства из нас botify.com/ и botify.com — это один и тот же URL-адрес, верно? Хотя они, скорее всего, разрешаются в одно и то же место, пауки поисковых систем часто видят в этом дублирующийся контент. Самый простой способ решить эту проблему — поддерживать строгую гигиену URL-адресов или всегда перенаправлять URL-адреса с косой чертой на слаги без косой черты.
  • www.botify.com v. botify.com : Как и в случае с косой чертой URL, описанной выше, некоторые веб-сайты могут не знать, что они размещают на www.site.com тот же контент, что и на site.com. Если это так, перенаправление 301 может помочь поисковым системам увидеть две дублирующиеся версии всего вашего сайта!
  • Локализация: Веб-сайты с глобальным присутствием обычно имеют сайты на местных языках для основных регионов деятельности.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *